DeepSeek近期推出的R1與V3大型語言模型(LLMs)掀起業界熱議。
Counterpoint Research 12日發表DeepSeek相關資料指出,DeepSeek近期推出的R1與V3大型語言模型(LLMs)掀起業界熱議。這兩款開源模型不僅展現卓越性能,更在成本上具備顯著優勢,API價格比ChatGPT o1低達96%,顛覆AI產業過往對高效能模型須依賴巨額資金與算力堆砌的認知。
DeepSeek透過創新的計算效率,使其AI模型在表現上可與市場領先者競爭。這不僅讓投資人開始關注「資源高效運用」對AI發展的潛在影響,也可能促使產業重新審視現有的擴展法則,反思大規模算力是否仍是訓練先進模型的唯一途徑。
隨著DeepSeek發布其高效能模型,市場對AI運算資源需求的預期產生動搖,導致資料中心相關企業股票出現普遍下跌。特別是NVIDIA,1月27日股價單日暴跌近17%,市值蒸發超過5000億美元,創下美股史上最大單日跌幅。儘管之後市場有所回穩,但投資人仍密切關注AI基礎設施支出的未來走向。
隨著DeepSeek和Meta等公司推動開源AI,市場對封閉式專有模型(如OpenAI)形成更大挑戰。開源LLMs的崛起正在改變AI生態系,使競爭格局從技術領先轉向成本與可用性競爭。值得關注的是,DeepSeek的成功不僅涉及技術創新,也帶入地緣政治因素,其發布時機與美國5000億美元「星門計畫(Stargate Project)」的宣布相近,耐人尋味。
DeepSeek透過多種技術突破,大幅降低訓練成本:
- 強化學習(Reinforcement Learning): 運用「鏈式思考(Chain of Thought)」技術,使模型能夠自我調適與推理,減少記憶與計算資源需求。
- 稀疏激活(Sparse Activation): 僅啟用部分模型參數(671B參數中僅37B參數活躍),降低計算負擔。
- 8位元精度(8-bit Precision): 採用FP8混合精度技術,有效降低GPU記憶體使用與計算成本。
- 多Token預測(Multi-Token Prediction): 一次預測多個詞元,加速訓練與推理過程。
據業內消息,DeepSeek訓練其模型僅使用約2000至2048張NVIDIA H800 GPU,並額外獲取約10,000張A100 GPU,整體訓練預算約600萬美元。相比OpenAI與Anthropic等競爭對手動輒投入超過1億美元,DeepSeek的成本控制策略確實展現了AI訓練的新可能性。
市場影響與未來展望
Counterpoint Research表示,儘管DeepSeek在成本與技術上展現突破,其訓練成本的真實性仍受市場質疑,業界亦關注其是否接受政府補助或未披露的資源支持。不過,DeepSeek的成功已促使產業重新審視AI發展模式,可能對半導體與數據中心市場帶來長期影響。
DeepSeek的創新是否將改變AI發展規則?AI產業能否擺脫高昂算力依賴,走向更可持續發展的模式?這些問題將成為未來市場觀察的焦點。