全球科技界近日因DeepSeek的崛起而沸騰。在直播中,馬斯克攜手其所謂的“地球上最聰明的AI”——Gork 3亮相,他聲稱該AI的推理能力超越了所有已知模型,并在推理-測(cè)試時(shí)間得分上優(yōu)于DeepSeek R1和OpenAI o1。這一消息緊接著微信宣布接入DeepSeek R1進(jìn)行灰度測(cè)試,被視為AI搜索領(lǐng)域即將迎來(lái)巨變的前兆。
目前,微軟、英偉達(dá)、華為云、騰訊云等眾多全球科技巨頭已紛紛接入DeepSeek。網(wǎng)友們更是腦洞大開,開發(fā)出算命、預(yù)測(cè)彩票等新奇應(yīng)用,其熱度直接轉(zhuǎn)化為經(jīng)濟(jì)效益,推動(dòng)DeepSeek的估值飆升,最高已達(dá)到千億美金。DeepSeek之所以備受矚目,除了其免費(fèi)且易用的特點(diǎn)外,還因?yàn)樗鼉H以557.6萬(wàn)美元的GPU成本就訓(xùn)練出了與OpenAI o1實(shí)力相當(dāng)?shù)腄eepSeek R1模型。相比之下,過(guò)去幾年的“百模大戰(zhàn)”中,國(guó)內(nèi)外AI大模型公司動(dòng)輒投入幾十億甚至上百億美元。
然而,Gork 3成為“全球最聰明AI”的代價(jià)同樣不菲,馬斯克透露Gork 3的訓(xùn)練累計(jì)消耗了20萬(wàn)塊英偉達(dá)GPU(每塊成本約3萬(wàn)美元),而據(jù)業(yè)內(nèi)人士估計(jì),DeepSeek的訓(xùn)練成本所用的GPU數(shù)量?jī)H在1萬(wàn)多張。盡管如此,從50美元到上百億美元的訓(xùn)練成本差異,仍引發(fā)了廣泛討論:DeepSeek的能力究竟有多強(qiáng)?訓(xùn)練一個(gè)大模型需要多少錢?涉及哪些環(huán)節(jié)?
業(yè)內(nèi)人士指出,在解答這些問(wèn)題前,需要先澄清一些誤解。首先,DeepSeek并非只有一個(gè)模型,而是包含多個(gè)大模型,每個(gè)模型的功能各不相同。557.6萬(wàn)美元只是其通用大模型DeepSeek-V3訓(xùn)練過(guò)程中的GPU花費(fèi),即凈算力成本。通用大模型與推理大模型DeepSeek-R1的主要區(qū)別在于技術(shù)實(shí)現(xiàn)和應(yīng)用場(chǎng)景:通用大模型接收明確指令,基于概率預(yù)測(cè)快速回答;而推理大模型則接收簡(jiǎn)單任務(wù),基于鏈?zhǔn)剿季S逐步推理得出答案。
其次,盡管推理大模型是前沿技術(shù),但并不意味著它比通用大模型更高級(jí)或更好用。大模型領(lǐng)域?qū)<覄⒙斨赋?,?duì)于某些問(wèn)題,如詢問(wèn)某個(gè)國(guó)家的首都,推理大模型可能不如通用大模型高效且準(zhǔn)確,甚至?xí)霈F(xiàn)過(guò)度思考導(dǎo)致錯(cuò)誤答案的情況。因此,他建議在進(jìn)行數(shù)學(xué)難題、挑戰(zhàn)性編碼等復(fù)雜任務(wù)時(shí)使用推理模型,而在總結(jié)、翻譯、基礎(chǔ)問(wèn)答等簡(jiǎn)單任務(wù)中,通用模型更為適用。
在評(píng)估DeepSeek的真正實(shí)力時(shí),綜合權(quán)威榜單和專家意見,DeepSeek在推理大模型和通用大模型領(lǐng)域均位列前茅。推理大模型第一梯隊(duì)包括OpenAI的o系列、Google的Gemini 2.0、DeepSeek-R1以及阿里的QwQ。盡管DeepSeek-R1被視為國(guó)內(nèi)頂尖模型,但與OpenAI最新的o3相比仍有一定差距。然而,它的出現(xiàn)大大縮小了國(guó)內(nèi)外頂尖水平之間的差距,從之前的2-3代差距縮小到了0.5代。
在通用大模型領(lǐng)域,第一梯隊(duì)包括Google的Gemini(閉源)、OpenAI的ChatGPT、Anthropic的Claude以及DeepSeek和阿里的Qwen。盡管DeepSeek-R1震驚了全球科技圈,但每家大模型產(chǎn)品都有其自身的優(yōu)勢(shì)和局限性。例如,劉聰發(fā)現(xiàn)DeepSeek最新發(fā)布的多模態(tài)大模型Janus-Pro在圖像理解和生成任務(wù)上的表現(xiàn)并不理想。
關(guān)于訓(xùn)練大模型的成本問(wèn)題,劉聰表示大模型的誕生主要分為預(yù)訓(xùn)練和后訓(xùn)練兩個(gè)階段。預(yù)訓(xùn)練涉及大量文本語(yǔ)料的輸入,使模型完成知識(shí)攝??;后訓(xùn)練則包括模型微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RLHF),使模型學(xué)會(huì)如何運(yùn)用所學(xué)知識(shí)。無(wú)論是通用大模型還是推理大模型,國(guó)內(nèi)外遵循的都是這一流程。然而,各家大模型的訓(xùn)練成本差異巨大,主要集中在硬件、數(shù)據(jù)和人工三個(gè)方面。
硬件方面,是購(gòu)買還是租賃GPU會(huì)直接影響成本。購(gòu)買前期投入大但后期成本低,而租賃則持續(xù)產(chǎn)生費(fèi)用。數(shù)據(jù)方面,是購(gòu)買現(xiàn)成數(shù)據(jù)還是自行爬取數(shù)據(jù),也會(huì)影響成本。每次訓(xùn)練的成本、中間迭代的版本數(shù)量以及是否存在算力浪費(fèi)現(xiàn)象等因素,都使得最終成本難以準(zhǔn)確預(yù)估。盡管外界曾按照GPU估算頂尖模型的訓(xùn)練成本,但由于閉源和算力浪費(fèi)等因素,實(shí)際成本難以知曉。直到DeepSeek以557.6萬(wàn)美元的成本出現(xiàn)。
然而,需要注意的是,557.6萬(wàn)美元只是DeepSeek技術(shù)報(bào)告中提到的基座模型DeepSeek-V3的訓(xùn)練成本,并不包括前期研究、架構(gòu)及算法的試錯(cuò)等成本。而且,DeepSeek-R1的具體訓(xùn)練成本在論文中并未提及。半導(dǎo)體市場(chǎng)分析和預(yù)測(cè)公司SemiAnalysis指出,考慮到服務(wù)器資本支出、運(yùn)營(yíng)成本等因素,DeepSeek的總成本在4年內(nèi)可能達(dá)到25.73億美元。盡管如此,與其他大模型公司相比,DeepSeek的成本仍然較低。
DeepSeek不僅在模型訓(xùn)練階段效率更高,在調(diào)用推理階段也更高效、成本更低。從DeepSeek給出的各大模型API定價(jià)可以看出,其成本遠(yuǎn)低于“OpenAI們”。DeepSeek-R1的API定價(jià)為每百萬(wàn)輸入tokens 1元(緩存命中),每百萬(wàn)輸出tokens 16元;而OpenAI的o3-mini的定價(jià)分別為0.55美元(4元人民幣)和4.4美元(31元人民幣)。低價(jià)策略使得中小企業(yè)更容易接入DeepSeek。
DeepSeek之所以能夠?qū)崿F(xiàn)低成本高效益,關(guān)鍵在于從模型結(jié)構(gòu)到預(yù)訓(xùn)練和后訓(xùn)練的全面優(yōu)化。例如,在模型結(jié)構(gòu)上,DeepSeek采用了細(xì)粒度專家分割和共享專家隔離技術(shù),提高了MoE參數(shù)效率和性能;在數(shù)據(jù)處理上,使用了FP8低精度訓(xùn)練來(lái)加速深度學(xué)習(xí)訓(xùn)練;在后訓(xùn)練中的強(qiáng)化學(xué)習(xí)上,選擇了GRPO算法來(lái)降低算力要求;在推理層面上,用多頭潛在注意力機(jī)制(MLA)替代了傳統(tǒng)的多頭注意力(MHA),顯著降低了顯存占用和計(jì)算復(fù)雜度。
DeepSeek的降本不僅給從業(yè)者帶來(lái)了技術(shù)上的啟發(fā),也影響了AI公司的發(fā)展路徑。英諾天使基金合伙人王晟指出,AI產(chǎn)業(yè)在跑通AGI方向上通常有兩種路徑選擇:一種是“算力軍備”范式,另一種是“算法效率”范式。DeepSeek的一系列模型證明了在天花板漲不動(dòng)的情況下,將重點(diǎn)放在優(yōu)化效率而非能力增長(zhǎng)上的范式具有可行性。