近期,AI領(lǐng)域迎來了一股新的熱潮,Deepseek憑借其創(chuàng)新技術(shù)和迅猛的用戶增長,迅速成為業(yè)界的焦點(diǎn)。通過采用稀疏激活的MoE架構(gòu)、MLA注意力機(jī)制優(yōu)化及混合專家分配策略,Deepseek不僅實(shí)現(xiàn)了高效的訓(xùn)練和推理能力,還大幅降低了API調(diào)用成本,樹立了行業(yè)的新標(biāo)桿。
尤為引人注目的是,Deepseek在用戶增長方面的表現(xiàn)堪稱奇跡。僅在發(fā)布后的7天內(nèi),其用戶數(shù)就突破了1億大關(guān),這一速度遠(yuǎn)遠(yuǎn)超過了OpenAI的ChatGPT,后者用了整整2個(gè)月才達(dá)到同樣的里程碑。這一成就不僅彰顯了Deepseek的技術(shù)實(shí)力,也預(yù)示著AI市場即將迎來新的變革。
隨著Deepseek的火爆,關(guān)于其本地部署的教程也在網(wǎng)絡(luò)上如雨后春筍般涌現(xiàn)。然而,這些教程往往只強(qiáng)調(diào)了Deepseek的強(qiáng)大功能,卻對其不同版本之間的差異語焉不詳。尤其是“蒸餾版”與“滿血版”Deepseek-R1之間的差距,對于普通用戶而言,更是一頭霧水。
事實(shí)上,目前公開發(fā)布的小尺寸DeepSeek-R1模型,都是通過Qwen或Llama從R1中蒸餾而來,以適應(yīng)不同性能設(shè)備的調(diào)用需求。這意味著,無論是7B還是32B的DeepSeek-R1,在本質(zhì)上都更像是“R1味兒”的Qwen模型,與“滿血版”671B的R1存在顯著的差距。
為了直觀展示這種差距,我們進(jìn)行了一系列測試。在語言能力測試環(huán)節(jié),我們要求7B、32B和671B的DeepSeek-R1分別用“新年快樂萬事如意”寫一首藏頭詩。結(jié)果令人驚訝,7B版本的R1竟然出現(xiàn)了明顯的bug,輸出結(jié)果既沒能“藏頭”,也不像一首“詩”,甚至還在文中夾雜了英語。相比之下,32B的R1雖然押韻方面存在瑕疵,但勝在對仗工整,內(nèi)容上也沒有邏輯錯(cuò)誤。而“滿血版”的R1則表現(xiàn)最為出色,不僅對仗工整、韻腳得體,還給出了詩詞的賞析內(nèi)容。
在聯(lián)網(wǎng)總結(jié)測試環(huán)節(jié),我們將R1與網(wǎng)絡(luò)搜索相結(jié)合,測試不同尺寸下對于網(wǎng)絡(luò)內(nèi)容的匯總能力。結(jié)果發(fā)現(xiàn),7B模型的輸出結(jié)果并不穩(wěn)定,偶爾會(huì)出現(xiàn)對詩詞理解出現(xiàn)偏差的情況。而32B的R1輸出則相對穩(wěn)定,對詩詞內(nèi)容理解的準(zhǔn)確性有了較大提高。當(dāng)然,“滿血版”的R1依舊表現(xiàn)最為優(yōu)秀,不僅能夠完整展示詩句內(nèi)容,還會(huì)在答案中增加點(diǎn)評與背景陳述。
我們還進(jìn)行了邏輯推理測試和代碼能力測試。在邏輯推理測試中,我們發(fā)現(xiàn)無論是7B還是32B的模型,在數(shù)學(xué)運(yùn)算能力方面都表現(xiàn)得相當(dāng)出色。然而,在代碼能力測試中,7B的Deepseek-R1生成的游戲程序存在bug,無法正常運(yùn)行。而32B的模型則能夠生成可以正常運(yùn)行的貪吃蛇游戲程序。
從這一系列測試中不難看出,DeepSeek-R1的7B和32B版本與“滿血版”671B之間存在顯著的差距。因此,對于普通用戶而言,本地部署更多是用來搭建私有數(shù)據(jù)庫或讓有能力的開發(fā)者進(jìn)行微調(diào)與部署使用。官方測試結(jié)論也顯示,32B的DeepSeek-R1大約能夠?qū)崿F(xiàn)90%的671B的性能。然而,即便如此,本地部署的門檻仍然較高,不僅需要高性能的硬件設(shè)備,還需要額外的聯(lián)網(wǎng)功能或本地化數(shù)據(jù)庫支持。
對于大多數(shù)普通用戶而言,費(fèi)勁心力搭建的本地大模型可能未必有市面上主流的免費(fèi)大模型產(chǎn)品來得簡單、方便、效果好。因此,在選擇是否進(jìn)行本地部署時(shí),用戶需要權(quán)衡利弊,根據(jù)自身需求和條件做出明智的決策。