李飛飛團(tuán)隊(duì)s1模型：50美元背后的通義千問(wèn)監(jiān)督微調(diào)真相

發(fā)布時(shí)間：2025-02-07 17:53 來(lái)源：鈦媒體APP 作者：趙云飛

近日，AI領(lǐng)域再次掀起波瀾，一項(xiàng)由斯坦福大學(xué)和華盛頓大學(xué)研究人員主導(dǎo)的新研究引發(fā)了廣泛關(guān)注。據(jù)報(bào)道，該研究團(tuán)隊(duì)以極低的成本——不到50美元的云計(jì)算費(fèi)用，成功訓(xùn)練出了一款名為s1的人工智能推理模型，其表現(xiàn)據(jù)稱(chēng)與OpenAI的O1和DeepSeek的R1等尖端模型不相上下。

然而，深入探究后發(fā)現(xiàn)，這一“復(fù)刻奇跡”背后，實(shí)則站在了巨人的肩膀上。s1模型的訓(xùn)練并非從零開(kāi)始，而是基于阿里云的通義千問(wèn)Qwen2.5-32B-Instruct這一開(kāi)源基礎(chǔ)模型進(jìn)行的有監(jiān)督微調(diào)。研究團(tuán)隊(duì)精心策劃了一個(gè)包含1000個(gè)問(wèn)題的小型數(shù)據(jù)集s1K，這些問(wèn)題均配有詳細(xì)的推理過(guò)程和答案，涵蓋了數(shù)學(xué)、科學(xué)等多個(gè)領(lǐng)域。通過(guò)在這個(gè)小數(shù)據(jù)集上進(jìn)行微調(diào)，并結(jié)合一種名為“預(yù)算強(qiáng)制”的測(cè)試時(shí)技術(shù)，s1模型得以在保持性能的同時(shí)，有效控制了測(cè)試時(shí)的計(jì)算量。

“預(yù)算強(qiáng)制”技術(shù)的核心在于，通過(guò)強(qiáng)制結(jié)束或延長(zhǎng)模型的思考過(guò)程，來(lái)優(yōu)化其性能。這種方法使得模型能夠在生成答案的過(guò)程中進(jìn)行二次檢查，從而修正錯(cuò)誤的推理步驟。實(shí)驗(yàn)結(jié)果顯示，在使用s1K對(duì)Qwen2.5-32B-Instruct進(jìn)行微調(diào)，并配備“預(yù)算強(qiáng)制”功能后，s1-32B模型在競(jìng)賽數(shù)學(xué)問(wèn)題上的表現(xiàn)甚至超過(guò)了O1-preview模型。

盡管s1模型的訓(xùn)練成本極低，但這50美元僅涵蓋了云計(jì)算服務(wù)費(fèi)用，并未包括服務(wù)器、顯卡等硬件投入。實(shí)際上，訓(xùn)練過(guò)程是在16個(gè)NVIDIA H100 GPU上進(jìn)行的，用時(shí)僅需26分鐘。這一低成本高效率的訓(xùn)練方式，無(wú)疑為AI領(lǐng)域的研究提供了新的思路。

對(duì)于“50美元復(fù)刻DeepSeek”的說(shuō)法，DeepSeek方面并未直接回應(yīng)。但當(dāng)被問(wèn)及通過(guò)蒸餾監(jiān)督微調(diào)進(jìn)行模型訓(xùn)練的看法時(shí)，DeepSeek表示，這是一種有效的模型訓(xùn)練方法，尤其在模型壓縮、遷移學(xué)習(xí)和性能提升方面具有顯著優(yōu)勢(shì)。DeepSeek還從技術(shù)背景、優(yōu)勢(shì)與挑戰(zhàn)等多個(gè)角度對(duì)蒸餾監(jiān)督微調(diào)進(jìn)行了詳細(xì)分析。

事實(shí)上，蒸餾監(jiān)督微調(diào)在AI模型訓(xùn)練中并不罕見(jiàn)。許多主流大模型，如DeepSeek-R1和Kimi k1.5等，都采用了這種方法。這證明了蒸餾在提升模型性能方面的有效性。然而，值得注意的是，蒸餾畢竟是建立在強(qiáng)大開(kāi)源模型的基礎(chǔ)之上，其效果并非小模型自身所能達(dá)到。

盡管如此，s1模型的案例仍然為AI領(lǐng)域的研究提供了新的啟示。它表明，通過(guò)合理的數(shù)據(jù)集策劃、有效的訓(xùn)練策略以及創(chuàng)新的測(cè)試時(shí)技術(shù)，即使在低成本的條件下，也能夠訓(xùn)練出具有強(qiáng)大推理能力的AI模型。這一發(fā)現(xiàn)無(wú)疑將激發(fā)更多研究者對(duì)于低成本高效能AI模型的探索。

s1模型的訓(xùn)練過(guò)程也凸顯了云計(jì)算在AI領(lǐng)域的重要性。隨著云計(jì)算技術(shù)的不斷發(fā)展，越來(lái)越多的AI研究將能夠借助云端強(qiáng)大的計(jì)算能力，實(shí)現(xiàn)低成本高效率的訓(xùn)練。這將進(jìn)一步推動(dòng)AI技術(shù)的普及和應(yīng)用，為人類(lèi)社會(huì)帶來(lái)更多的便利和創(chuàng)新。

s1模型的誕生不僅展示了AI領(lǐng)域研究的最新成果，更為未來(lái)的研究提供了寶貴的經(jīng)驗(yàn)和啟示。盡管“50美元復(fù)刻DeepSeek”的說(shuō)法略顯夸張，但s1模型所展現(xiàn)出的低成本高效率的訓(xùn)練方式，無(wú)疑將為AI技術(shù)的發(fā)展注入新的活力。

更多>同類(lèi)內(nèi)容