文 | 適道
近期,圍繞Scaling Law的討論不絕于耳。
起因是,The information在一篇文章指出,OpenAI下一代旗艦?zāi)P蚈rion(或稱GPT-5)相較于現(xiàn)有模型,能力提升“有限”(代碼能力甚至不如現(xiàn)有模型),遠(yuǎn)不如GPT-3到GPT-4的躍升,而且Orion在數(shù)據(jù)中心的運(yùn)行成本更高。為此,OpenAI不得不連夜轉(zhuǎn)變策略。
如果其所言非虛,就不會(huì)只有OpenAI一家被困擾。
果不其然,Google也“出事”了。其下一代Gemini模型原本應(yīng)該是一次重大升級(jí),但有員工透露:近期在大幅增加資源投入后,模型性能未達(dá)到領(lǐng)導(dǎo)層預(yù)期,團(tuán)隊(duì)連夜調(diào)整策略。
與此同時(shí),Anthropic被曝已暫停推進(jìn)Opus 3.5的工作,官網(wǎng)還撤下了“即將推出”字樣。
“三巨頭”接連碰壁,讓人聯(lián)想到:Scaling Law可能失效了?
Scaling Law,即尺度定律,稱得上AI行業(yè)的大模型第一性原理。
2020年,OpenAI在論文Scaling Laws for Neural Language Models提出該定律。其核心的觀點(diǎn)是,影響大模型性能的三大要素:計(jì)算量、數(shù)據(jù)集大小、模型參數(shù)量。當(dāng)不受其他兩個(gè)因素制約時(shí),模型性能與每個(gè)單獨(dú)的因素都存在冪律關(guān)系。
只要Scaling Law成立,意味著“更大更好”“大力出奇跡的暴力美學(xué)”——大模型的能力可以通過堆更多的算力、搞更多的參數(shù),喂更多的數(shù)據(jù)得到大幅提升。
如今,當(dāng)模型規(guī)模和成本大幅增加,但實(shí)際性能卻提升“有限”時(shí),Scaling Law神話是否會(huì)被終結(jié)?
正方:Scaling Law神話終結(jié)
作為Scaling Law的早期倡導(dǎo)者之一,前OpenAI首席科學(xué)家Ilya Sutskever表示,擴(kuò)展訓(xùn)練的結(jié)果,已經(jīng)趨于平穩(wěn)。即,傳統(tǒng)的無監(jiān)督Pre-training已達(dá)極限。他說,2010年代是 Scaling的時(shí)代,現(xiàn)在我們?cè)俅位氐桨l(fā)現(xiàn)奇跡的時(shí)代。每個(gè)人都在尋找下一個(gè)奇跡?,F(xiàn)在重要的是擴(kuò)大“正確”的規(guī)模。
何謂“正確”?Ilya表示,SSI正在研究一種全新的替代方法,來擴(kuò)展預(yù)訓(xùn)練。
雖然他沒有透露新方法是什么,但根據(jù)OpenAI和Google的嘗試,或許可以窺探一二。
OpenAI的研究人員開發(fā)推理模型(reasoning models)等新技術(shù),用于彌補(bǔ)傳統(tǒng)訓(xùn)練方法的局限性。
Google也效仿這一思路。近幾周,DeepMind在Gemini團(tuán)隊(duì)內(nèi)組建了一個(gè)由首席研究科學(xué)家Jack Rae和前Character.AI聯(lián)創(chuàng)Noam Shazeer領(lǐng)導(dǎo)的小組,專注于開發(fā)類似能力。
DeepMind團(tuán)隊(duì)還在手動(dòng)優(yōu)化模型性能,包括調(diào)整超參數(shù)(hyperparameters)等變量。這些超參數(shù)決定了模型處理信息的方式,例如,迅速在訓(xùn)練數(shù)據(jù)中建立概念或模式之間的聯(lián)系。研究人員通過“模型調(diào)優(yōu)”測(cè)試不同的超參數(shù),以確定哪些變量將帶來最佳效果。
今年6月,普林斯頓大學(xué)計(jì)算機(jī)科學(xué)教授Arvind Narayanan與其博士生Sayash Kapoor發(fā)表了一篇文章AI scaling myths。文章指出,Scaling“崇拜論”是建立在一系列誤解之上。
第一,什么是“更好的”模型?具有“涌現(xiàn)能力”的模型。
Scaling僅僅將困惑度(perplexity)下降進(jìn)行了量化,即模型能夠預(yù)測(cè)下一個(gè)單詞。然而,對(duì)最終的用戶而言,困惑度幾乎毫無意義——真正重要的是模型規(guī)模增長(zhǎng)時(shí),模型呈現(xiàn)出的“涌現(xiàn)能力”,即模型隨著大小增加而獲得新能力的趨勢(shì)。
問題在于,“涌現(xiàn)能力”不受任何類似定律的支配。
為什么“涌現(xiàn)能力”不能無限持續(xù)?這一問題直指關(guān)于LLM能力的核心爭(zhēng)議:LLM究竟能否進(jìn)行外推,還是只會(huì)學(xué)習(xí)訓(xùn)練數(shù)據(jù)中已有的任務(wù)?現(xiàn)有證據(jù)尚不完整,不同研究者各執(zhí)一詞。但Arvind Narayanan團(tuán)隊(duì)傾向于懷疑態(tài)度。在一些專門測(cè)試LLM解決新任務(wù)能力的基準(zhǔn)測(cè)試中,其表現(xiàn)往往較差。
如果LLM無法超越訓(xùn)練數(shù)據(jù)中的內(nèi)容,就會(huì)進(jìn)入每一個(gè)傳統(tǒng)的機(jī)器學(xué)習(xí)模型最終都會(huì)進(jìn)入的平臺(tái)期。
第二,更多的數(shù)據(jù)從哪里來?
有人認(rèn)為,新的數(shù)據(jù)源(例如將YouTube轉(zhuǎn)錄為文本)可以增加一兩個(gè)數(shù)量級(jí)的可用數(shù)據(jù)量。確實(shí),YouTube包含約1500億分鐘的視頻內(nèi)容。然而,考慮到其中大部分視頻缺乏可用的音頻(例如音樂、靜止圖像或游戲畫面),經(jīng)過去重、質(zhì)量過濾后,實(shí)際可用的訓(xùn)練數(shù)據(jù)遠(yuǎn)少于Llama 3所使用的15萬億tokens。
退一步說,關(guān)于“數(shù)據(jù)耗盡”的討論并不合理。訓(xùn)練數(shù)據(jù)永遠(yuǎn)有,只是成本越來越高,比如版權(quán)、監(jiān)管等等。
對(duì)于LLM而言,我們可能還有幾個(gè)數(shù)量級(jí)的擴(kuò)展空間,也可能擴(kuò)展已經(jīng)結(jié)束了。如今,研究的重點(diǎn)已從構(gòu)建更大數(shù)據(jù)集,轉(zhuǎn)向提高訓(xùn)練數(shù)據(jù)的質(zhì)量。通過精心的數(shù)據(jù)清理和過濾,可以用更小的數(shù)據(jù)集構(gòu)建出同樣強(qiáng)大的模型。
第三,合成數(shù)據(jù)不是萬能魔藥。
還有一個(gè)觀點(diǎn),利用現(xiàn)有模型生成訓(xùn)練數(shù)據(jù)。
這個(gè)觀點(diǎn)同樣存在誤區(qū)——開發(fā)者并未(也無法)利用合成數(shù)據(jù)顯著增加訓(xùn)練數(shù)據(jù)的總量。
一篇論文詳細(xì)列出了合成數(shù)據(jù)在訓(xùn)練中的用途——主要集中在彌補(bǔ)特定領(lǐng)域的不足,例如數(shù)學(xué)、編程、低資源語言的優(yōu)化。同樣,英偉達(dá)最近推出的Nemotron 340B模型,專注于生成合成數(shù)據(jù),是將對(duì)齊作為其主要用途。雖然它也有一些其他用途,但取代現(xiàn)有預(yù)訓(xùn)練數(shù)據(jù)源并不在其中。
換句話說,盲目靠生成大量合成數(shù)據(jù),無法達(dá)到高質(zhì)量人類數(shù)據(jù)所具備的效果。
盡管如此,合成訓(xùn)練數(shù)據(jù)在某些場(chǎng)景中取得了巨大成功,例如2016年AlphaGo 擊敗圍棋世界冠軍,以及其后續(xù)版本 AlphaGo Zero 和 AlphaZero 的表現(xiàn)。這些系統(tǒng)通過自我對(duì)弈學(xué)習(xí),后兩者甚至能自己生成高質(zhì)量棋局。
自我對(duì)弈是“系統(tǒng)2-->系統(tǒng)1蒸餾”的經(jīng)典案例,即通過一個(gè)緩慢且昂貴的“系統(tǒng) 2”生成訓(xùn)練數(shù)據(jù),用于訓(xùn)練快速且廉價(jià)的“系統(tǒng) 1”模型。
這種方法在圍棋這樣完全封閉的環(huán)境中表現(xiàn)出色,將其推廣到游戲之外的領(lǐng)域仍然是一個(gè)有價(jià)值的研究方向。在某些重要領(lǐng)域(如代碼生成)中,這一策略或許可以發(fā)揮作用。然而,我們不能指望在更開放的任務(wù)(如語言翻譯)上實(shí)現(xiàn)類似的無限自我改進(jìn)??梢灶A(yù)見,通過自我對(duì)弈實(shí)現(xiàn)大幅提升的領(lǐng)域?qū)⑹翘乩?,而非普遍?guī)律。
反方:Scaling Law沒有墻
前方The information擾亂軍心,后方Sam Altman在X平臺(tái)上發(fā)言——there is no wall。
近期,他在Reddit的Ask Me Anything上也表示,OpenAI將在今年晚些時(shí)候發(fā)布“非常好的版本”。
只不過,鑒于“草莓”炒作的影響、Ilya Sutskever的威望,以及OpenAI的當(dāng)前表現(xiàn),Altman的話難免有“挽尊”之嫌。
Suleyman在近期采訪中表示:模型的規(guī)模既在變大,也在變小,這種趨勢(shì)會(huì)持續(xù)下去。去年開始流行一種新方法,稱為蒸餾。這類方法利用大型、高成本模型來訓(xùn)練小型模型。這種監(jiān)督效果相當(dāng)不錯(cuò),目前已有充分的證據(jù)支持這一點(diǎn)。因此,規(guī)模仍然是這場(chǎng)競(jìng)爭(zhēng)中的關(guān)鍵因素,未來還有很大的發(fā)展空間,數(shù)據(jù)量也將持續(xù)增長(zhǎng)。至少在接下來的兩三年內(nèi),Scaling Law在提供超預(yù)期表現(xiàn)方面的進(jìn)度不會(huì)有任何放緩。
今年10月21日,在微軟AI之旅倫敦站活動(dòng)上,Satya Nadella在演講中表示:Scaling Law是經(jīng)驗(yàn)觀察所得,但它被我們稱作定律,并且一直有效。
今年7月,微軟首席技術(shù)官Kevin Scott在接受紅杉資本合伙人采訪時(shí)表示:盡管其他人可能這樣想,但是我們?cè)谝?guī)?;喜]有遇到邊際收益遞減的情況。
11月14日,前谷歌CEO Eric Schmidt在播客中表示:沒有證據(jù)表明Scaling Law已經(jīng)開始停止。他預(yù)測(cè)在未來五年,人工智能系統(tǒng)的能力將是現(xiàn)在的100倍,能夠在物理和數(shù)學(xué)領(lǐng)域進(jìn)行推理。
Bindu Reddy表示,所謂的AI減速實(shí)際上無關(guān)緊要。主要原因在于AI技術(shù)發(fā)展的潛力已經(jīng)幾乎在各類基準(zhǔn)測(cè)試中得以體現(xiàn)。當(dāng)達(dá)到100/100的高分時(shí),就很難再找到新的突破方向。因此,AI 市場(chǎng)的“放緩”更多地反映了技術(shù)成熟度,而非創(chuàng)新能力的不足。(你信嗎?)
Scaling Law 2.0:token越多,精度也要越高
無論各位如何“挽尊”,都掩蓋不了大模型“減速”的事實(shí)——感受不到當(dāng)初的驚艷。
或許,還有其他辦法。
近期,來自哈佛大學(xué)、斯坦福大學(xué)、麻省理工等機(jī)構(gòu)的合作團(tuán)隊(duì)發(fā)表了一篇題為Scaling Laws of Precision的論文,引發(fā)瘋狂討論。
研究提出:精度在模型擴(kuò)展規(guī)律中比之前認(rèn)為的更加重要,可以顯著影響語言模型的性能。在以往描述模型性能隨參數(shù)量和訓(xùn)練數(shù)據(jù)量變化的擴(kuò)展規(guī)律,基本忽略了精度這一因素。隨著模型規(guī)模的不斷擴(kuò)大,低精度的量化或?qū)⒉辉儆行А?/p>
首先,通過實(shí)驗(yàn),研究人員制訂了新的精度縮放定律。另一項(xiàng)重要發(fā)現(xiàn)則提出了預(yù)訓(xùn)練期間計(jì)算的最優(yōu)精度。根據(jù)該研究,當(dāng)同時(shí)優(yōu)化參數(shù)數(shù)量、數(shù)據(jù)和精度時(shí),這一精度通常與計(jì)算預(yù)算無關(guān)。
其次,普遍采用的16位模型訓(xùn)練法并非最優(yōu),因?yàn)楹芏辔皇嵌嘤嗟摹H欢?,使?位進(jìn)行訓(xùn)練則需要不成比例地增加模型大小,以維持損失縮放。研究人員的計(jì)算表明,對(duì)于較大的模型而言,7-8位是計(jì)算最優(yōu)的。
當(dāng)模型大小從一開始就固定時(shí),情況就會(huì)發(fā)生變化:更大且更好的模型應(yīng)以更高的精度進(jìn)行訓(xùn)練——例如,使用16位的Llama 3.1 8B模型。實(shí)際的計(jì)算節(jié)省還取決于硬件對(duì)更低精度的支持。這里研究的模型(參數(shù)最多達(dá)17億個(gè))尚未在最大的實(shí)際規(guī)模上進(jìn)行測(cè)試。不過,這些一般趨勢(shì)仍然適用于更大的模型。
CMU教授 Tim Dettmers表示,這是長(zhǎng)久以來最重要的一篇論文。他認(rèn)為,人工智能的大部分進(jìn)步都來自計(jì)算能力的提升,而(最近)這主要依賴于低精度路線的加速(32- > 16 - > 8位)?,F(xiàn)在看來,這一趨勢(shì)即將結(jié)束。再加上摩爾定律的物理限制,大模型的大規(guī)模擴(kuò)展可以說要到頭了。他預(yù)計(jì),隨著低精度帶來的效率提升達(dá)到極限,將出現(xiàn)從純規(guī)模擴(kuò)張向?qū)S媚P秃腿吮緫?yīng)用的轉(zhuǎn)變。
AGI路漫漫。不過,大家無需灰心。
退一萬步,正如OpenAI研究人員Steven Heidel 所言,就算現(xiàn)在LLM 停滯了,在當(dāng)今模型的基礎(chǔ)上,還有至少十年的產(chǎn)品等著你去開發(fā)。
是不是又干勁十足了。
參考:
1、Scaling Laws終結(jié),量化無用,AI大佬都在審視這篇論文,機(jī)器之心
2、新Scaling Law浮出水面!OpenAI內(nèi)部員工爆料下一代模型Orion性能堪憂;量化Llama3困難,這些都有了新解,51CTO技術(shù)棧