北京智源人工智能研究院創(chuàng)始理事長(zhǎng),美國(guó)國(guó)家工程院外籍院士 張宏江
12月6日-7日,2024 T-EDGE創(chuàng)新大會(huì)暨鈦媒體財(cái)經(jīng)年會(huì)在北京市大興區(qū)舉辦,以“ALL-in on Globalization ,ALL-in on AI”為主題,匯聚全球科技和商業(yè)領(lǐng)導(dǎo)者,共同探討人工智能對(duì)全球各行業(yè)的巨大影響,以及企業(yè)全球化增長(zhǎng)新格局新趨勢(shì)。作為鈦媒體集團(tuán)每年年終舉辦的科技和財(cái)經(jīng)領(lǐng)域的頂級(jí)盛會(huì),T-EDGE一直代表了鈦媒體在科技與經(jīng)濟(jì)前瞻性,以及推動(dòng)國(guó)際創(chuàng)新交流上的高質(zhì)量追求。
12月7日,T-EDGE 全球AI論壇:All-in On AI會(huì)議上,北京智源人工智能研究院創(chuàng)始理事長(zhǎng),美國(guó)國(guó)家工程院外籍院士 張宏江,以“ChatGPT發(fā)布24個(gè)月后的6點(diǎn)觀察”為主題,圍繞 AI 大模型發(fā)展與應(yīng)用展開(kāi)深度演講。
張宏江表示,隨著ChatGPT風(fēng)靡全球,世界迎來(lái)新的 AI 革命,模型參數(shù)規(guī)模形成指數(shù)級(jí)“Scaling Law”發(fā)展。在發(fā)布24個(gè)月后的今天,張宏江認(rèn)為大模型領(lǐng)域有六個(gè)比較重要的技術(shù)趨勢(shì):Scaling Law沒(méi)有全面放緩,AI將創(chuàng)造新的操作系統(tǒng)、新平臺(tái)、新生態(tài),大模型推動(dòng)存量和新增應(yīng)用,多模態(tài)大模型是AGI的終極模型,多模態(tài)大模型賦能機(jī)器人,以及大模型的未來(lái)將迎來(lái)“自主智能”的世界。
張宏江指出,對(duì)于最近“Scaling Law放緩”、大模型面臨挑戰(zhàn)等傳聞和說(shuō)法,他認(rèn)為并不用擔(dān)心Scaling Law放緩?!凹词乖趐re-training(預(yù)訓(xùn)練)有放緩趨勢(shì),但GPT-o1的發(fā)布,讓我們看到另外一個(gè)天地,就是相對(duì)于預(yù)訓(xùn)練模型的‘快思考’模式,推理模型o1可以給更多的思考時(shí)間,Scaling Law的推理性能已出現(xiàn)‘拐點(diǎn)’,有一個(gè)指數(shù)級(jí)增長(zhǎng)?!?/p>
在張宏江看來(lái),未來(lái),多模態(tài)大模型將是 AGI 的終極模型形態(tài),形成從語(yǔ)音、圖片、視頻,到端到端統(tǒng)一的多模態(tài)大模型十分重要。同時(shí),AI應(yīng)用層面將從AI Infra(基礎(chǔ)設(shè)施)、AI PC、AI手機(jī),到 AI 軟件、自動(dòng)駕駛、(人形智能)機(jī)器人、AI for Science(科學(xué)智能)等領(lǐng)域都將迎來(lái)新的機(jī)遇。
“過(guò)去一年,美國(guó)有很多ToB應(yīng)用爆發(fā),但很遺憾,中國(guó)與美國(guó)在這點(diǎn)上有很大的差距,中國(guó)To B市場(chǎng)非常小,或者To B軟件公司收入規(guī)模遠(yuǎn)不如美國(guó),所以 AI 大模型重寫(xiě)軟件服務(wù)依然需要時(shí)間進(jìn)行落地?!睆埡杲Q(chēng)。
張宏江強(qiáng)調(diào),未來(lái)每個(gè)人都從 AI 助理走向Agent,最后每個(gè)人都擁有一個(gè)AutoPilot,大模型將迎來(lái)一個(gè)自主智能的世界。隨著大模型發(fā)展,統(tǒng)一的多模態(tài)大模型有望實(shí)現(xiàn)“突破”,這些新的技術(shù)變革,將讓 AGI 奇點(diǎn)即將到來(lái)。
以下是張宏江演講全文,經(jīng)整理:
各位鈦媒體的嘉賓,大家下午好!
今天,我想用下面的時(shí)間,跟大家分享一下我對(duì)于大模型的發(fā)展與應(yīng)用、過(guò)去ChatGPT發(fā)布的24個(gè)月的幾點(diǎn)觀察,我這邊總結(jié)出6點(diǎn):
1、Scaling Law(規(guī)模效應(yīng))還有效嗎?
近日,OpenAI發(fā)布了o1模型,其在推理方面很大程度上超過(guò)了人的平均IQ(通常智商)。這也是我們第一次看到在推理上,過(guò)去這些模型,第一次超過(guò)了人類(lèi)的IQ的平均值。
那么,先說(shuō)我的第一個(gè)觀察,因?yàn)樽罱蠹疫@個(gè)聊得比較多的,就是說(shuō)Scaling Law是不是發(fā)展“到頭”了?
在此之前,我們先回答,為什么Scaling Law如此重要?
當(dāng)ChatGPT這個(gè)幾千億參數(shù)的模型發(fā)布之時(shí),自然語(yǔ)言處理的性能形成了指數(shù)級(jí)提高,就是我們所說(shuō)的Scaling Law,它是大模型的規(guī)模定律。Scaling Law認(rèn)為,模型的參數(shù)增大,到一定程度的時(shí)候,你才真正能看到模型的精度,有一個(gè)突飛猛進(jìn)的增長(zhǎng),也就是出現(xiàn)“涌現(xiàn)”。
如果我們從圖上來(lái)看的話,這事實(shí)上是我們看到一個(gè)明確的拐點(diǎn),從一開(kāi)始現(xiàn)象的非常緩慢的增加,它的精度,突然到了一個(gè)拐點(diǎn),當(dāng)我們的規(guī)模到了一定程度以后,就出現(xiàn)一個(gè)拐點(diǎn)沖兒,它的性能有足夠性的往上講,那么在幾個(gè)方面都出現(xiàn)了這樣的拐點(diǎn),那么這個(gè)拐點(diǎn)我們把它叫做“涌現(xiàn)”。所以,我們過(guò)去的十幾年來(lái),看到模型越做越大,繼而看到了這個(gè)“規(guī)模效應(yīng)”。
最近這種說(shuō)法受到了一些挑戰(zhàn)。
首先,我們看到,現(xiàn)在很多模型訓(xùn)練到一定規(guī)模以后,好像沒(méi)有辦法的往前走,主要有幾個(gè)方面:一方面是說(shuō),數(shù)據(jù)是不是不夠;另一方面是說(shuō),算力是不是還夠。
其次,更重要的是,我好像很長(zhǎng)時(shí)間沒(méi)有看到大模型性能大的改善。比如,人們一直沒(méi)有看到GPT-5的發(fā)布,大家是不是認(rèn)為,這個(gè)模型到了某個(gè)規(guī)模的話,數(shù)據(jù)可能不夠了訓(xùn)練不出來(lái)了。這些問(wèn)題肯定是值得大家思考的。
然而,我想要說(shuō)的是,其實(shí)我們不用擔(dān)心Scaling Law放緩,因?yàn)槠浼词乖趐re-training(預(yù)訓(xùn)練)有放緩趨勢(shì),但GPT-o1的發(fā)布,讓我們看到另外一個(gè)天地,就是相對(duì)于預(yù)訓(xùn)練“快思考模式”,推理模型o1可以給更多的思考時(shí)間,所以,我們看到Scaling Law的推理性能出現(xiàn)“拐點(diǎn)”,有一個(gè)指數(shù)級(jí)增長(zhǎng)。
01模型的新方法:引入“思考時(shí)間“(thinking time)的概念,允許模型在給定的計(jì)算預(yù)算內(nèi)進(jìn)行更多的計(jì)算迭代。推理計(jì)算可能隨“思考時(shí)間”呈指數(shù)級(jí)增長(zhǎng),而不是線性增長(zhǎng)。
最后,在推理模型領(lǐng)域,Scaling Law效應(yīng)一直在持續(xù)而非放緩,這是我對(duì)此非常有信心的思考。
2、新操作系統(tǒng)、新平臺(tái)、新生態(tài)
如果大家去年聽(tīng)過(guò)我的演講的話,一定會(huì)對(duì)這張PPT不會(huì)陌生。
首先,大模型實(shí)際上是一個(gè)新的操作系統(tǒng),從而會(huì)建立一個(gè)新的平臺(tái),那么,我們同樣也需要建立一個(gè)新的生態(tài)。
我們看一下所謂的 AI 操作系統(tǒng)是什么,無(wú)非就是能夠獲取人的命令,能夠執(zhí)行人的命令,能夠調(diào)用數(shù)據(jù)來(lái)進(jìn)行計(jì)算。今天,大模型通過(guò)自然語(yǔ)言的交互,通過(guò)多模態(tài)的交互,就能夠理解人們的需求,能夠開(kāi)始執(zhí)行計(jì)算,所以我們說(shuō),大模型是新一代的操作系統(tǒng)。
其次,AI大模型擁有如此強(qiáng)大的技術(shù)能力,它將會(huì)重寫(xiě)所有的軟件。
最后,既然是一個(gè)新的操作系統(tǒng)、一個(gè)新的平臺(tái),那一定會(huì)產(chǎn)生一個(gè)新的生態(tài)。如果我們看一下,如果把模型作為最核心的一塊底層的話,實(shí)際上我們可以看到,云架構(gòu)、數(shù)據(jù)中心底層是芯片。
這就是為什么我們看到,英偉達(dá)過(guò)去兩年快速成長(zhǎng),云廠商和數(shù)據(jù)中心廠商過(guò)去兩年也快速成長(zhǎng),這都是由于大模型訓(xùn)練、推理所拉動(dòng)的。那同樣,為了訓(xùn)練模型,我們?cè)跀?shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)交互建立一個(gè)新生態(tài),AI infra也需要快速發(fā)展,才能讓大模型應(yīng)用落地。所以,這是一個(gè)非常豐富的生態(tài),比傳統(tǒng)的軟件生態(tài)要豐富的多,它能帶來(lái)的創(chuàng)新、影響、技術(shù)變革時(shí)間,也會(huì)相當(dāng)長(zhǎng)。
作為生態(tài)的推動(dòng)者,大模型不止要推動(dòng)硬件、芯片廠商,而且還要推動(dòng)數(shù)據(jù)中心相關(guān)的硬件廠商更進(jìn)一步,帶動(dòng)能源的需求,帶動(dòng)能源的發(fā)展。所以,我相信,AI 大模型生態(tài)鏈會(huì)比之前PC、手機(jī)的生態(tài)鏈要更加強(qiáng)大。
另外一點(diǎn),基礎(chǔ)模型訓(xùn)練成本如此之高,而端側(cè)、推理模型需求才剛剛開(kāi)始,AI PC、AI Phone手機(jī)會(huì)慢慢發(fā)展。
未來(lái),我相信大模型在數(shù)據(jù)中心、推理混合模式等方面,以及端側(cè)和云端的結(jié)合,會(huì)帶動(dòng)產(chǎn)業(yè)鏈快速發(fā)展。
3、大模型推動(dòng)存量和新增應(yīng)用
第三個(gè)觀察,我要分享,大模型將同時(shí)推動(dòng)存量和新增應(yīng)用。
過(guò)去兩年,我們好像沒(méi)有看到很多 AI “殺手級(jí)”應(yīng)用出來(lái),所以大家擔(dān)心這個(gè)“浪潮”是不是將會(huì)失去。但其實(shí),在技術(shù)快速發(fā)展的時(shí)候一定有很多機(jī)會(huì),而在技術(shù)平緩、成熟的時(shí)候,也同樣存在一定的機(jī)會(huì),AI 應(yīng)用的需求和數(shù)據(jù)中心的昂貴成本將推動(dòng)邊緣AI快速發(fā)展。
我認(rèn)為大模型應(yīng)用可能分為四個(gè)階段:
1)第一波增長(zhǎng)的 AI Infra(基礎(chǔ)設(shè)施)、芯片和數(shù)據(jù)中心、能源等;
2)第二部分是PC、智能手機(jī)等硬件應(yīng)用。
3)大規(guī)模 AI 應(yīng)用。其實(shí)在美國(guó),硬件端側(cè)設(shè)備還沒(méi)有起來(lái)之前,過(guò)去一年有很多 To B 應(yīng)用爆發(fā)性成長(zhǎng),但很遺憾,中國(guó)與美國(guó)有很大的差距,中國(guó)To B軟件市場(chǎng)非常小,或者說(shuō)To B軟件公司規(guī)模遠(yuǎn)不不如美國(guó),所以 AI 重寫(xiě)大模型依然需要時(shí)間落地。
4)大模型在物理層面的爆發(fā),比如自動(dòng)駕駛、(人形智能)機(jī)器人、AI for Science(科學(xué)智能)都會(huì)越來(lái)越廣泛、成熟發(fā)展。
所以,我們有理由相信,無(wú)論是自動(dòng)編程,還是智能交互、客服、內(nèi)容生成,大模型所推動(dòng)的 AI 應(yīng)用發(fā)展速度一定會(huì)超過(guò)早期的互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)時(shí)期。
4、多模態(tài)大模型是AGI的終極模型
我的第四點(diǎn)觀察是,多模態(tài)生成大模型是AGI(通用人工智能)的終極模型。
實(shí)際上,我們?nèi)伺c人交流是通過(guò)語(yǔ)言模型,但人與世界之間的互動(dòng),還需要視覺(jué)、語(yǔ)音等其他不同模型的形態(tài)。因此,統(tǒng)一的多模態(tài)大模型才能夠解決所有理解的問(wèn)題。
那么,我們過(guò)去一年就會(huì)看到多模態(tài)生成模型的快速發(fā)展,文生圖、文生視頻、圖生視頻等等,最有代表性的是OpenAI Sora,具有產(chǎn)生非常漂亮、內(nèi)容逼真視頻的能力,以及理解、描述和,模擬現(xiàn)實(shí)世界能力,展現(xiàn)出世界模型的雛形。世界模型是一個(gè)重要方向,是我們達(dá)到通用人工智能的重要一環(huán)。
近期,李飛飛創(chuàng)立的公司W(wǎng)orld Labs日前分享了一項(xiàng)成果,也非常震撼:只需單張圖像即可生成三維世界,團(tuán)隊(duì)研發(fā)的 AI 系統(tǒng)可以允許用戶(hù)進(jìn)入任何圖像,并以三維方式進(jìn)行探索其中的世界。這是非常非常重要的進(jìn)步。
通向通用人工智能(AGI),我們希望把所有理解現(xiàn)實(shí)世界的能力、交互能力、和生成能力,建立在一個(gè)模型里面,這樣才能真正接近我們?nèi)祟?lèi)思考的方式。要達(dá)到這個(gè)目標(biāo),形成端到端統(tǒng)一的多模態(tài)大模型十分重要。
比如,GPT-4o的發(fā)布,給人們呈現(xiàn)了所謂的“Her“ Moment,即電影”Here“中的主人公——AI 私人助理,逐漸有情感,開(kāi)始對(duì)人有依賴(lài),能給有情感的與人交互,那么,GPT-4o的演示恰恰表現(xiàn)出這種能力雛形,做到了生成、推理、語(yǔ)音、視覺(jué)等技術(shù)統(tǒng)一到一個(gè)模型當(dāng)中的“第一步”。智源研究院最近發(fā)布的EMU3大模型把統(tǒng)一的多模態(tài)大模型發(fā)展向前推進(jìn)了非常重要的一步。
5、多模態(tài)大模型賦能機(jī)器人
為什么我們認(rèn)為,多模態(tài)的發(fā)展如此重要?其實(shí)有一個(gè)點(diǎn)在于,有了多模態(tài)大模型的突破,我們才能夠真正的賦能于機(jī)器人,才能真正開(kāi)發(fā)出通用、能自我規(guī)劃、自主的機(jī)器人。
實(shí)際上,傳統(tǒng)機(jī)器人的模型完全是由人來(lái)設(shè)計(jì)的,把復(fù)雜任務(wù)分解變成“簡(jiǎn)單任務(wù)”,然后對(duì)于每個(gè)簡(jiǎn)單任務(wù)進(jìn)行人工設(shè)計(jì),由規(guī)則來(lái)驅(qū)動(dòng)運(yùn)動(dòng)的規(guī)劃,這是非常原始的模型。那么,有了語(yǔ)言大模型和世界大模型之后,我們能夠把復(fù)雜的任務(wù)通過(guò)多模態(tài)大模型分成“簡(jiǎn)單任務(wù)”,能夠聽(tīng)懂人的這種命令,然后又能夠進(jìn)一步通過(guò)視覺(jué)模型分解成機(jī)器的動(dòng)作,從而完成復(fù)雜-簡(jiǎn)單-機(jī)器動(dòng)作的過(guò)程。
未來(lái),多模態(tài)大模型驅(qū)動(dòng)的“具身智能”模型,能給讓復(fù)雜的任務(wù)一步到位,分解成機(jī)器的動(dòng)作,這是我們的目標(biāo)。
正是因?yàn)槎嗄B(tài)大模型的迅速發(fā)展,過(guò)去一年迎來(lái)了通用、人形機(jī)器人“熱潮”。但有一點(diǎn)我們要特別注意,中國(guó)在機(jī)器人的“本體”走在世界前列,但是需要有多模態(tài)大模型、具身智能的能力,只有具備這些能力后才能看到通用機(jī)器人的“起飛”(迅速發(fā)展)。
6、大模型的未來(lái):自主智能的世界
最后一點(diǎn)我的觀察就是,大模型的未來(lái)會(huì)帶來(lái)一個(gè)自主智能的世界。
我們過(guò)去幾十年看到 IT 產(chǎn)業(yè)不斷進(jìn)步,但PC、互聯(lián)網(wǎng)真正實(shí)現(xiàn)的是“信息系統(tǒng)”。而我們今天真正進(jìn)入的則是 AI 時(shí)代、模型時(shí)代。
那么未來(lái),隨著AI大模型的發(fā)展驅(qū)動(dòng),一定會(huì)讓我們進(jìn)入“自主智能”的時(shí)代。無(wú)論是軟件,還是機(jī)器人本體,都能夠有自主決策和行為能力,從而真正進(jìn)入所謂自主智能的世界。
無(wú)論是現(xiàn)有應(yīng)用,還是新的應(yīng)用層面,我們都可以看到大模型智能體(AI Agent)的廣泛賦能,而Agent的這種方式廣泛應(yīng)用需要智力、AI 能力的迅速提升。那么,隨著 AI 這一輪浪潮不斷發(fā)展,未來(lái)所有應(yīng)用都會(huì)像Copilot一樣無(wú)處不在,而且會(huì)越來(lái)越智能,從而將Copilot變成“AutoPilot”。
未來(lái),我們每個(gè)人都將有一個(gè) Agent。從助理、代理,再到AutoPilot,意味著未來(lái)大模型會(huì)給整個(gè)產(chǎn)品設(shè)計(jì)、社會(huì)組織、就業(yè)變化、業(yè)務(wù)成長(zhǎng)等方面帶來(lái)巨大機(jī)遇,會(huì)迎來(lái)一個(gè)自主智能的世界。
而這意味著,我們需要增加更多的GPU,訓(xùn)練更大模型、更強(qiáng)模型,以及更多的數(shù)據(jù),這些都會(huì)成為企業(yè)的核心資產(chǎn),大模型的未來(lái)對(duì)于我們生活和工作、企業(yè)組織、人員就業(yè)帶來(lái)非常深刻的變化。
7、結(jié)語(yǔ)
講了六點(diǎn)觀察,最后是我的結(jié)束語(yǔ):通用人工智能(AGI)奇點(diǎn)是不是已經(jīng)來(lái)臨?
如果你要問(wèn)馬斯克(Elon Musk),他說(shuō)已經(jīng)到了;如果問(wèn)美國(guó)AI大模型獨(dú)角獸Anthropic CEO Dario Amodei,他說(shuō)2026年;如果你要問(wèn)谷歌DeepMind CEO Demis Hassabis,他說(shuō)可能還有十年;如果問(wèn)辛頓(Geoffrey Hinton),他說(shuō)還有5-20年。
所以這意味著,技術(shù)發(fā)展比人們學(xué)習(xí) AI 的速度要快,人類(lèi)進(jìn)化的速度是一條直線,但 AI 技術(shù)發(fā)展的速度是一條指數(shù)級(jí)增長(zhǎng)曲線,始終沒(méi)有與人類(lèi)學(xué)習(xí)能力的曲線相交叉。那么,一旦它們之間出現(xiàn)“交叉”,那就是奇點(diǎn)的來(lái)臨。
今天,我們有理由相信,隨著大模型學(xué)習(xí)能力越來(lái)越強(qiáng),Scaling Law發(fā)展速度越來(lái)越快,AI 原生應(yīng)用迅速落地和成長(zhǎng),統(tǒng)一的多模態(tài)大模型實(shí)現(xiàn)“突破”,這些技術(shù)變革將讓奇點(diǎn)很快到來(lái),也就是所謂“自主智能”的時(shí)代很快到來(lái)。
好,謝謝大家!