12月6日-7日,2024 T-EDGE創(chuàng)新大會暨鈦媒體財(cái)經(jīng)年會在北京市大興區(qū)舉辦。
12月7日上午T-EDGE 全球AI論壇:All-in On AI會議上,智譜CEO張鵬以“GLM 大模型與通用人工智能之路”為主題,圍繞 AI 大模型發(fā)展與應(yīng)用展開深入演講。
張鵬表示,AI 大模型并沒有進(jìn)入到“平臺期”或者進(jìn)入“蕭條期”,實(shí)際有很多問題要做。而且,大模型的發(fā)展空間不僅是盯著簡單的語言生成,視覺、聽覺、運(yùn)動(dòng)、基礎(chǔ)的模態(tài)能力等各方面,多模態(tài)、推理和Agent等能力都在遵循著Scaling Law(尺度定律),發(fā)展?jié)摿Ψ浅4蟆?/p>
在張鵬看來,大模型發(fā)展至今開始逐步具有上述人類與現(xiàn)實(shí)物理世界互動(dòng)的能力:L1語言能力進(jìn)程 80%、L2邏輯能力(多模態(tài)能力)60%、L3使用工具的能力進(jìn)程 30%,甚至L4自我學(xué)習(xí)的能力也正在逐漸出現(xiàn)。
對于OpenAI最新發(fā)布的o1 Pro模式的推理模型,張鵬認(rèn)為,滿血版o1再次將復(fù)雜問題求解的能力推上新臺階,復(fù)雜推理的發(fā)展非常值得期待。
“瞄向AGI的路程還很長,有大量的任務(wù)等待我們做,大可不必那么悲觀說在語言層面上碰到的(Scaling Law)停滯現(xiàn)象,我們就覺得AGI‘完蛋’了?!睆堸i指出,對于人類本身的 AI 能力是比較明確的,我們需要對照人類的智能能力去打造通用人工智能(AGI)。
實(shí)際上,自2023年3月智譜 AI 推出千億開源基座對話模型ChatGLM系列以來,GLM大模型經(jīng)歷四個(gè)大版本迭代,共發(fā)布了超過20款 AI 模型技術(shù)和產(chǎn)品。截至2023年底,智譜 AI 已擁有超過2000家生態(tài)合作伙伴、超過1000個(gè)大模型規(guī)模化應(yīng)用,覆蓋傳媒、咨詢、消費(fèi)、金融、新能源、互聯(lián)網(wǎng)、智能辦公等多個(gè)細(xì)分場景。
張鵬認(rèn)為,如今的Agent可以做到像人一樣,理解界面、規(guī)劃任務(wù)、使用工具、完成任務(wù),從而更聰明地代替人類行動(dòng)。我們對于對于AI 內(nèi)心所真正期待的是,AI 像人一樣,擁有各種各樣類型能力,而且都在水平線以上的綜合性AI能力,并且能夠像人一樣處理復(fù)雜任務(wù),而不是單一任務(wù),從而解答復(fù)雜的問題。
展望未來,張鵬強(qiáng)調(diào),隨著語言模型、多模態(tài)以及AI Agent等技術(shù)走向成熟,從整個(gè)技術(shù)演進(jìn)方面來看,我們對此非常有信心,真正讓大模型的技術(shù)能夠走入現(xiàn)實(shí)世界,幫助大家解決更復(fù)雜的問題。同時(shí),這些技術(shù)在成熟的過程當(dāng)中,讓這些技術(shù)變成相應(yīng)產(chǎn)品,創(chuàng)造更大的生產(chǎn)力價(jià)值,以及相應(yīng)的市場回報(bào)。
“對于智譜來講,我們的目標(biāo)永遠(yuǎn)是讓‘機(jī)器像人一樣思考’,并且讓機(jī)器服務(wù)人類?!睆堸i在結(jié)尾表示。
以下是張鵬在鈦媒體2024T-EDGE上的演講實(shí)錄,經(jīng)鈦媒體AGI整理:
非常榮幸能夠來到鈦媒體的年會現(xiàn)場,和大家進(jìn)行分享。
最近關(guān)于AI、關(guān)于大模型的討論非常多,有不同的觀點(diǎn)進(jìn)行激烈的碰撞,我最近會被很多人問這樣一個(gè)問題:AI未來發(fā)展的空間到底在哪里。
下面,我們可以先看關(guān)于AI未來圖景的劃分。
從OpenAI對于AI的能力分級劃分可以看到,它把 AI 能力分5級。
在目前的1、2、3級,OpenAI現(xiàn)在已經(jīng)取得非常不錯(cuò)的成績,尤其在語言能力,已經(jīng)達(dá)到人類最頂尖的專家級水平,這也正是大家所討論的,所謂Scaling Law見頂?shù)念I(lǐng)域,語言數(shù)據(jù)使用完,水平也沒有如預(yù)期的持續(xù)往上增長。
那么,這是否意味著,AI 大模型進(jìn)入到“平臺期”或者進(jìn)入“蕭條期”?其實(shí)并沒有,實(shí)際有很多問題要做。
如Level 2,人類水準(zhǔn)的問題求解能力。實(shí)際上,復(fù)雜推理能力非常值得期待,也就是前天剛剛發(fā)布的滿血版o1,再次將復(fù)雜問題求解的能力推上新臺階。大模型的發(fā)展空間不僅是盯著簡單的語言生成,或是回答這樣的小問題。它(非語言模型)的空間非常大。
而在Level 3,使用工具,讓AI能夠和物理世界、現(xiàn)實(shí)世界當(dāng)中的各種工具和系統(tǒng)進(jìn)行對接,進(jìn)而產(chǎn)生更大的生產(chǎn)力效果,這也是非常重要的事情。
當(dāng)然,未來還可以期待 AI 做自己的發(fā)明創(chuàng)造,像AlphaGo戰(zhàn)勝人類選手一樣,把AI用在科學(xué)的探索。以及未來AI如何像人類這樣的個(gè)體一樣,形成智體的群落進(jìn)行自組織。
在 AGI 發(fā)展路徑上,我們智譜有自己的想法。前3級和OpenAI差不多,而Level 4、Level 5兩級的時(shí)候更多的想法。比如,如何實(shí)現(xiàn)類似像GPT-Zero,Alpha-Zero這樣的升級,以及如何利用 AI 的自學(xué)習(xí)能力拓展科學(xué)邊界,以及未知的世界。
但是,這里面我們?nèi)祟惾プ鯝GI也好,AI也好,唯一的參考系就是我們自己,就是人類本身。對于人類本身的能力,AI 能力是比較明確的,就是我們對照人類的智能能力去打造AGI。
這里面我們做了一些統(tǒng)計(jì)和分析,當(dāng)然很粗略。
比如,在書寫和語言理解方面,已經(jīng)接近人類專家水平,甚至比人類專家更加有效。在視覺、聽覺、運(yùn)動(dòng)、基礎(chǔ)的模態(tài)能力等各方面,我們有了長足的進(jìn)步。尤其近1年,從年初Sora多模態(tài)生成能力,到視頻生成能力,再到開源、閉源等方向,都在遵循著Scaling Law(尺度定律)。
工具的使用能力也是最近半年來說進(jìn)展非??斓念I(lǐng)域,從最早所謂的Function Call(函數(shù)調(diào)用)能力開始,進(jìn)化到現(xiàn)在能夠使用手機(jī)、電腦幫助完成復(fù)雜的操作,取得非常快的進(jìn)步。但我們依然覺得(AI 作用)不止如此,它不止能完成非常簡單的事情,發(fā)展空間非常大,更抽象的創(chuàng)新能力、和物理世界的機(jī)器人、設(shè)備進(jìn)行交互的運(yùn)動(dòng)控制等,存在著大量空白(發(fā)掘)區(qū)域。
瞄向AGI的路程還很長,有大量的任務(wù)等待我們做,大可不必那么悲觀說在語言層面上碰到的(Scaling Law)停滯現(xiàn)象,我們就覺得AGI“完蛋”了。
如果再把剛才那張圖再把它進(jìn)行量化,按照階梯式一層層的往上推演,很明顯,Scaling Law還是沿著發(fā)展的階梯狀往“天花板”逼近,上面還有大把的空白空間。而且,這里面也標(biāo)注我們的進(jìn)展,從最初的語言模型,到視覺模型,視覺理解、視覺生成,到聲音,到實(shí)時(shí)的交互,到邏輯的推理,以及o1,甚至到使用工具Agent能力,遠(yuǎn)遠(yuǎn)都不是讓我們停下來的理由,有非常多的事情等待著我們?nèi)プ觥?/p>
我們一直在對標(biāo)著世界最前沿的技術(shù)做這件事。
當(dāng)然,你問為什么每項(xiàng)技術(shù)都對標(biāo)它,而不是某項(xiàng)能力做到最好,或者做到極限,從而進(jìn)行商業(yè)化。在智譜看來,這源自我們對于AGI的認(rèn)知。
大家都知道,上一代的AI其實(shí)在某些單項(xiàng)能力上,比如說識別人臉、識別圖像,在限定范圍內(nèi)它比人類做的好,它已經(jīng)突破了人類的上限,但它為什么沒有改變生產(chǎn)力的結(jié)構(gòu),改變生產(chǎn)關(guān)系,只是作為一種工具嵌入在很多的應(yīng)用系統(tǒng)當(dāng)中。我們思考過這個(gè)問題,在于我們所內(nèi)心里真正期待的是,AI 像人一樣,擁有著各種各樣類型的能力,而且都在水平線以上,并且能夠像人一樣處理復(fù)雜任務(wù),而不是單一任務(wù),永遠(yuǎn)只能停留在工具層面,它起不到革命性、范式性的創(chuàng)新作用。
所以像我們常說的一個(gè)原理——“木桶原理”一樣,當(dāng)你的能力存在明顯缺陷的時(shí)候,它并不足以產(chǎn)品革命性的范式變化,頂多又是另外一個(gè)更強(qiáng)力的錘子而已。我們現(xiàn)在不再需要錘子,我們需要的是更強(qiáng)大的東西。
今年終于借著8月新的基座模型GLM-4-Plus的發(fā)布,文本能力、圖像分析理解能力、視頻分析理解能力、語音模型等能力集齊之后,我們終于可以嘗試讓大模型、讓 AI 能力像人一樣,能夠面對現(xiàn)實(shí)世界當(dāng)中的復(fù)雜任務(wù)。
不要小看你們在現(xiàn)場拿著手機(jī),刷短視頻、在小紅書上刷日記等這樣操作,其實(shí)這都蘊(yùn)含著人類各種各樣的能力,視覺能力、自然語言理解能力、操作能力、控制能力等。這就是我剛剛講到的,我們需要有這些一些完整的能力。
今年8月基座模型GLM-4-Plus上線,我們終于可以帶領(lǐng)世界最頂級的基座模型能力看齊,基本上前三這樣的水平?;谶@樣的基座能力,我們演化出,如視覺生成能力,我們終于可以做到更高清、更真實(shí),以假亂真。
剛才我看到開場的宣傳片,顯然大量運(yùn)用視頻生成能力,我們可以期待,在明年鈦媒體年會上,我們看到的宣傳片90%上AI生成,而且各位在座的人不太能看出和真實(shí)場景的差別,現(xiàn)在已經(jīng)做到非常好的效果。
剛才我們講到Level 3,如何讓模型能夠進(jìn)入到現(xiàn)實(shí)世界,幫助我們使用手邊的現(xiàn)實(shí)工具,無論是手機(jī)、電腦,還是各種各樣的軟件系統(tǒng),都需要適應(yīng)人。在座各位也會面臨各種各樣的麻煩,蘋果手機(jī)也好,安卓手機(jī)也好,70-80%甚至更高比例的功能你不知道如何使用,可能一直到手機(jī)淘汰掉,你都不會用它,因?yàn)槟愀静粫檫@些事情花費(fèi)學(xué)習(xí)的時(shí)間。
因此,不能讓我們?nèi)ミw就機(jī)器,一定是讓機(jī)器反過來理解我們的意圖,Agent就是做這樣的事情,讓AI來理解我們的需求,幫助我們使用工具,當(dāng)然這中間還有決策和規(guī)劃的過程,它要有充分的理解能力、規(guī)劃和執(zhí)行的能力,以及理解大家所使用的所有軟件和工具的能力。
從早期的漸入命令,字符交互,簡化到圖形化界面,甚至未來會演化到AI為核心的操作系統(tǒng)。
大家現(xiàn)在電腦、手機(jī)上使用的場景特別豐富,很多任務(wù)我們也只能剛幫助大家來做一部分的工作,我們期待能力持續(xù)的提升,能夠幫助大家做更多的事情,幫大家把簡單、重復(fù)、機(jī)械性的過程當(dāng)中解放出來,大家有更多時(shí)間做更有意義的事情。
而從這件事里面我們可以看到,這樣的進(jìn)步來自于大模型本身的新技術(shù)突破,尤其在強(qiáng)化學(xué)習(xí)方面所帶來的智能體反思、自我學(xué)習(xí),以及不斷自我提升的過程。這也是最近我回答大家關(guān)于“Scaling Law放緩”問題很重要的點(diǎn)在于,原來pre-train(預(yù)訓(xùn)練)可能不能給我們帶來非常大的增益,接下來是什么,可能就是在強(qiáng)化學(xué)習(xí)、自我學(xué)習(xí)層面(發(fā)力)。
我相信,未來Agent助手能夠?qū)崿F(xiàn)更長的操作序列,更復(fù)雜任務(wù)的決策,幫助你們完成更復(fù)雜的任務(wù),無論是生活還是工作層面。
最近智譜升級的更長操作序列Agent,也支持多個(gè)應(yīng)用之間跨APP交互,像人里面可以從一個(gè)APP里面獲取信息,再回到另外的APP進(jìn)行任務(wù),再會到上個(gè)APP把結(jié)果拿回來,跨應(yīng)用的協(xié)同也非常重要。剛才我們展示了,如何讓手機(jī)和PC進(jìn)行聯(lián)動(dòng),進(jìn)行隔空操作,包括虛擬屏幕分身參與會議,以及同時(shí)并行的任務(wù)處理。
我們希望,這樣的能力能像人一樣,真正使用這些軟件,并且完成復(fù)雜的任務(wù)。眼睛看是視覺能力,大腦的思考取決于理解、任務(wù)拆解和規(guī)劃能力,手動(dòng)取決于識別和操作能力。未來,我們希望借助這樣的能力,賦能操作系統(tǒng),讓操作系統(tǒng)和大模型、AI深度融合,形成基于AI全新的底層操作系統(tǒng)。這是我們下一步想要做的事情。
從整個(gè)技術(shù)演進(jìn)方面來看,我們對此非常有信心。隨著語言模型、多模態(tài)以及AI Agent等技術(shù)走向成熟,我們終于能夠集成一些能力,真正讓大模型的技術(shù)能夠走入現(xiàn)實(shí)世界,幫助大家解決更復(fù)雜、更難的一些問題。同時(shí),這些技術(shù)在成熟的過程當(dāng)中,讓這些技術(shù)變成相應(yīng)產(chǎn)品,創(chuàng)造更大的生產(chǎn)力價(jià)值,以及相應(yīng)的市場回報(bào)。
對于智譜來講,我們的目標(biāo)永遠(yuǎn)是AGI,永遠(yuǎn)是讓機(jī)器像人一樣思考,并且讓機(jī)器服務(wù)人類,謝謝大家。