2024 T-EDGE

發(fā)布時(shí)間：2024-12-09 18:20 來源：鈦媒體APP 作者：江紫萱

12月6日-7日，2024 T-EDGE創(chuàng)新大會暨鈦媒體財(cái)經(jīng)年會在北京市大興區(qū)舉辦。

12月7日上午T-EDGE 全球AI論壇：All-in On AI會議上，智譜CEO張鵬以“GLM 大模型與通用人工智能之路”為主題，圍繞 AI 大模型發(fā)展與應(yīng)用展開深入演講。

張鵬表示，AI 大模型并沒有進(jìn)入到“平臺期”或者進(jìn)入“蕭條期”，實(shí)際有很多問題要做。而且，大模型的發(fā)展空間不僅是盯著簡單的語言生成，視覺、聽覺、運(yùn)動(dòng)、基礎(chǔ)的模態(tài)能力等各方面，多模態(tài)、推理和Agent等能力都在遵循著Scaling Law（尺度定律），發(fā)展?jié)摿Ψ浅４蟆?/p>

在張鵬看來，大模型發(fā)展至今開始逐步具有上述人類與現(xiàn)實(shí)物理世界互動(dòng)的能力：L1語言能力進(jìn)程 80％、L2邏輯能力（多模態(tài)能力）60%、L3使用工具的能力進(jìn)程 30％，甚至L4自我學(xué)習(xí)的能力也正在逐漸出現(xiàn)。

對于OpenAI最新發(fā)布的o1 Pro模式的推理模型，張鵬認(rèn)為，滿血版o1再次將復(fù)雜問題求解的能力推上新臺階，復(fù)雜推理的發(fā)展非常值得期待。

“瞄向AGI的路程還很長，有大量的任務(wù)等待我們做，大可不必那么悲觀說在語言層面上碰到的（Scaling Law）停滯現(xiàn)象，我們就覺得AGI‘完蛋’了?！睆堸i指出，對于人類本身的 AI 能力是比較明確的，我們需要對照人類的智能能力去打造通用人工智能（AGI）。

實(shí)際上，自2023年3月智譜 AI 推出千億開源基座對話模型ChatGLM系列以來，GLM大模型經(jīng)歷四個(gè)大版本迭代，共發(fā)布了超過20款 AI 模型技術(shù)和產(chǎn)品。截至2023年底，智譜 AI 已擁有超過2000家生態(tài)合作伙伴、超過1000個(gè)大模型規(guī)模化應(yīng)用，覆蓋傳媒、咨詢、消費(fèi)、金融、新能源、互聯(lián)網(wǎng)、智能辦公等多個(gè)細(xì)分場景。

張鵬認(rèn)為，如今的Agent可以做到像人一樣，理解界面、規(guī)劃任務(wù)、使用工具、完成任務(wù)，從而更聰明地代替人類行動(dòng)。我們對于對于AI 內(nèi)心所真正期待的是，AI 像人一樣，擁有各種各樣類型能力，而且都在水平線以上的綜合性AI能力，并且能夠像人一樣處理復(fù)雜任務(wù)，而不是單一任務(wù)，從而解答復(fù)雜的問題。

展望未來，張鵬強(qiáng)調(diào)，隨著語言模型、多模態(tài)以及AI Agent等技術(shù)走向成熟，從整個(gè)技術(shù)演進(jìn)方面來看，我們對此非常有信心，真正讓大模型的技術(shù)能夠走入現(xiàn)實(shí)世界，幫助大家解決更復(fù)雜的問題。同時(shí)，這些技術(shù)在成熟的過程當(dāng)中，讓這些技術(shù)變成相應(yīng)產(chǎn)品，創(chuàng)造更大的生產(chǎn)力價(jià)值，以及相應(yīng)的市場回報(bào)。

“對于智譜來講，我們的目標(biāo)永遠(yuǎn)是讓‘機(jī)器像人一樣思考’，并且讓機(jī)器服務(wù)人類?！睆堸i在結(jié)尾表示。

以下是張鵬在鈦媒體2024T-EDGE上的演講實(shí)錄，經(jīng)鈦媒體AGI整理：

非常榮幸能夠來到鈦媒體的年會現(xiàn)場，和大家進(jìn)行分享。

最近關(guān)于AI、關(guān)于大模型的討論非常多，有不同的觀點(diǎn)進(jìn)行激烈的碰撞，我最近會被很多人問這樣一個(gè)問題：AI未來發(fā)展的空間到底在哪里。

下面，我們可以先看關(guān)于AI未來圖景的劃分。

從OpenAI對于AI的能力分級劃分可以看到，它把 AI 能力分5級。

在目前的1、2、3級，OpenAI現(xiàn)在已經(jīng)取得非常不錯(cuò)的成績，尤其在語言能力，已經(jīng)達(dá)到人類最頂尖的專家級水平，這也正是大家所討論的，所謂Scaling Law見頂?shù)念I(lǐng)域，語言數(shù)據(jù)使用完，水平也沒有如預(yù)期的持續(xù)往上增長。

那么，這是否意味著，AI 大模型進(jìn)入到“平臺期”或者進(jìn)入“蕭條期”？其實(shí)并沒有，實(shí)際有很多問題要做。

如Level 2，人類水準(zhǔn)的問題求解能力。實(shí)際上，復(fù)雜推理能力非常值得期待，也就是前天剛剛發(fā)布的滿血版o1，再次將復(fù)雜問題求解的能力推上新臺階。大模型的發(fā)展空間不僅是盯著簡單的語言生成，或是回答這樣的小問題。它（非語言模型）的空間非常大。

而在Level 3，使用工具，讓AI能夠和物理世界、現(xiàn)實(shí)世界當(dāng)中的各種工具和系統(tǒng)進(jìn)行對接，進(jìn)而產(chǎn)生更大的生產(chǎn)力效果，這也是非常重要的事情。

當(dāng)然，未來還可以期待 AI 做自己的發(fā)明創(chuàng)造，像AlphaGo戰(zhàn)勝人類選手一樣，把AI用在科學(xué)的探索。以及未來AI如何像人類這樣的個(gè)體一樣，形成智體的群落進(jìn)行自組織。

在 AGI 發(fā)展路徑上，我們智譜有自己的想法。前3級和OpenAI差不多，而Level 4、Level 5兩級的時(shí)候更多的想法。比如，如何實(shí)現(xiàn)類似像GPT-Zero，Alpha-Zero這樣的升級，以及如何利用 AI 的自學(xué)習(xí)能力拓展科學(xué)邊界，以及未知的世界。

但是，這里面我們?nèi)祟惾プ鯝GI也好，AI也好，唯一的參考系就是我們自己，就是人類本身。對于人類本身的能力，AI 能力是比較明確的，就是我們對照人類的智能能力去打造AGI。

這里面我們做了一些統(tǒng)計(jì)和分析，當(dāng)然很粗略。

比如，在書寫和語言理解方面，已經(jīng)接近人類專家水平，甚至比人類專家更加有效。在視覺、聽覺、運(yùn)動(dòng)、基礎(chǔ)的模態(tài)能力等各方面，我們有了長足的進(jìn)步。尤其近1年，從年初Sora多模態(tài)生成能力，到視頻生成能力，再到開源、閉源等方向，都在遵循著Scaling Law（尺度定律）。

工具的使用能力也是最近半年來說進(jìn)展非?？斓念I(lǐng)域，從最早所謂的Function Call（函數(shù)調(diào)用）能力開始，進(jìn)化到現(xiàn)在能夠使用手機(jī)、電腦幫助完成復(fù)雜的操作，取得非常快的進(jìn)步。但我們依然覺得（AI 作用）不止如此，它不止能完成非常簡單的事情，發(fā)展空間非常大，更抽象的創(chuàng)新能力、和物理世界的機(jī)器人、設(shè)備進(jìn)行交互的運(yùn)動(dòng)控制等，存在著大量空白（發(fā)掘）區(qū)域。

瞄向AGI的路程還很長，有大量的任務(wù)等待我們做，大可不必那么悲觀說在語言層面上碰到的（Scaling Law）停滯現(xiàn)象，我們就覺得AGI“完蛋”了。

如果再把剛才那張圖再把它進(jìn)行量化，按照階梯式一層層的往上推演，很明顯，Scaling Law還是沿著發(fā)展的階梯狀往“天花板”逼近，上面還有大把的空白空間。而且，這里面也標(biāo)注我們的進(jìn)展，從最初的語言模型，到視覺模型，視覺理解、視覺生成，到聲音，到實(shí)時(shí)的交互，到邏輯的推理，以及o1，甚至到使用工具Agent能力，遠(yuǎn)遠(yuǎn)都不是讓我們停下來的理由，有非常多的事情等待著我們?nèi)プ觥?/p>

我們一直在對標(biāo)著世界最前沿的技術(shù)做這件事。

當(dāng)然，你問為什么每項(xiàng)技術(shù)都對標(biāo)它，而不是某項(xiàng)能力做到最好，或者做到極限，從而進(jìn)行商業(yè)化。在智譜看來，這源自我們對于AGI的認(rèn)知。

大家都知道，上一代的AI其實(shí)在某些單項(xiàng)能力上，比如說識別人臉、識別圖像，在限定范圍內(nèi)它比人類做的好，它已經(jīng)突破了人類的上限，但它為什么沒有改變生產(chǎn)力的結(jié)構(gòu)，改變生產(chǎn)關(guān)系，只是作為一種工具嵌入在很多的應(yīng)用系統(tǒng)當(dāng)中。我們思考過這個(gè)問題，在于我們所內(nèi)心里真正期待的是，AI 像人一樣，擁有著各種各樣類型的能力，而且都在水平線以上，并且能夠像人一樣處理復(fù)雜任務(wù)，而不是單一任務(wù)，永遠(yuǎn)只能停留在工具層面，它起不到革命性、范式性的創(chuàng)新作用。

所以像我們常說的一個(gè)原理——“木桶原理”一樣，當(dāng)你的能力存在明顯缺陷的時(shí)候，它并不足以產(chǎn)品革命性的范式變化，頂多又是另外一個(gè)更強(qiáng)力的錘子而已。我們現(xiàn)在不再需要錘子，我們需要的是更強(qiáng)大的東西。

今年終于借著8月新的基座模型GLM-4-Plus的發(fā)布，文本能力、圖像分析理解能力、視頻分析理解能力、語音模型等能力集齊之后，我們終于可以嘗試讓大模型、讓 AI 能力像人一樣，能夠面對現(xiàn)實(shí)世界當(dāng)中的復(fù)雜任務(wù)。

不要小看你們在現(xiàn)場拿著手機(jī)，刷短視頻、在小紅書上刷日記等這樣操作，其實(shí)這都蘊(yùn)含著人類各種各樣的能力，視覺能力、自然語言理解能力、操作能力、控制能力等。這就是我剛剛講到的，我們需要有這些一些完整的能力。

今年8月基座模型GLM-4-Plus上線，我們終于可以帶領(lǐng)世界最頂級的基座模型能力看齊，基本上前三這樣的水平?；谶@樣的基座能力，我們演化出，如視覺生成能力，我們終于可以做到更高清、更真實(shí)，以假亂真。

剛才我看到開場的宣傳片，顯然大量運(yùn)用視頻生成能力，我們可以期待，在明年鈦媒體年會上，我們看到的宣傳片90%上AI生成，而且各位在座的人不太能看出和真實(shí)場景的差別，現(xiàn)在已經(jīng)做到非常好的效果。

剛才我們講到Level 3，如何讓模型能夠進(jìn)入到現(xiàn)實(shí)世界，幫助我們使用手邊的現(xiàn)實(shí)工具，無論是手機(jī)、電腦，還是各種各樣的軟件系統(tǒng)，都需要適應(yīng)人。在座各位也會面臨各種各樣的麻煩，蘋果手機(jī)也好，安卓手機(jī)也好，70-80%甚至更高比例的功能你不知道如何使用，可能一直到手機(jī)淘汰掉，你都不會用它，因?yàn)槟愀静粫檫@些事情花費(fèi)學(xué)習(xí)的時(shí)間。

因此，不能讓我們?nèi)ミw就機(jī)器，一定是讓機(jī)器反過來理解我們的意圖，Agent就是做這樣的事情，讓AI來理解我們的需求，幫助我們使用工具，當(dāng)然這中間還有決策和規(guī)劃的過程，它要有充分的理解能力、規(guī)劃和執(zhí)行的能力，以及理解大家所使用的所有軟件和工具的能力。

從早期的漸入命令，字符交互，簡化到圖形化界面，甚至未來會演化到AI為核心的操作系統(tǒng)。

大家現(xiàn)在電腦、手機(jī)上使用的場景特別豐富，很多任務(wù)我們也只能剛幫助大家來做一部分的工作，我們期待能力持續(xù)的提升，能夠幫助大家做更多的事情，幫大家把簡單、重復(fù)、機(jī)械性的過程當(dāng)中解放出來，大家有更多時(shí)間做更有意義的事情。

而從這件事里面我們可以看到，這樣的進(jìn)步來自于大模型本身的新技術(shù)突破，尤其在強(qiáng)化學(xué)習(xí)方面所帶來的智能體反思、自我學(xué)習(xí)，以及不斷自我提升的過程。這也是最近我回答大家關(guān)于“Scaling Law放緩”問題很重要的點(diǎn)在于，原來pre-train（預(yù)訓(xùn)練）可能不能給我們帶來非常大的增益，接下來是什么，可能就是在強(qiáng)化學(xué)習(xí)、自我學(xué)習(xí)層面（發(fā)力）。

我相信，未來Agent助手能夠?qū)崿F(xiàn)更長的操作序列，更復(fù)雜任務(wù)的決策，幫助你們完成更復(fù)雜的任務(wù)，無論是生活還是工作層面。

最近智譜升級的更長操作序列Agent，也支持多個(gè)應(yīng)用之間跨APP交互，像人里面可以從一個(gè)APP里面獲取信息，再回到另外的APP進(jìn)行任務(wù)，再會到上個(gè)APP把結(jié)果拿回來，跨應(yīng)用的協(xié)同也非常重要。剛才我們展示了，如何讓手機(jī)和PC進(jìn)行聯(lián)動(dòng)，進(jìn)行隔空操作，包括虛擬屏幕分身參與會議，以及同時(shí)并行的任務(wù)處理。

我們希望，這樣的能力能像人一樣，真正使用這些軟件，并且完成復(fù)雜的任務(wù)。眼睛看是視覺能力，大腦的思考取決于理解、任務(wù)拆解和規(guī)劃能力，手動(dòng)取決于識別和操作能力。未來，我們希望借助這樣的能力，賦能操作系統(tǒng)，讓操作系統(tǒng)和大模型、AI深度融合，形成基于AI全新的底層操作系統(tǒng)。這是我們下一步想要做的事情。

從整個(gè)技術(shù)演進(jìn)方面來看，我們對此非常有信心。隨著語言模型、多模態(tài)以及AI Agent等技術(shù)走向成熟，我們終于能夠集成一些能力，真正讓大模型的技術(shù)能夠走入現(xiàn)實(shí)世界，幫助大家解決更復(fù)雜、更難的一些問題。同時(shí)，這些技術(shù)在成熟的過程當(dāng)中，讓這些技術(shù)變成相應(yīng)產(chǎn)品，創(chuàng)造更大的生產(chǎn)力價(jià)值，以及相應(yīng)的市場回報(bào)。

對于智譜來講，我們的目標(biāo)永遠(yuǎn)是AGI，永遠(yuǎn)是讓機(jī)器像人一樣思考，并且讓機(jī)器服務(wù)人類，謝謝大家。

更多>同類內(nèi)容