智源Emu3生成的 AI 視頻案例
全球首個原生多模態(tài)世界模型來了。
鈦媒體App獲悉,10月21日,北京 AI 領(lǐng)域新型非營利研究機構(gòu)北京智源人工智能研究院(以下簡稱“智源研究院”,BAAI)發(fā)布采用了自回歸(autoregressive)技術(shù)路線的原生多模態(tài)世界模型Emu3,并同步上線技術(shù)文檔、開源關(guān)鍵技術(shù)等供產(chǎn)業(yè)界進一步探索。
據(jù)悉,Emu3參數(shù)量為8B(80億),只基于下一個token(輸入數(shù)據(jù)的基本單位)預測,無需擴散模型或組合式方法,把圖像、文本和視頻編碼為一個離散空間,在多模態(tài)混合序列上從頭開始聯(lián)合訓練一個Transformer模型。該模型實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成,傳統(tǒng)模型則只能處理一種類型。而在圖像生成、視覺語言理解、視頻生成任務中,Emu3的表現(xiàn)超過了圖像生成模型Stable Diffusion SDXL 、視覺語言理解模型LLaVA、視頻生成模型OpenSora等國內(nèi)外主流開源模型,展示了國際領(lǐng)先的 AI 技術(shù)。
智源研究院院長王仲遠向鈦媒體App等表示,Emu3證明了下一個token預測能在多模態(tài)任務中有高性能的表現(xiàn),這為構(gòu)建多模態(tài)AGI提供了廣闊的技術(shù)前景。Emu3有機會將基礎(chǔ)設(shè)施建設(shè)收斂到一條技術(shù)路線上,為大規(guī)模的多模態(tài)訓練和推理提供基礎(chǔ),這一簡單的架構(gòu)設(shè)計將利于產(chǎn)業(yè)化。未來,多模態(tài)世界模型將促進機器人大腦、自動駕駛、多模態(tài)對話和推理等場景應用。
王仲遠強調(diào),行業(yè)一定會有一個統(tǒng)一的多模態(tài)模型。
“智源會堅持做原始創(chuàng)新。我們認為原生大一統(tǒng)的多模態(tài)大模型,是整個大模型發(fā)展技術(shù)路線上必須要去攻克的一個技術(shù)方向。Emu3是全球首個基于該技術(shù)路線的原生多模態(tài)世界模型,并面向國際社區(qū)進行了開源。”王仲遠坦言,中國在大模型的技術(shù)路線上要有自己的核心技術(shù),而Emu3能為多模態(tài)大模型訓練范式指明新的方向。
圖像文本視頻大一統(tǒng),王仲遠:原生多模態(tài)世界模型 處在“GPT-3時刻”智源研究院成立于2018年11月,是全球最早開展 AI 大模型的中國非營利性新型研究機構(gòu),也是北京市繼腦科學與類腦研究中心、量子信息科學研究院之后,著力建設(shè)的又一個重要的新型研發(fā)機構(gòu)。
智源研究院為了加快 AI 前沿技術(shù)落地,圍繞大模型、類腦脈沖芯片、認知知識圖譜、安全人工智能、疾病腦電、智能信息處理等領(lǐng)先技術(shù)的成熟化、工程化建立創(chuàng)新中心,推動 AI 原創(chuàng)成果轉(zhuǎn)化及產(chǎn)業(yè)化。
2024年2月,智源研究院宣布王仲遠博士擔任新任院長,全面負責研究院各項工作。在此之前,王仲遠在 AI 學術(shù)及產(chǎn)業(yè)領(lǐng)域深耕長達15年以上,曾在微軟、Facebook(現(xiàn)meta)、美團、快手等多家頭部公司任職過。
Emu3所使用的自回歸技術(shù)路線的核心思想是利用序列數(shù)據(jù)中的上下文依賴性來預測未來的數(shù)據(jù)點。該類型模型中,不同模態(tài)數(shù)據(jù)共享同一套參數(shù),可實現(xiàn)跨模態(tài)的關(guān)聯(lián)和生成,無需人工設(shè)計的特征工程。同時因自回歸技術(shù)路線的特點,在生成數(shù)據(jù)時模型必須按順序進行,限制了并行計算的能力,導致生成速度較慢。也會遇到長期依賴問題,即模型難以捕捉序列中較遠距離的依賴關(guān)系。
所謂“世界模型”是目前技術(shù)流派中難度最高的一種,其特點在于讓機器能夠像人類一樣對真實世界有一個全面而準確的認知,不僅包括對事物的描述和分類,還包括對事物的關(guān)系、規(guī)律、原因和結(jié)果的理解和預測,從而進行推理和決策,而“世界模型”也被認為是通往AGI的最優(yōu)解。
同期,谷歌與麻省理工學院(MIT)何愷明團隊聯(lián)合推進了一個新研究項目,推出名為Fluid的圖像自回歸模型,采用連續(xù)token生成方式和隨機順序生成單張圖片;圖靈獎得主、meta首席AI科學家楊立昆(Yann LeCun)領(lǐng)導的meta AI團隊曾推出V-JEPA世界模型,一種通過觀看視頻來教機器理解和模擬物理世界的方法;李飛飛提到的所謂“空間智能”也是世界模型的一種技術(shù)方向;而在國內(nèi),智源研究院也率先推出自回歸路線多模態(tài)世界模型Emu3。
王仲遠認為,Emu3的發(fā)布意味著大模型能夠通過更多維度的數(shù)據(jù)來理解、學習真實世界。
具體來看,根據(jù)智源研究院9月底發(fā)布的技術(shù)報告,Emu3模型參數(shù)量為80億,包括了文字、圖片和視頻原始數(shù)據(jù),并將視覺數(shù)據(jù)Token化從而在統(tǒng)一的架構(gòu)下進行訓練,可以生成文字、多樣化風格的圖片和最長為5秒的視頻,并且能持續(xù)預測下一個Token詞元。
評測結(jié)果顯示,英文提示詞下,該模型圖片生成得分為70.0分,領(lǐng)先于Stability AI于2023年7月推出的SDXL的66.9,落后于OpenAI于2023年8月推出的DALL E3的73.4分;文生視頻得分則為81.0分,領(lǐng)先于今年6月開源的OpenSora 1.2的79.6分;語言能力,技術(shù)報告未提供相關(guān)測評數(shù)據(jù),主要由于Emu3語言類數(shù)據(jù)占比小,參數(shù)遠小于市面上其他的語言大模型,因此目前語言能力并不在第一梯隊,但Emu3模型詞匯量達184622,上下文長度達到131072,具有很多語言模型的技術(shù)能力。
王仲遠認為,目前采用自回歸架構(gòu)構(gòu)建統(tǒng)一的多模態(tài)世界模型仍處在應用爆發(fā)前的“GPT-3時刻”,如今的多模態(tài)領(lǐng)域還處于非常早期,因此Emu3只是在前沿技術(shù)層面證明了該路線的可能性,未來仍需和產(chǎn)業(yè)界合作進一步擴大訓練規(guī)模,并將Emu3推向大眾能夠觸及的應用。
算力、數(shù)據(jù)、生態(tài)仍是當前多模態(tài)世界模型的挑戰(zhàn)
事實上,近期關(guān)于“OpenAI研發(fā)的 AI 模型技術(shù)是否是未來通用人工智能(AGI)的方向”爭議頗多。其中,蘋果公司內(nèi)部員工承認“生成式AI技術(shù)落后競品兩年以上”,外部直接質(zhì)疑OpenAI o1的AI推理能力較差,無法解決部分小學數(shù)學題內(nèi)容;而楊立昆則直言,今天的AI大模型比貓還笨,甚至認為Sora并不能真的理解物理世界,這樣的視頻生成與世界模型的因果預測仍然存在巨大差異。
對此,王仲遠向鈦媒體App坦言,他部分認同楊立昆的說法,確實需要多模態(tài)世界模型通往AGI目標,但不一定要借鑒生物大腦設(shè)計多個可以類比的自主性 AI 系統(tǒng)子功能模塊這種方案。
“楊立昆提的關(guān)于現(xiàn)在大模型比貓還笨,很重要的一個論點是他認為純語言模型無法抵達AGI。我們也認為純語言模型是不夠的,因為僅從文本層面無法完全理解世界。事實上,一些科學家,包括謝賽寧博士,在嘗試通過視覺信號直接觸發(fā)智能能力的技術(shù)路線。語言是重要的,但只有語言是不夠的。如果要理解感知、推理這個世界,首先要看得到、感覺到世界,才能把不同模態(tài)的信息進行交互理解。這恰恰是Emu3統(tǒng)一多模態(tài)技術(shù)路線的重要貢獻。但另一方面,對于楊立昆提出來仿照人腦設(shè)計自主AI系統(tǒng)模塊,我認為應該永遠鼓勵和支持不同的技術(shù)路線的探索,統(tǒng)一多模態(tài)世界模型就是其一。”王仲遠表示。
Keras之父Francois Chollet也認為,大模型通過提示使用時,無法理解與訓練數(shù)據(jù)中情況大相徑庭的情況,因此不具備通用智能,而大模型的主要作用是作為實際AGI的知識和程序存儲,它們是一種記憶形式,而智能不僅僅是記憶。
不過,當前Emu3這種原生多模態(tài)世界模型依然存在諸多“局限性”,比如整個訓練數(shù)據(jù)規(guī)模不夠大,低于Emu2的370億參數(shù)和人類的860萬億-1000萬億神經(jīng)元規(guī)模,使得語言效果無法達到GPT-o1水平;算力規(guī)模不夠大,目前智源的AI異構(gòu)算力平臺與行業(yè)最大規(guī)模的算力集群規(guī)模依然有一定距離;另外,當前世界模型路線沒有生態(tài)和實踐者,亟待更多企業(yè)和大公司進行商業(yè)落地,從而驗證這條路線的正確性。
“我們需要更多資源,例如,Emu3參數(shù)擴大10倍所需的算力、工程化的能力是指數(shù)級增加的,所以需要合作伙伴和我們一起訓練下一代的模型?!蓖踔龠h對鈦媒體App表示。
談及預訓練大模型不再訓練時,王仲遠強調(diào),在技術(shù)路線收斂的趨勢下,廠商會更積極地探索模型的落地場景。從樂觀的角度來看,說明基礎(chǔ)大模型已經(jīng)達到一定的能力水平。另從謹慎的角度來說,訓練轉(zhuǎn)推理說明僅靠市場驅(qū)動,會令廠商陷入“追隨者”的境地,不利于原始技術(shù)創(chuàng)新。
“我們一直強調(diào)智源的定位,是做原始創(chuàng)新,做企業(yè)不愿意做,高校做不了的事情,所以這使得我們必須做下一代 AI 技術(shù)探索,做未來3年-5年可能被行業(yè)認可的技術(shù)路線。在多模態(tài)方向上,智源需要為整個行業(yè)指明一個方向?!蓖踔龠h稱。
以下是智源研究院團隊與鈦媒體App等部分對話交流整理:
問:相比Emu 2,Emu3模型參數(shù)量減少,幻覺會不會更嚴重?
智源研究院:首先簡單介紹Emu3 和 Emu 2的技術(shù)區(qū)別。Emu2 視覺用的還是embedding 的方式,Emu3 變成了離散的token。Emu1,Emu 2 是概念驗證加探索迭代。當時用了預訓好的語言模型和擴散的decoder,快速驗證統(tǒng)一的生成式是否能走通,智源是國際上最早做的探索。因為不需要訓練語言模型,基于已有的,成本會比較低。Emu3我們是完全從頭訓練,是為視頻圖像文本原生多模態(tài)設(shè)計的。
問:Emu3視頻好像最多 5 秒 24 的FPS,這與其他預測模型的區(qū)別?
智源研究院:下一個 token 天然的好處是本身就可以續(xù)寫,看到前面的 token預測后面的token,可以無限續(xù)下去。只是如果在一個場景續(xù)寫,看到的長視頻都是一個場景,意義不大?,F(xiàn)在整體的續(xù)寫能力還沒有突破長的有情節(jié)的視頻生成。Emu3這套框架的獨特優(yōu)勢就是因果性,可以基于前面發(fā)生的事情預測后面發(fā)生的事情,而不是基于一堆噪聲去想象。Emu3現(xiàn)在可以 5 秒一直續(xù)寫。
問:有沒有計劃在科學計算上的應用?
智源研究院:AI for Science 多模態(tài)是非常必須的。GPT 3 到ChatGPT 花了兩年半的時間,Emu3好比當年的 GPT3,Emu3是一個中間的milestone(里程碑),下一個期待類似 ChatGPT 的的milestone。
問:智源未來三到五年之內(nèi)的重點是什么?
智源研究院:繼續(xù)研發(fā)原生多模態(tài)世界模型Emu系列,解決更大規(guī)模的數(shù)據(jù)、算力以及訓練 。統(tǒng)一多模態(tài)基座大模型是人工智能進入到物理世界非常重要的基座。多模態(tài)具身大腦也是研究院正在做的研究。今年我們也看到了諾貝爾的物理學獎給了Hinton教授,化學獎是給了DeepMind團隊。AI for Science 也是智源非常關(guān)注的重要研究方向。
問:從 To C端角度來說,APP肯定是最好的方式,智源未來有沒有計劃和一些其他合作伙伴推出一些 c 端 APP?
智源研究院:當前市場上的語言模型APP 已經(jīng)開始基于百億模型在使用,這個前提是有了千億、萬億模型,達到更高的性能,百億模型效果隨之更好。而現(xiàn)在,多模態(tài)大模型還在不斷探索能力上限。智源探索出了Emu3這樣一條技術(shù)路線,那么接下來需要展示,也期待在多模態(tài)領(lǐng)域的“ChatGPT” 的時刻。
我想再一次強調(diào)Emu3架構(gòu)的優(yōu)越性,將來多模態(tài)大模型都能夠非常容易使用,這是Emu3模型的意義。