在科技界的璀璨舞臺上,一場關(guān)于人工智能(AI)未來的激烈競賽正在悄然上演。英偉達(dá)、谷歌等科技巨頭紛紛宣布進(jìn)軍一個全新的領(lǐng)域——世界模型,這一技術(shù)被視為推動機器人和自動駕駛汽車發(fā)展的關(guān)鍵一步,標(biāo)志著AI技術(shù)正邁向新的高度。
在不久前的CES 2025展會上,英偉達(dá)創(chuàng)始人黃仁勛身著閃亮的新皮衣,不僅推出了性能強勁的RTX 5090顯卡,更宣布了英偉達(dá)對于世界模型的雄心壯志。英偉達(dá)發(fā)布的Cosmos世界基礎(chǔ)模型,專為物理交互、模擬工業(yè)環(huán)境和駕駛環(huán)境的高質(zhì)量生成而設(shè)計,能夠生成逼真的視頻,為機器人和自動駕駛汽車的訓(xùn)練提供有力支持。這一模型通過創(chuàng)建合成訓(xùn)練數(shù)據(jù),幫助這些智能系統(tǒng)更好地理解物理世界。
谷歌也不甘落后,其旗下DeepMind團(tuán)隊組建了世界模型研究團(tuán)隊,被視為谷歌在通用人工智能(AGI)領(lǐng)域的重要布局。被譽為“AI教母”的李飛飛創(chuàng)立的World Labs,以及初創(chuàng)公司Decart和Odyssey,也在這一領(lǐng)域積極探索。
世界模型為何能引發(fā)如此廣泛的關(guān)注?它的重要性在于,相較于語言模型主要在數(shù)字世界深耕,世界模型則致力于將AI技術(shù)推向物理世界。通過預(yù)訓(xùn)練擴展視頻和多模態(tài)數(shù)據(jù),并集成多模態(tài)語言模型,世界模型能夠為視頻游戲、電影創(chuàng)建實時交互式媒體環(huán)境,同時,也為機器人和其他AI系統(tǒng)提供逼真的訓(xùn)練場景。這一技術(shù)被認(rèn)為是通往通用人工智能的關(guān)鍵路徑。
回顧歷史,“World Models”的概念最早在機器學(xué)習(xí)領(lǐng)域出現(xiàn)。2018年,一篇題為《Recurrent World Models Facilitate Policy Evolution》的論文,將世界模型比作認(rèn)知科學(xué)中的心智模型,強調(diào)了其在人類認(rèn)知、推理、決策過程中的重要作用。其中,反事實推理能力被視為世界模型的核心能力之一。
隨著技術(shù)的不斷發(fā)展,世界模型正在試圖超越數(shù)據(jù),模擬人類的潛意識推理。例如,棒球擊球手能夠在毫秒內(nèi)決定如何揮棒,這得益于他們本能地預(yù)測球的軌跡。世界模型通過大量的照片、音頻、視頻和文本數(shù)據(jù)訓(xùn)練,創(chuàng)建對世界運作方式的內(nèi)部表征,并能推理行為的后果,從而更好地理解和模擬現(xiàn)實世界的規(guī)律。
在自動駕駛領(lǐng)域,世界模型的應(yīng)用前景尤為廣闊。自動駕駛技術(shù)的飛速發(fā)展對數(shù)據(jù)提出了更高要求,然而,現(xiàn)實生活中數(shù)據(jù)采集成本高、危險場景難以采集等問題限制了自動駕駛的進(jìn)一步發(fā)展。世界模型作為場景生成和預(yù)測器,能夠為自動駕駛模型訓(xùn)練提供豐富的虛擬場景,解決數(shù)據(jù)稀缺的難題。
過去,智能駕駛方案多采用多模塊化的方式,分別對感知和規(guī)控模塊進(jìn)行驗證。而端到端智能駕駛方案將感知、預(yù)測、規(guī)劃、控制集成一體,要求仿真工具既能逼真還原外部環(huán)境,又能給模型反饋實現(xiàn)閉環(huán)測試。這正是世界模型所擅長的。
特斯拉、Wayve等公司已經(jīng)在這一領(lǐng)域取得了顯著進(jìn)展。特斯拉的通用世界模型能夠通過過往的視頻片段和行動提示,生成“可能的未來”全新視頻。Wayve的GAIA-1模型則能夠依靠視頻、文本和動作的輸入生成逼真的視頻,幫助自動駕駛模型的訓(xùn)練和仿真。
在國內(nèi),蔚來、理想等汽車廠商也在加速跟進(jìn)世界模型的搭建。蔚來的智能駕駛世界模型NWM具有全量理解數(shù)據(jù)、長時序推演和決策能力,能夠在短時間內(nèi)推演出上百種可能發(fā)生的場景,并尋找到最優(yōu)決策。理想汽車的智駕方案則引入了“重建+生成的世界模型”,為智駕方案提供了豐富的訓(xùn)練數(shù)據(jù)。
然而,世界模型的構(gòu)建和應(yīng)用也面臨著諸多挑戰(zhàn)。首先,環(huán)境模擬的準(zhǔn)確性極大地依賴于模型的復(fù)雜度和數(shù)據(jù)質(zhì)量。要精確地預(yù)測復(fù)雜環(huán)境中的動態(tài)變化,需要大量的數(shù)據(jù)和強大的計算資源。其次,構(gòu)建一個能夠泛化到多種不同環(huán)境的世界模型極具挑戰(zhàn)性,因為現(xiàn)實世界的復(fù)雜性和不可預(yù)測性遠(yuǎn)遠(yuǎn)超出了現(xiàn)有模型的處理能力。
盡管如此,世界模型在自動駕駛等領(lǐng)域的潛力仍然令人矚目。隨著技術(shù)的不斷進(jìn)步和應(yīng)用的深入拓展,世界模型有望為自動駕駛等科技領(lǐng)域帶來“質(zhì)”的躍遷,推動人工智能技術(shù)邁向新的高峰。
隨著世界模型技術(shù)的不斷發(fā)展,自動駕駛的競爭也呈現(xiàn)出由車端向云端遷移的趨勢。云端強大的數(shù)據(jù)閉環(huán)和算力能力,配合路側(cè)邊緣計算系統(tǒng)的數(shù)據(jù)感知融合、實時處理和分析,打破了車端因進(jìn)化迭代所面臨的技術(shù)與算力瓶頸。
車端借助路側(cè)邊緣計算系統(tǒng)與云端數(shù)據(jù)中心,將車端算力、數(shù)據(jù)處理、軟硬件成本進(jìn)行后移,實現(xiàn)了技術(shù)與成本的雙減負(fù)。智駕技術(shù)得以被普及到更低價格段的車型上,為自動駕駛技術(shù)的廣泛應(yīng)用提供了有力支持。
總之,世界模型作為人工智能領(lǐng)域的新寵兒,正以其獨特的優(yōu)勢在自動駕駛等科技領(lǐng)域掀起一場革命。盡管面臨諸多挑戰(zhàn)和未知,但隨著技術(shù)的不斷進(jìn)步和應(yīng)用的深入拓展,世界模型有望為人工智能技術(shù)的未來發(fā)展開辟新的道路。