智能駕駛領(lǐng)域的競(jìng)爭(zhēng)態(tài)勢(shì)正在發(fā)生深刻變化。過(guò)去,行業(yè)內(nèi)的競(jìng)爭(zhēng)主要聚焦于VLM(視覺(jué)-語(yǔ)言模型)與VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型)的選擇、一段式與兩段式方案的對(duì)比,以及無(wú)圖與有圖技術(shù)的差異。然而,從今年開(kāi)始,競(jìng)爭(zhēng)已經(jīng)深入到更為核心的領(lǐng)域——算力集群與算法架構(gòu)。
在這場(chǎng)競(jìng)爭(zhēng)中,無(wú)論是智能駕駛、大模型還是具身智能,都正在經(jīng)歷從快速預(yù)訓(xùn)練響應(yīng)向慢速深度推理的轉(zhuǎn)變。這一轉(zhuǎn)變標(biāo)志著AI不再僅僅依賴于快速的模式匹配,而是開(kāi)始具備深入思考并解決復(fù)雜問(wèn)題的能力。這被視為AI突破智能瓶頸的關(guān)鍵時(shí)刻。
“推理”這一概念在邏輯學(xué)中早已存在,它指的是系統(tǒng)根據(jù)已知前提,通過(guò)規(guī)則來(lái)產(chǎn)生新的結(jié)論或決策的能力。在AI領(lǐng)域,推理反映了模擬人類思維的能力。與人類通過(guò)已有知識(shí)對(duì)新情況進(jìn)行分析類似,AI也通過(guò)訓(xùn)練獲得的知識(shí),在不確定的輸入情況下生成合理輸出。
OpenAI的聯(lián)合創(chuàng)始人伊利亞·蘇茨克維爾曾明確指出,AI的預(yù)訓(xùn)練時(shí)代已接近尾聲。隨著數(shù)據(jù)資源增長(zhǎng)放緩而計(jì)算能力持續(xù)提升,必須重新評(píng)估和利用現(xiàn)有數(shù)據(jù),提高推理效率。這一觀點(diǎn)揭示了推理在AI發(fā)展下半場(chǎng)中的重要性。
推理之所以變得尤為重要,是因?yàn)殡S著應(yīng)用場(chǎng)景的復(fù)雜化和多樣化,簡(jiǎn)單的數(shù)據(jù)處理和分類已經(jīng)無(wú)法滿足需求。在智能駕駛領(lǐng)域,系統(tǒng)不僅需要識(shí)別行人、車輛和交通信號(hào),還需要理解它們之間的交互關(guān)系,預(yù)測(cè)未來(lái)的行為,并據(jù)此做出安全、合理的駕駛決策。這要求AI具備強(qiáng)大的推理能力。
以學(xué)生學(xué)習(xí)和考試為例,平時(shí)的課堂學(xué)習(xí)和寫(xiě)作業(yè)可以看作是AI模型的訓(xùn)練階段,而考試則是對(duì)推理能力的考驗(yàn)。學(xué)生需要利用掌握的知識(shí)來(lái)分析解答考試題目,這一過(guò)程與AI的推理過(guò)程相似。同樣地,考試的知識(shí)點(diǎn)必須在課本知識(shí)范圍內(nèi),否則學(xué)生將無(wú)法有效作答。在AI領(lǐng)域,這也意味著推理必須建立在訓(xùn)練完成的基礎(chǔ)上。
AI的訓(xùn)練和推理是決定其智能化水平的兩大基石。在訓(xùn)練階段,通過(guò)大量數(shù)據(jù)和算法,AI模型學(xué)會(huì)識(shí)別和生成規(guī)律。而在推理階段,訓(xùn)練好的模型被應(yīng)用于新的、未見(jiàn)過(guò)的數(shù)據(jù),利用先前學(xué)到的規(guī)律進(jìn)行預(yù)測(cè)、分類或生成新內(nèi)容。
推理可以分為批量推理、在線推理和流式推理三種模式。批量推理以大批量的形式進(jìn)行,不是實(shí)時(shí)處理;在線推理可以實(shí)時(shí)提供響應(yīng),適用于邊緣場(chǎng)景;流式推理則接收持續(xù)不斷的數(shù)據(jù)流,進(jìn)行預(yù)測(cè)并更新內(nèi)部數(shù)據(jù)庫(kù)。
在智能駕駛領(lǐng)域,今年的競(jìng)爭(zhēng)尤為激烈。比亞迪、吉利、奇瑞和廣汽等主流車企紛紛推出智能駕駛計(jì)劃,表明智能駕駛已成為汽車行業(yè)的重要競(jìng)爭(zhēng)點(diǎn)。隨著B(niǎo)EV、端到端技術(shù)浪潮的興起,車企們正逐步將AI神經(jīng)網(wǎng)絡(luò)融入感知、規(guī)劃、控制等環(huán)節(jié)。
在端到端模型之外,車企們還引入了大語(yǔ)言模型、VLM模型等外掛,以提升環(huán)境理解能力,從而提高智能駕駛能力上限。同時(shí),融合了視覺(jué)、語(yǔ)言和動(dòng)作的多模態(tài)大模型范式——VLA正在成為智能駕駛技術(shù)演進(jìn)的關(guān)鍵一環(huán)。VLA模型具備更高的場(chǎng)景推理能力與泛化能力,有望成為從L2級(jí)輔助駕駛向L4級(jí)自動(dòng)駕駛躍遷的關(guān)鍵跳板。
以理想汽車為例,在近期的NVIDIA GTC大會(huì)上,理想發(fā)布了新一代自動(dòng)駕駛架構(gòu)——MindVLA。該架構(gòu)通過(guò)整合空間智能、語(yǔ)言智能和行為智能,賦予自動(dòng)駕駛系統(tǒng)以3D空間理解能力、邏輯推理能力和行為生成能力,并計(jì)劃于2026年量產(chǎn)應(yīng)用。
VLA模型最早見(jiàn)于機(jī)器人行業(yè),如谷歌DeepMind推出的RT-2模型。RT-2可以直接與用戶進(jìn)行語(yǔ)言交互,并在接收攝像頭原始數(shù)據(jù)和語(yǔ)言指令后,輸出控制信號(hào)完成復(fù)雜操作。這一成功很快被應(yīng)用到智能駕駛領(lǐng)域,如谷歌Waymo推出的EMMA模型。
從技術(shù)路徑看,VLA模型是在VLM基礎(chǔ)上發(fā)展而來(lái)。VLM能夠處理圖像和自然語(yǔ)言文本,而VLA則進(jìn)一步引入機(jī)器人或汽車運(yùn)動(dòng)軌跡的數(shù)據(jù),訓(xùn)練現(xiàn)有VLM以輸出可用于控制的動(dòng)作序列。通過(guò)這種方式,VLA可以解釋復(fù)雜指令并在物理世界中執(zhí)行相應(yīng)動(dòng)作。
雖然“端到端+VLM”技術(shù)架構(gòu)已大幅提升智能駕駛水平,但仍存在聯(lián)合訓(xùn)練困難、3D空間理解不足等問(wèn)題。而VLA通過(guò)統(tǒng)一的大模型架構(gòu),將感知、決策、執(zhí)行無(wú)縫串聯(lián),形成閉環(huán),可以同步提高智能駕駛的上限和下限。
VLA模型的優(yōu)勢(shì)在于與現(xiàn)有大語(yǔ)言模型范式兼容,具備全局上下文理解與類人推理能力。它還能與乘客或其他車輛進(jìn)行交互,接受并執(zhí)行指令。同時(shí),VLA將基于規(guī)則的偏好注入模型,讓駕駛決策符合人類預(yù)期。VLA還展現(xiàn)出跨領(lǐng)域通用性,未來(lái)有望應(yīng)用于更廣泛的智能設(shè)備。
然而,VLA要想實(shí)現(xiàn)全面上車,還需解決數(shù)據(jù)與信息深度融合的問(wèn)題,并具備強(qiáng)大的數(shù)據(jù)閉環(huán)能力。真實(shí)數(shù)據(jù)與實(shí)時(shí)響應(yīng)也是VLA面臨的挑戰(zhàn)。技術(shù)特性決定了VLA的成熟度與落地速度高度依賴數(shù)據(jù)規(guī)模與算力投入。
在提升汽車智能化方面,除了VLA模型外,還有像MogoMind這類面向真實(shí)物理世界的大模型。它們?nèi)诤隙嗄B(tài)理解、時(shí)空推理、自適應(yīng)進(jìn)化等能力,將實(shí)時(shí)數(shù)據(jù)納入模型訓(xùn)練,為精準(zhǔn)決策提供支持。
隨著技術(shù)的不斷演進(jìn),2025年將成為車端推理與VLA全面進(jìn)擊的元年。各家車企將圍繞算法效率、硬件成本與用戶價(jià)值展開(kāi)激烈競(jìng)爭(zhēng)。新一輪智能駕駛格局洗牌正在醞釀,對(duì)于在技術(shù)和數(shù)據(jù)方面具有優(yōu)勢(shì)的車企來(lái)說(shuō),這將是一個(gè)鞏固市場(chǎng)地位的重要機(jī)遇;而對(duì)于未及時(shí)跟進(jìn)的車企來(lái)說(shuō),則面臨著更加嚴(yán)峻的挑戰(zhàn)。