文 | 硅谷101
上周Anthropic發(fā)布了Claude 3.5 Sonnet的升級,讓AI助手能夠通過"電腦使用"功能直接與計算機(jī)交互。這意味著Claude可以實(shí)現(xiàn)自動搜索文件、截取屏幕畫面、在應(yīng)用程序間切換并執(zhí)行基本任務(wù)。這些看上去很基礎(chǔ)的操作也許代表著生成式AI的重要轉(zhuǎn)折:從單純的對話助手,向真正的"自主代理"邁進(jìn)——這正是包括OpenAI、谷歌在內(nèi)的各大公司都在努力的方向。
Claude.ai 圖源:官網(wǎng)
就在AI能力不斷突破的同時,真實(shí)的商業(yè)世界卻呈現(xiàn)出一個有趣的反差:在這輪生成式AI浪潮中最賺錢的公司,竟然是以埃森哲為代表的傳統(tǒng)咨詢公司。據(jù)埃森哲2024財年財報顯示,其生成式AI相關(guān)業(yè)務(wù)的新增訂單已達(dá)30億美元。在國內(nèi)市場,字節(jié)、阿里和智譜等基座大模型供應(yīng)商也在扮演著類似的角色。
在這期《硅谷101》中,我們邀請到了大模型領(lǐng)域的投資人和創(chuàng)業(yè)者:華映資本海外合伙人邱諄(Jonathan Qiu)和AgentQL聯(lián)合創(chuàng)始人翟琦(Keith Zhai),請他們從投資人和創(chuàng)業(yè)者的雙重視角,探討大模型應(yīng)用落地的挑戰(zhàn),以及嘗試從“人工智能”的定義出發(fā),聊聊投資人眼里應(yīng)用類公司的核心競爭力。
在本期對話中,兩位嘉賓深入剖析了當(dāng)前AI應(yīng)用遭遇的困境:當(dāng)前的AI應(yīng)用正處于"兩個月大的嬰兒"階段,整個生態(tài)系統(tǒng)尚未成型。最關(guān)鍵的是,與互聯(lián)網(wǎng)時代相比,AI時代缺少了類似瀏覽器這樣的操作系統(tǒng)層,導(dǎo)致應(yīng)用與底座模型之間的邊界模糊。這直接影響了純應(yīng)用公司的生存空間——它們既要考慮產(chǎn)品體驗(yàn),又要思考如何獲取和利用數(shù)據(jù)來構(gòu)建自己的護(hù)城河。
在這種情況下,兩位嘉賓認(rèn)為機(jī)會可能存在于三個方向:首先是多模態(tài),因?yàn)檫@些領(lǐng)域需要自主研發(fā)底座模型,更容易形成技術(shù)壁壘;其次是在特定垂直領(lǐng)域深耕,用專業(yè)領(lǐng)域數(shù)據(jù)打造差異化優(yōu)勢;最后則是基礎(chǔ)設(shè)施層面,幫助企業(yè)落地AI應(yīng)用——這也解釋了為什么咨詢公司能在這波浪潮中占得先機(jī)。
以下是部分訪談精選
01 "相當(dāng)于兩個月的嬰兒":AI創(chuàng)業(yè)還處于不確定的風(fēng)口
《硅谷101》:我們播客從2022年就在報道生成式AI,那時還是擴(kuò)散模型的文生圖時代,ChatGPT還沒發(fā)布。請問大家在投資創(chuàng)業(yè)過程中,跟隨這波AI浪潮的心態(tài)變化?
Keith:我們從去年下半年開始。這個行業(yè)太早期了,大多數(shù)公司是在ChatGPT3.0前后才開始關(guān)注。現(xiàn)在大家認(rèn)為上一代AI和現(xiàn)在的AI是完全不同的兩種東西。
它就像一個兩個月大的小娃娃,每天都在成長。比如剛開始時,大家談?wù)摰腶gent其實(shí)完全不同。你說的可能是聊天機(jī)器人,我說的可能是動作模型,或者是工作流程自動化。這就像村上春樹說的"當(dāng)我在跑步的時候你在想什么,沒人知道你在說什么"。
《硅谷101》:Keith,聽眾可能記得你之前華爾街日報記者時講東南亞詐騙的那期節(jié)目?,F(xiàn)在你是以AI創(chuàng)業(yè)者身份參與,想知道你選擇AI創(chuàng)業(yè)時怎么想的?當(dāng)時市場是什么樣?對比今天,在心態(tài)、融資、行業(yè)認(rèn)知上最大的變化是什么?
Keith:我之前做了20年記者。選擇轉(zhuǎn)行有很多原因,其中一個是我問了一個朋友,他是國內(nèi)某大型上市公司的創(chuàng)始人。在酒吧里他告訴我:“這是范式革命(paradigm shift),像電器一樣不是某個行業(yè)的改變,是整個社會的改變。當(dāng)你認(rèn)為這是范式革命時,不需要想做什么,需要的是進(jìn)去開始做?!蔽矣眠^很多上一代AI語言模型產(chǎn)品,它們都遠(yuǎn)不如人類寫作。但第一次用GPT-3時,我內(nèi)心非常震撼。
《硅谷101》:現(xiàn)在感受如何?
Keith:就像一直在水里撲騰。我們?nèi)ツ甑浇衲晟习肽暌恢痹趕tealth隱身模式。剛完成A輪,但從沒感覺上過岸。這個行業(yè)變化太快了,跟過去不是一個量級,它對效率是根本性調(diào)整。過去做完A輪可能覺得要上岸了,但現(xiàn)在融資上幾個億的公司最后也都不行。所以上岸很難用融資階段來界定。
《硅谷101》:作為一位投資人和AI領(lǐng)域的專家,Jonathan你覺得從ChatGPT出現(xiàn)到現(xiàn)在,生成式AI的投資浪潮有什么重大變化?
Jonathan:從核心上看并沒有根本轉(zhuǎn)變,因?yàn)橥顿Y的目的始終是商業(yè)化。不過我現(xiàn)在在思考一個問題,純應(yīng)用可能存在風(fēng)險,需要一定的技術(shù)整合能力。以ChatGPT為例,它是一個垂直整合的應(yīng)用,既有應(yīng)用層也有很強(qiáng)的底層能力。
說到agent,我之前在南加大讀博士時就研究agent,當(dāng)時叫"多智能體協(xié)作"。那時人工智能有多個分支:機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、agent、自然語言處理和計算機(jī)視覺。我沒有選擇機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò),但后來這兩個方向結(jié)合形成了深度學(xué)習(xí),成為了整個領(lǐng)域的驅(qū)動力?,F(xiàn)在的agent與當(dāng)年最大的區(qū)別在于,現(xiàn)在都是圍繞深度學(xué)習(xí)展開的。
多智能體協(xié)作示意圖 圖源:吳恩達(dá)
從第一波機(jī)器視覺,包括無人駕駛、人臉識別,到今天的大模型,都是圍繞深度學(xué)習(xí)展開。在深度學(xué)習(xí)的范疇內(nèi),我們對應(yīng)用的要求比以前要高。以前分為看應(yīng)用和看模型兩派,但實(shí)際上這兩派是一致的,我們都會關(guān)注這兩個方面。
目前我們發(fā)現(xiàn)應(yīng)用沒有大爆發(fā),這導(dǎo)致底座模型也面臨挑戰(zhàn)。作為平臺,它必須讓上層生態(tài)在各個垂直場景大規(guī)模落地才能體現(xiàn)價值。但現(xiàn)在GPT最常用的反而是它自己的應(yīng)用。
02 創(chuàng)業(yè)公司商業(yè)化掣肘:有沒有私有化的數(shù)據(jù)?
《硅谷101》:你提到應(yīng)用還沒有大爆發(fā)。比如我自己用ChatGPT寫采訪提綱和節(jié)目筆記時,它的表現(xiàn)還不夠理想。這是AI能力的問題嗎?
Jonathan:是的,這直接關(guān)系到AI的底層能力。我認(rèn)為有以下幾點(diǎn):
首先是底層能力,就像互聯(lián)網(wǎng)時代的思科提供網(wǎng)絡(luò)連接能力一樣?,F(xiàn)在的大語言模型雖然已經(jīng)很不錯了,但基礎(chǔ)設(shè)施還不夠完善。
其次是操作系統(tǒng)(OS)。互聯(lián)網(wǎng)時代有瀏覽器作為OS,正是Netscape瀏覽器的出現(xiàn),才讓思科的基礎(chǔ)設(shè)施價值充分體現(xiàn),各種網(wǎng)頁應(yīng)用才開始爆發(fā)。移動互聯(lián)網(wǎng)則有iOS和Android。
但AI時代的OS是什么?OpenAI嘗試用GPTs做OS,問題是應(yīng)用層和底層模型的界限并不清晰。拿Jasper這樣的應(yīng)用來說,很多功能GPT本身就能實(shí)現(xiàn)。而且應(yīng)用層的數(shù)據(jù)和底座模型的數(shù)據(jù)往往非常相似。
這種界限不清晰還體現(xiàn)在:當(dāng)用戶問了一個問題得到答案時,很難判斷這個答案是由底座提供的還是由應(yīng)用提供的。這和互聯(lián)網(wǎng)應(yīng)用不同,比如Uber上哪些功能是iOS提供的,哪些是Uber自己提供的是很清晰的。
《硅谷101》:關(guān)于界限不清晰這點(diǎn),我有不同看法。以Google的Notebook LM為例,表面上它看起來像GPT,但實(shí)際上它的功能很獨(dú)特。它能處理長文本并生成精確的總結(jié),甚至能把播客內(nèi)容轉(zhuǎn)換成研究報告。它抓取關(guān)鍵點(diǎn)和細(xì)節(jié)的能力非常強(qiáng),比很多記者的水平都高。這可能是基于Gemini的底層模型能力,特別是在長文本處理方面。
Jonathan:這正是我想說的特點(diǎn),你很難區(qū)分一個功能到底是應(yīng)用層的貢獻(xiàn)還是底層模型的能力。AI應(yīng)用與互聯(lián)網(wǎng)應(yīng)用不同,它需要兩條線:一是產(chǎn)品設(shè)計,二是數(shù)據(jù)能力。產(chǎn)品設(shè)計讓用戶體驗(yàn)流暢,這是互聯(lián)網(wǎng)產(chǎn)品經(jīng)理的強(qiáng)項(xiàng);數(shù)據(jù)能力則通過微調(diào)和RAG來增強(qiáng)底層模型。
以Notebook LM為例,雖然它現(xiàn)在表現(xiàn)出色,但如果是第三方公司用Gemini開發(fā)類似應(yīng)用,核心競爭力就不會那么強(qiáng),因?yàn)殚L期來看還是要看底層模型的能力。這就是AI原生時代與互聯(lián)網(wǎng)時代的本質(zhì)區(qū)別,數(shù)據(jù)的重要性變得前所未有的高。
NotebookLM, 圖源:谷歌
單純應(yīng)用積累數(shù)據(jù)后,要考慮怎么跟底座結(jié)合,是用微調(diào)還是RAG,甚至需要預(yù)訓(xùn)練。要跟底座深度整合,或者自研一些底座支撐。像Perplexity這樣的公司就是開始比較輕的。
《硅谷101》:你說所有的應(yīng)用公司最終都要發(fā)展底層模型,這是必然趨勢嗎?
Jonathan:在當(dāng)前技術(shù)架構(gòu)下,創(chuàng)業(yè)公司似乎別無選擇。因?yàn)槟阈枰粩喾e累數(shù)據(jù)來維護(hù)護(hù)城河,而數(shù)據(jù)越來越多后,你要考慮如何跟底座模型結(jié)合,是繼續(xù)用微調(diào),還是用RAG,還是有些數(shù)據(jù)更適合預(yù)訓(xùn)練。不管是微調(diào)還是RAG,都需要底座模型的支持,尤其是當(dāng)你想做得更好時。如果你想走得長遠(yuǎn),建立高門檻的護(hù)城河,就必須與底座模型做更深度的結(jié)合,或者開始自研訓(xùn)練。
Keith:我非常同意數(shù)據(jù)這一點(diǎn)。數(shù)據(jù)質(zhì)量非常重要,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)會帶來不同的產(chǎn)品效果。
《硅谷101》:Jonathan你對人工智能有自己的定義,能和大家分享一下嗎?特別是為什么數(shù)據(jù)如此重要?
Jonathan:人工智能的歷史從1950年代達(dá)特茅斯會議就開始了,包括agent(智能體)、自然語言處理、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等多個分支。但我定義的產(chǎn)業(yè)化人工智能是從2012年開始的,核心就是深度學(xué)習(xí)。
2012年之前,所有計算機(jī)科學(xué)包括傳統(tǒng)人工智能都依賴人寫算法,有句話叫“人工智能有多智能主要看有多少人”。就像我從小開始就寫代碼,所有事情都要靠程序員一行行敲代碼。但2012年AlexNet出現(xiàn)后,把機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)結(jié)合成了深度學(xué)習(xí),不再依賴手寫代碼,而是通過大量數(shù)據(jù)訓(xùn)練。
這形成了"AI三要素":算法(AlexNet)、數(shù)據(jù)(李飛飛的ImageNet)和算力(吳恩達(dá)和GPU)。這三個要素結(jié)合產(chǎn)生了革命性突破,出現(xiàn)了一個“黑盒”模型,效果反而比人工編寫的“白盒”模型更好,只是可解釋性差一些。
到了2020年GPT-3出現(xiàn)后,第一次把人類積累的電子書、維基百科、Reddit、知乎等所有內(nèi)容作為訓(xùn)練數(shù)據(jù),效果超越了傳統(tǒng)自然語言處理的所有成果?,F(xiàn)在語言模型完全是數(shù)據(jù)定義的,這就是為什么在AI時代,你創(chuàng)業(yè)第一天就必須考慮數(shù)據(jù)。但關(guān)鍵是,“有用的數(shù)據(jù)”這個定義是動態(tài)的。比如Transformer出現(xiàn)前,很多數(shù)據(jù)都用不上,但現(xiàn)在它能處理這些語言數(shù)據(jù),產(chǎn)生出超越傳統(tǒng)自然語言處理的模型。
《硅谷101》:Keith你覺得什么樣的數(shù)據(jù)是有用的?
Keith:要從人工智能的本質(zhì)來看,它是要模擬人類行為。人在網(wǎng)上做的就是讀和寫兩件事:讀是獲取信息,比如聽我們的播客,看視頻;寫是基于信息采取行動,比如交易股票或者點(diǎn)擊按鈕。
但對機(jī)器來說,獲取數(shù)據(jù)很困難,因?yàn)榛ヂ?lián)網(wǎng)本來是為人設(shè)計的。每個網(wǎng)站都有自己的護(hù)城河,需要API或者寫爬蟲腳本才能獲取數(shù)據(jù),這是最臟最累的活,沒人愿意干,而且永遠(yuǎn)做不完。這導(dǎo)致很多做垂直領(lǐng)域的應(yīng)用公司,它們的數(shù)據(jù)都差不多,沒有特別之處。
《硅谷101》:但這些創(chuàng)業(yè)公司怎么能跟OpenAI這樣動輒獲得百億美元融資的公司競爭呢?
Jonathan:可以采取漸進(jìn)式的方法,像爬樓梯一樣一步步來。因?yàn)榘凑誗caling Law(規(guī)模法則),數(shù)據(jù)越多,模型能力理論上就應(yīng)該越強(qiáng)。雖然這需要越來越多的算力,但可以分步實(shí)現(xiàn)。
更重要的是差異化定位。OpenAI這樣的公司有平臺訴求,要服務(wù)所有場景,教育、制造業(yè)、醫(yī)療都要覆蓋。但如果你放棄通用平臺的訴求,專注于比如AI搜索這樣的垂直領(lǐng)域,把一件事做到極致,門檻反而成了護(hù)城河。
《硅谷101》:Perplexity它的底層是自己的模型還是建立在其他模型上?
Jonathan:剛開始并不是。我的總體定義是說要有底座潛力和底座能力的應(yīng)用公司。因?yàn)樗蠨eepMind的背景,所以他們有這個思維。它可以有幾個step,剛開始可能就是套個殼,像GPTs那樣直接用API,做些RAG,然后開始做微調(diào)。但我想它到了一定層面一定會自己做,因?yàn)樗粩喾e累自己的私有數(shù)據(jù)。它可以用這些數(shù)據(jù)再去做微調(diào),同時也應(yīng)該把這些數(shù)據(jù)去生成自己的底座。
《硅谷101》:如果Google或Microsoft也來做同樣的事情,那該怎么比?
Jonathan:回到剛才那兩條線。作為一個AI原生的應(yīng)用公司有兩個角色:第一是做好互聯(lián)網(wǎng)產(chǎn)品,這方面很多創(chuàng)業(yè)公司可能比模型公司或大廠做得更好,因?yàn)橐暯遣煌:芏啻_實(shí)從產(chǎn)品切入,開始可能就套個殼,但易用性和交互流暢性非常好,所以用戶一下就來了。
但這不代表你就成功了。就像最早的Jasper,它當(dāng)時比GPT用得好是因?yàn)楫a(chǎn)品設(shè)計確實(shí)更優(yōu)。但現(xiàn)在你要思考你的護(hù)城河在哪里。
《硅谷101》:GPTs上有比較成功的公司嗎?
Jonathan:應(yīng)該是沒有。在年初GPTs最火的時候。我直接問過一些開發(fā)者問這個問題:你有沒有私有數(shù)據(jù)?他們愣了很久,然后說“我為什么需要私有數(shù)據(jù)呢?我們沒有數(shù)據(jù)?!?/p>
我又問“那你會不會擔(dān)憂你的護(hù)城河(defensibility)?”他們說護(hù)城河就是產(chǎn)品設(shè)計。這在互聯(lián)網(wǎng)年代是很通用的思維。為什么互聯(lián)網(wǎng)應(yīng)用公司能比大廠厲害,很多時候是在產(chǎn)品層面。他在產(chǎn)品設(shè)計上面,尤其是垂直領(lǐng)域,肯定比做底座或者大廠的人更有優(yōu)勢。但是現(xiàn)在你要詳細(xì)考慮護(hù)城河的問題了。
《硅谷101》:Perplexity呢?
Jonathan:我覺得它一定會往底座去做。但這個可以有多種方法,你可以用開源底座去做一些繼續(xù)訓(xùn)練。
你要從成本上考慮,一上來就全都重新訓(xùn)練,成本太高了。但你可以做繼續(xù)訓(xùn)練,這個難度也不低,可能比微調(diào)要更難一些。但即便是微調(diào),微調(diào)跟繼續(xù)訓(xùn)練有時候界限也開始模糊了。而且還有風(fēng)險,做不好效果可能并不好。這些成本都要計算進(jìn)去,但大方向一定是往這走。這就是你的護(hù)城河。
你要么就不要有數(shù)據(jù),就像GPTs那些。但很快GPTs也都沒有了。所以看商業(yè)化有時候也會有誤區(qū),有些產(chǎn)品可能一段時間用戶看起來不錯,甚至有些收入。但只要沒有護(hù)城河,要么就是被底座覆蓋掉了,要么就是自己不能持續(xù)迭代下去了。
03 純應(yīng)用不足以構(gòu)筑護(hù)城河,多模態(tài)更有機(jī)會
《硅谷101》:我在想這種創(chuàng)業(yè)公司的應(yīng)用類的模型迭代,怎么能卷得過像OpenAI這種動輒百億美元融資的公司。因?yàn)樽龅讓幽P托枰约嘿I卡訓(xùn)練,如果一個模型訓(xùn)練得越來越大,智能真的涌現(xiàn)了,這些創(chuàng)業(yè)公司再去訓(xùn)練底層模型的意義何在呢?
Jonathan:所以有幾種方法。一種就是我剛才說的一步一步來,有點(diǎn)像baby step。你的卡會越來越多,加上數(shù)據(jù)越來越多,理論上最后輸出的模型能力應(yīng)該是越來越高的。
第二個就是聚焦。你可以做到跟OpenAI和國內(nèi)六小龍的不同,因?yàn)樗凶龅鬃P偷娜硕加凶銎脚_的訴求,要賦能所有的上層應(yīng)用,這樣就把它給攤平了?,F(xiàn)在來了教育的、制造業(yè)的、醫(yī)療等垂直行業(yè)的都得服務(wù)。這是它跟你的最大區(qū)別,你可以放棄作為通用平臺的訴求,就聚焦在比如AI搜索這樣一個垂直應(yīng)用。我把這一件事情做好,整個底座模型都是為了這個,不是為了去做下一個iOS。這樣你會簡單很多。
《硅谷101》:還是回到了數(shù)據(jù),護(hù)城河還是你垂直領(lǐng)域的數(shù)據(jù)的優(yōu)秀程度、專業(yè)程度和精專程度。
Keith:有點(diǎn)像大語言模型是個推土機(jī),我其實(shí)就想鑿個釘子。難道要拿推土機(jī)去鑿嗎?也可以也能弄進(jìn)去,但何必呢?其實(shí)拿個小錘子嘣一下就進(jìn)去了,那我就用小錘子不就得了。
《硅谷101》:Keith你有覺得比較好的商業(yè)化案例可以分享嗎?
Keith:美國本土還蠻多的。比如現(xiàn)在做coding的幾個很火,當(dāng)然這也涉及到它會有多大的護(hù)城河這個問題,比如說GitHub要去做會怎樣。還有一個特別火的coding應(yīng)用Devin,大模型時代“見光死”:demo做得好看,但正式發(fā)布后發(fā)現(xiàn)完全用不了,這樣的產(chǎn)品太多了。
Devin發(fā)布會, 圖源:官網(wǎng)
Jonathan:Coding應(yīng)用這個分界不是那么清晰,因?yàn)橐部梢杂肎PT,現(xiàn)在很多碼農(nóng)就直接用GPT幫他編程了。所以問題是你怎么去創(chuàng)造一個分界。產(chǎn)品肯定要做得很好,但你要實(shí)現(xiàn)scaling law,要用私有數(shù)據(jù)去訓(xùn)練,怎么去跟底座的這些人競爭,做長期的競爭。
如果他們要問我建議,就是你得擁有自己的底座。如果一直用第三方的底座,你的風(fēng)險永遠(yuǎn)是大的,因?yàn)樗麄円欢ㄒ苍诓粩嘤?xùn)練。
Keith:其實(shí)現(xiàn)在做得好的很多可能都是商業(yè)化做得比較好,就是在某一個點(diǎn)抓得準(zhǔn)。像Harvey這樣做法律方向的大模型應(yīng)用,也不知道多好用,但能講好故事。從真正大規(guī)模應(yīng)用角度來說,還是很遙遠(yuǎn)的。我覺得整個問題的核心還是太早。這是一個新的生產(chǎn)效率工具,但很多人把生產(chǎn)工具當(dāng)成了生產(chǎn)力,這是一個誤區(qū)。
《硅谷101》:作為音頻工作者,我覺得Google的Notebook LM用來做長文本分析還是蠻好用的。另外有一家創(chuàng)業(yè)公司Elevenlabs我很喜歡,它可以把文字轉(zhuǎn)成很好的配音,或者用AI補(bǔ)錄音頻,效果比真人補(bǔ)錄還要自然。不過它在中文方面表現(xiàn)還不夠好。Elevenlabs在融資市場表現(xiàn)也很優(yōu)秀,快到獨(dú)角獸級別了。還有像Suno這樣做文字生成音樂的,也融了很多錢。
Jonathan:這兩家都屬于跨模態(tài)、多模態(tài)的產(chǎn)品。我預(yù)測它們一定要往底座去延展。
《硅谷101》:它們其實(shí)是有底座的。
Jonathan:它們不僅有底座,在聲音處理上還有自己的獨(dú)特優(yōu)勢,有一些paper。所以這些公司要有訓(xùn)練數(shù)據(jù),用自己的或半自研的底座去實(shí)現(xiàn)最終的模型功能。從這個角度講,多模態(tài)更符合我說的,因?yàn)闆]有現(xiàn)成的第三方底座可用,你反而更需要自己去做很多事情。
《硅谷101》:所以現(xiàn)在整個市場上多模態(tài)的表現(xiàn)會不會更好一點(diǎn)?
Jonathan:對,這是我的預(yù)估。當(dāng)然這是把雙刃劍,對你的要求更高。很多人會往這條路走,這樣從第一天開始就有護(hù)城河。不像純語言模型,你可以一開始沒有護(hù)城河,直接調(diào)用GPT就能出產(chǎn)品。但在多模態(tài)領(lǐng)域你要先做出些東西,所以它是把雙刃劍。
我個人也比較看好多模態(tài),包括跨到硬件模態(tài)。如果能夠把硬件數(shù)據(jù)跟Robotic Transformer(RT)打通,把語言和硬件的傳感器數(shù)據(jù)、機(jī)械執(zhí)行數(shù)據(jù)從訓(xùn)練層就打通,我覺得這是多模態(tài)的一種體現(xiàn),還是有蠻大空間的。
04 埃森哲生意越興隆,生態(tài)越?jīng)]有成立
Keith:本質(zhì)上還是數(shù)據(jù)的獨(dú)特性、準(zhǔn)確性和優(yōu)勢。我問過美國幾家大的VC美國大企業(yè)對AI的接受程度如何,其中有一位負(fù)責(zé)人說吆喝聲很多,大家都想學(xué)想知道在討論,但真正能落地的還是很少。
現(xiàn)在大家做的都是AI咨詢,特別是RAG這塊是過去兩個季度最火的。因?yàn)樽鳛楣镜腎T負(fù)責(zé)人,肯定要考慮公司接下來在AI方面要做什么,要花錢,但可能還不知道該做什么。最起碼可以先把架子搭起來,做AI方面的咨詢討論。
在美國,像埃森哲這樣最大的科技咨詢公司,光咨詢就賺得最多。第二季度生成式AI帶來了6億美元新增營收,第三季度漲到9億美元(編者注:此處“新增營收”特指“由生成式AI帶來的新增訂單金額”,詳情請參考埃森哲財報)。另一家VC跟我聊天時說,就是耍耍嘴皮子做兩個RAG,就拿到9億美金,就是這樣的現(xiàn)狀。
《硅谷101》:你有用過埃森哲的服務(wù)嗎?
Keith:我們用不起,太貴了。
Jonathan:咨詢公司在今天的地位其實(shí)符合我之前的理論?;乜椿ヂ?lián)網(wǎng)時代,很多公司說要做數(shù)字化、做網(wǎng)站,也會找外包和咨詢公司。比如我自己作為客戶,現(xiàn)在要做一個內(nèi)部的投資GPT能回答投資問題,但因?yàn)橛泻芏嗨接袛?shù)據(jù),不知道怎么搭建,就需要找咨詢公司。事實(shí)上我們現(xiàn)在就在做,很多投資公司也在做這個事。
在互聯(lián)網(wǎng)時代,咨詢公司收入只占很小部分。即使把埃森哲、麥肯錫這些外包公司加在一起也是。因?yàn)橹虚g有OS,門檻降低了,大部分公司能自己做。以前做個簡單APP可能30萬人民幣左右。但在AI時代,咨詢成本很高,而且很多人都會用。因?yàn)橹虚g有很高門檻,這件事不容易做。
而且形成一個矛盾,就是數(shù)據(jù)越多反而越頭疼。數(shù)據(jù)多本來是好事,但數(shù)據(jù)越多,首先成本抽取就很貴,可能需要用到AgentQL這樣的工具。然后還要訓(xùn)練、要放到數(shù)據(jù)庫做RAG,所以干脆找咨詢公司。
埃森哲生意越興隆,反而說明這個生態(tài)越?jīng)]有成立。都要靠第三方交付公司,這是我們觀察到的現(xiàn)狀。但這本身是個阻礙,必須得邁過去。
《硅谷101》:所以我理解在互聯(lián)網(wǎng)時代,用埃森哲這類公司幫做APP的比例小,是因?yàn)榛A(chǔ)設(shè)施比較完善,大多數(shù)公司可以自己做。
Jonathan:對,完善,然后OS也比較具備。
《硅谷101》:但在AI時代因?yàn)榛A(chǔ)設(shè)施不太完善,每個公司要根據(jù)自己的數(shù)據(jù)去定制模型,門檻還比較高。
Jonathan:對,要經(jīng)過很多步驟,從數(shù)據(jù)到RAG。RAG看上去簡單但很多公司都做不好,需要對底座模型有理解。
Keith:可以理解為它解決了三個問題:第一是全新事物出現(xiàn)要做什么,第二是怎么做,第三是用什么工具做。這就像假如全球突然變冷了,我們東北人都可以成為埃森哲,因?yàn)榭梢愿嬖V大家冬天要做什么,準(zhǔn)備什么樣的秋衣秋褲,要準(zhǔn)備暖氣片,要冬儲大白菜等等。
《硅谷101》:那從投資角度看,是不是這個階段所有做中間服務(wù)、建設(shè)基礎(chǔ)設(shè)施的ToB公司,做服務(wù)的公司,做基礎(chǔ)架構(gòu)的公司更有價值?
Jonathan:是很有機(jī)會的。比如Fireworks、Lepton這樣的公司,做GPU的Lambda,還有做數(shù)據(jù)的,包括Keith這樣的公司。從投資人角度,我們把這些都放在基礎(chǔ)設(shè)施里面。技術(shù)設(shè)施很復(fù)雜,簡化下就是各種工具。
但他們不改變生態(tài),不會大大降低應(yīng)用層的門檻。最好是底座大模型把這些事情都做了。這就是所謂交鑰匙工程,OpenAI就是往這個方向走的。他們也都在做framework、算力優(yōu)化等。
在今天生態(tài)沒完全打開的情況下,這些點(diǎn)狀工具都很有價值,但風(fēng)險也比較大。因?yàn)檎麄€技術(shù)棧都不清晰,大家都在互相重疊競爭?,F(xiàn)在還是很早期,就像Keith說的是兩個月的baby。
《硅谷101》:在判斷這些中間層的ToB公司時,你覺得最核心的幾點(diǎn)能力是什么?
Keith:我感覺剛才Jonathan已經(jīng)把整個鏈條講得很清楚了。做基建從工程角度是最難的。但解決了最難的問題之后,在語言模型時代往上走一層反而容易。難的是選擇一個底層模型很難走進(jìn)去的賽道,在這個賽道上把它做到最好。對我們來說語言模型不是目標(biāo),但是它是很重要的工具。我們做的事我們認(rèn)為是語言模型永遠(yuǎn)都解決不了的。
《硅谷101》:這還是需要對垂直行業(yè)的深度理解,和基于扎實(shí)的工作建立起來的基本功。
Keith:需要對工程的理解要遠(yuǎn)遠(yuǎn)勝過對語言模型的理解。
Jonathan:對。而且基礎(chǔ)設(shè)施的一個很強(qiáng)的可能性是找到一個可以交鑰匙的點(diǎn),在某個垂直場景里面成為一個操作系統(tǒng)。雖然不能一下變成瀏覽器或iOS,但可能在某個垂類里面成為一個iOS。但想做一個非常泛的操作系統(tǒng)是有難度的。不過可以探索這條路,這樣跟底座的關(guān)系也比較容易切分。因?yàn)榈鬃P投枷氤蔀橥ㄓ闷脚_,不會在特別垂直的領(lǐng)域深耕,他們想做AI+所有東西。所以這塊是有機(jī)會的。