Reddit在2024年大放異彩,這家歷史悠久的社交平臺(tái)不僅在3月份成功登陸紐交所,還在上市后的第三季度實(shí)現(xiàn)了首次盈利。其股價(jià)更是飆升,目前已達(dá)到上市首日開盤價(jià)的350%左右。這一連串的成功背后,有一個(gè)不可忽視的關(guān)鍵因素——人工智能(AI)。
隨后,在上市后的5月,Reddit又與OpenAI建立了類似的合作關(guān)系。根據(jù)協(xié)議,Reddit的問答內(nèi)容將被整合到OpenAI的產(chǎn)品中,同時(shí),Reddit平臺(tái)的編輯功能和附加模組也將引入由OpenAI技術(shù)驅(qū)動(dòng)的AI功能。這一雙向合作不僅為Reddit提供了技術(shù)支持,還為OpenAI提供了寶貴的語(yǔ)料資源。
在眾多UGC(用戶生成內(nèi)容)社交平臺(tái)中,為何Reddit能夠成為AI大模型廠商青睞的語(yǔ)料供應(yīng)商?這主要得益于其獨(dú)特的業(yè)務(wù)生態(tài)、內(nèi)容模式和發(fā)展階段。
業(yè)務(wù)生態(tài)上,Reddit作為一個(gè)相對(duì)獨(dú)立的平臺(tái),其背后由多個(gè)利益集團(tuán)及個(gè)人控股,沒有像國(guó)內(nèi)一些社交平臺(tái)那樣擁有豐富的產(chǎn)品生態(tài)和產(chǎn)業(yè)鏈。因此,Reddit無(wú)需顧及自身的生態(tài)組合,可以更加靈活地與其他公司進(jìn)行合作,將語(yǔ)料作為籌碼進(jìn)行交易。
內(nèi)容模式上,Reddit通過subReddit(子論壇)來(lái)組織內(nèi)容,用戶可以創(chuàng)建和加入不同的子論壇,發(fā)帖和評(píng)論。這種機(jī)制使得Reddit能夠形成較好的語(yǔ)料產(chǎn)出正向循環(huán),用戶可以對(duì)帖子和評(píng)論進(jìn)行“點(diǎn)贊”或“點(diǎn)踩”,被點(diǎn)贊的內(nèi)容會(huì)獲得更多的曝光機(jī)會(huì),而被點(diǎn)踩的內(nèi)容則可能被隱藏。這種機(jī)制與知乎、豆瓣等平臺(tái)類似,但Reddit在語(yǔ)料的質(zhì)量和多樣性上更具優(yōu)勢(shì)。
發(fā)展階段上,Reddit在創(chuàng)立近20年后才開始盈利,收入結(jié)構(gòu)相對(duì)單一,主要依賴平臺(tái)廣告。然而,在AI大模型時(shí)代到來(lái)之際,Reddit迎來(lái)了業(yè)務(wù)拓展和盈利的最佳時(shí)機(jī)。通過提供語(yǔ)料資源,Reddit不僅能夠增加收入,還能與AI大廠建立緊密的合作關(guān)系,共同推動(dòng)AI技術(shù)的發(fā)展。
那么,在國(guó)內(nèi)眾多具有較多文字語(yǔ)料且業(yè)務(wù)較為獨(dú)立的UGC平臺(tái)中,誰(shuí)最有可能成為AI時(shí)代的中國(guó)Reddit呢?我們可以從B站、小紅書、微博、豆瓣、知乎和貼吧等平臺(tái)中進(jìn)行比較和分析。
然而,并不是所有UGC社交平臺(tái)都能出售語(yǔ)料。像微信生態(tài)內(nèi)的公眾號(hào)和小綠書等內(nèi)容渠道,由于其母公司擁有豐富的產(chǎn)品生態(tài)和產(chǎn)業(yè)鏈,不太可能將平臺(tái)內(nèi)容出售給其他AI廠商。同樣的情況也適用于抖音的母公司字節(jié)跳動(dòng),他們更傾向于將自身平臺(tái)內(nèi)容用于自身的AI模型訓(xùn)練。
相比之下,B站、小紅書、微博、豆瓣、知乎和貼吧等相對(duì)獨(dú)立的C端社交平臺(tái)產(chǎn)品,尤其是以文字類內(nèi)容為主的平臺(tái),更有可能在AI時(shí)代像Reddit一樣煥發(fā)新生。這些平臺(tái)需要解決的關(guān)鍵問題是如何判定誰(shuí)的語(yǔ)料更好更適合AI廠商的需求。
平臺(tái)上用戶自發(fā)的內(nèi)容判定機(jī)制會(huì)成為首要因素。以Reddit為例,用戶可以通過“點(diǎn)贊”或“點(diǎn)踩”對(duì)帖子和評(píng)論進(jìn)行評(píng)判,這形成了較好的語(yǔ)料產(chǎn)出正向循環(huán)。同樣地,AI廠商也會(huì)根據(jù)用戶對(duì)生成內(nèi)容的反饋來(lái)進(jìn)行數(shù)據(jù)標(biāo)注工作。平臺(tái)自身的內(nèi)容判定機(jī)制和用戶畫像與AI的適配度也是重要的考量因素。
在B站、小紅書、微博這三個(gè)平臺(tái)中,小紅書可能最不想出售自己的語(yǔ)料資源。這是因?yàn)樾〖t書目前正處于商業(yè)化探索的上升期,內(nèi)容和交易雙維度數(shù)據(jù)都顯示出其生態(tài)的增長(zhǎng)潛力。同時(shí),小紅書自己也正在測(cè)試多個(gè)AI功能,希望成為AI時(shí)代的甲方而非語(yǔ)料供應(yīng)商。
相比之下,B站和微博則更適合與AI大廠達(dá)成Reddit模式的合作。B站已經(jīng)與kimi等AI廠商有了較為深度的合作,內(nèi)容儲(chǔ)備量及質(zhì)量較高,同時(shí)具有粘性較高的社區(qū)氛圍和優(yōu)質(zhì)內(nèi)容產(chǎn)出循環(huán)。然而,將平臺(tái)內(nèi)容用于AI訓(xùn)練之前,B站需要解決用戶協(xié)議的問題,確保用戶接受自己的評(píng)論、視頻和文字等內(nèi)容被用于AI訓(xùn)練。
微博則與B站不同,其用戶對(duì)于自己的內(nèi)容被用來(lái)生成AI內(nèi)容似乎并不排斥。微博的評(píng)論機(jī)器人“羅伯特”就是一個(gè)很好的例子,它已經(jīng)成為提升微博用戶粘性的手段之一。微博的用戶定位和使用場(chǎng)景都足夠清晰,在高強(qiáng)度的注意力競(jìng)爭(zhēng)中保持了相對(duì)穩(wěn)定的用戶規(guī)模。
因此,如果缺乏語(yǔ)料庫(kù)的大模型廠商需要找到一個(gè)活人多的社交平臺(tái)作為語(yǔ)料供應(yīng)商,微博可能會(huì)是一個(gè)不錯(cuò)的選項(xiàng)。微博用戶對(duì)于AI的高接受程度以及平臺(tái)在內(nèi)容判定機(jī)制上的優(yōu)勢(shì),使其成為AI廠商理想的合作伙伴。
當(dāng)然,除了微博之外,還有其他社交平臺(tái)也具備成為語(yǔ)料供應(yīng)商的潛力。這些平臺(tái)需要滿足用戶心智上的需求,即在用戶心里達(dá)成“我想在你這里說真心話”同時(shí)“我不在乎我在你這里說的話被拿去喂AI”的平衡。只有滿足這一條件的社交平臺(tái),才有可能在AI時(shí)代脫穎而出,成為像Reddit那樣的語(yǔ)料供應(yīng)商。
社交平臺(tái)在出售語(yǔ)料時(shí)也需要做好平臺(tái)和用戶的內(nèi)容協(xié)議工作。確保用戶同意自己的內(nèi)容被用于AI訓(xùn)練是第一步,也是最重要的一步。只有這樣,才能確保合作的順利進(jìn)行和平臺(tái)的長(zhǎng)期發(fā)展。
在AI技術(shù)日新月異的今天,語(yǔ)料庫(kù)的質(zhì)量和多樣性已經(jīng)成為影響AI模型性能的關(guān)鍵因素之一。因此,對(duì)于社交平臺(tái)來(lái)說,抓住AI時(shí)代的機(jī)遇,成為語(yǔ)料供應(yīng)商不僅是一個(gè)增加收入的途徑,更是推動(dòng)AI技術(shù)發(fā)展的重要力量。
隨著AI技術(shù)的不斷發(fā)展,我們可以預(yù)見,在未來(lái)的AI訓(xùn)練中,語(yǔ)料比拼將成為重要的競(jìng)爭(zhēng)焦點(diǎn)。誰(shuí)能夠擁有高質(zhì)量的語(yǔ)料資源,誰(shuí)就有可能在AI領(lǐng)域占據(jù)領(lǐng)先地位。