Meta Llama 4 Maverick測(cè)試成績(jī)真實(shí)性引爭(zhēng)議，版本不一致成焦點(diǎn)

發(fā)布時(shí)間：2025-04-07 07:59 來(lái)源：ITBEAR 作者：朱天宇

近期，科技界關(guān)注的焦點(diǎn)之一是meta公司新推出的旗艦AI模型Maverick。這款模型在LM Arena測(cè)試中取得了顯著成績(jī)，名列第二，然而這一成就卻迅速引發(fā)了業(yè)界的廣泛爭(zhēng)議。

爭(zhēng)議的核心在于，meta在LM Arena上使用的Maverick版本與向開(kāi)發(fā)者廣泛提供的版本存在顯著差異。多位AI研究者在社交媒體平臺(tái)上指出，meta在公告中提到的參與測(cè)試的Maverick是一個(gè)“實(shí)驗(yàn)性聊天版本”，但實(shí)際上，根據(jù)官方Llama網(wǎng)站的信息，該版本是經(jīng)過(guò)專門優(yōu)化調(diào)整的“針對(duì)對(duì)話性優(yōu)化的Llama 4 Maverick”。

這種針對(duì)性的優(yōu)化行為，讓開(kāi)發(fā)者對(duì)Maverick模型的實(shí)際表現(xiàn)產(chǎn)生了質(zhì)疑。以往，AI公司通常不會(huì)在基準(zhǔn)測(cè)試中對(duì)模型進(jìn)行專門定制或微調(diào)，以獲取更高分?jǐn)?shù)，但meta此次的做法打破了這一慣例，且未公開(kāi)承認(rèn)這一點(diǎn)。

研究人員進(jìn)一步發(fā)現(xiàn)，公開(kāi)可下載的Maverick版本與LM Arena上托管的模型在行為上存在顯著差異。例如，LM Arena版本更傾向于使用大量表情符號(hào)，且回答往往冗長(zhǎng)。這種行為差異不僅讓開(kāi)發(fā)者難以準(zhǔn)確評(píng)估模型的實(shí)際性能，還具有一定的誤導(dǎo)性。

值得注意的是，LM Arena測(cè)試工具的可靠性本身也備受爭(zhēng)議。盡管如此，AI公司通常還是會(huì)尊重這些基準(zhǔn)測(cè)試的結(jié)果，因?yàn)樗鼈冎辽倌芴峁┠Ｐ驮诙喾N任務(wù)中表現(xiàn)的概覽。然而，meta此次的行為卻打破了這一信任基礎(chǔ)。

meta和負(fù)責(zé)維護(hù)LM Arena的Chatbot Arena組織至今尚未對(duì)這一爭(zhēng)議做出正式回應(yīng)。這無(wú)疑加劇了業(yè)界對(duì)meta此次行為的疑慮和不滿。

對(duì)于開(kāi)發(fā)者而言，這種針對(duì)性優(yōu)化模型的行為不僅影響了他們對(duì)模型性能的準(zhǔn)確判斷，還可能誤導(dǎo)他們?cè)谔囟▓?chǎng)景下的應(yīng)用選擇。因此，業(yè)界呼吁meta公司盡快對(duì)這一爭(zhēng)議做出明確回應(yīng)，并采取措施恢復(fù)業(yè)界對(duì)基準(zhǔn)測(cè)試的信任。