大模型評測亂象頻出，如何構(gòu)建科學(xué)評測體系成行業(yè)焦點(diǎn)

發(fā)布時間：2024-12-23 14:13 來源：藍(lán)鯨新聞作者：沈瑾瑜

在人工智能領(lǐng)域，大模型的評測一直是衡量其能力的重要標(biāo)尺。如同一場精心設(shè)計的考試，評測不僅揭示了技術(shù)的現(xiàn)狀，還指引著模型開發(fā)的未來方向，幫助開發(fā)者識別并解決潛在問題。

然而，構(gòu)建一套科學(xué)、公正的大模型評測體系遠(yuǎn)比想象中復(fù)雜。大模型如同多才多藝的考生，精通多種語言，跨領(lǐng)域知識廣博，一旦洞悉考試模式，便能通過反復(fù)練習(xí)取得高分，這無疑給評測的公平性帶來了挑戰(zhàn)。

全球范圍內(nèi)，大模型評測榜單琳瑯滿目，據(jù)統(tǒng)計，數(shù)量已超過50個。不同機(jī)構(gòu)依據(jù)各自標(biāo)準(zhǔn)設(shè)立的評測體系，使得同一模型在不同榜單上的排名大相徑庭，這一現(xiàn)象引發(fā)了公眾對評測公正性的廣泛討論。

為了應(yīng)對這一挑戰(zhàn)，智源研究院于2023年推出了Flageval（天秤）大語言模型評測體系，該體系覆蓋了語言、多模態(tài)、語音語言等多種模型類型，并針對不同類型設(shè)計了詳細(xì)的評測指標(biāo)和方法。近日，智源研究院再次發(fā)布了升級后的Flageval新版本，現(xiàn)已涵蓋全球800多個開源和閉源模型，評測題目超過200萬條。

為了確保評測的公平性，智源研究院采取了一系列措施。對于開源模型，采用模型發(fā)布方推薦的推理代碼和運(yùn)行環(huán)境；對于閉源模型，則通過公開的API以普通用戶身份進(jìn)行訪問，確保所有模型面對相同的評測條件。智源研究院智能評測組負(fù)責(zé)人楊熙表示，評測過程中，模型并不知道自己正在接受測試，從而避免了針對性優(yōu)化的可能。

盡管如此，大模型評測仍面臨諸多挑戰(zhàn)。一些公司為了取得好成績，不惜采取各種刷分手段，如反復(fù)提交不同版本的模型，甚至提前獲取評測數(shù)據(jù)集進(jìn)行訓(xùn)練。這些行為嚴(yán)重?fù)p害了評測結(jié)果的公正性和可靠性。

為了應(yīng)對這些挑戰(zhàn)，智源研究院不斷更新評測題目，引入更難的考題以拉開模型間的差距。同時，評測數(shù)據(jù)集不僅包括開源社區(qū)的公開數(shù)據(jù)集，還涵蓋了智源研究院自建的數(shù)據(jù)集，以確保模型不會針對特定數(shù)據(jù)集進(jìn)行優(yōu)化。智源還嘗試了一種新穎的評測方式——讓大模型進(jìn)行實(shí)時辯論。

在辯論賽中，模型需要理解辯題、構(gòu)建論點(diǎn)、反駁對方觀點(diǎn)，這不僅考驗(yàn)了模型的思辨能力、邏輯推理能力，還鍛煉了其語言表達(dá)能力和綜合素質(zhì)。智源研究院在現(xiàn)場演示了一場大模型之間的實(shí)時辯論賽，辯題為“功夫熊貓和孫悟空誰更適合做隊友”。兩個大模型展開了激烈的對話，引經(jīng)據(jù)典，談話充滿張力，讓觀眾直觀地感受到了不同模型的能力差異。

智源研究院副院長兼總工程師林詠華強(qiáng)調(diào)，榜單排名不應(yīng)成為評價模型的唯一標(biāo)準(zhǔn)。用戶在選擇模型時，應(yīng)根據(jù)自身需求和應(yīng)用場景，綜合考慮模型的各項(xiàng)指標(biāo)。評測還需要更加關(guān)注模型的實(shí)際應(yīng)用能力，如響應(yīng)速度、用戶體驗(yàn)等。她表示，大模型評測是一個復(fù)雜的系統(tǒng)工程，需要行業(yè)共同努力，不斷探索新的評測方法，構(gòu)建高質(zhì)量的評測數(shù)據(jù)集，并加強(qiáng)合作，推動統(tǒng)一評測標(biāo)準(zhǔn)的建立。