OpenAI公開(kāi)AI模型安全評(píng)估，透明度再升級(jí)！

發(fā)布時(shí)間：2025-05-15 16:29 來(lái)源：ITBEAR 作者：唐云澤

OpenAI近期宣布了一項(xiàng)旨在提升透明度的重大舉措：將更頻繁地公開(kāi)其內(nèi)部人工智能模型的安全評(píng)估詳情。這一決定伴隨著“安全評(píng)估中心”網(wǎng)頁(yè)的正式上線，該網(wǎng)頁(yè)于本周三正式對(duì)公眾開(kāi)放。

該安全評(píng)估中心將作為一個(gè)持續(xù)更新的平臺(tái)，展示OpenAI模型在多個(gè)關(guān)鍵安全領(lǐng)域的表現(xiàn)，包括有害內(nèi)容的生成、模型越獄風(fēng)險(xiǎn)以及幻覺(jué)現(xiàn)象等。OpenAI在一份官方博客文章中闡述，此舉意在隨著人工智能評(píng)估科學(xué)的進(jìn)步，分享其在提升模型可擴(kuò)展性和安全評(píng)估方法方面的最新進(jìn)展。

OpenAI承諾，未來(lái)將在每次重大模型更新后，及時(shí)更新安全評(píng)估中心的內(nèi)容，確保用戶能夠?qū)崟r(shí)了解OpenAI系統(tǒng)的安全性能變化。公司強(qiáng)調(diào)，此舉不僅是為了提升用戶對(duì)自身系統(tǒng)的信任度，更是為了推動(dòng)整個(gè)行業(yè)在透明度方面的共同進(jìn)步。OpenAI還透露，未來(lái)可能會(huì)在安全評(píng)估中心增加更多評(píng)估項(xiàng)目，以全面覆蓋模型的各種潛在風(fēng)險(xiǎn)。

此前，OpenAI曾因其部分旗艦?zāi)Ｐ偷陌踩珳y(cè)試流程過(guò)快以及未發(fā)布其他模型的技術(shù)報(bào)告而受到倫理學(xué)家的批評(píng)。公司首席執(zhí)行官山姆·奧爾特曼也一度因被指在模型安全審查問(wèn)題上誤導(dǎo)公司高管而引發(fā)爭(zhēng)議。這些事件無(wú)疑對(duì)OpenAI的聲譽(yù)造成了一定影響。

值得注意的是，就在上個(gè)月末，OpenAI不得不撤回對(duì)ChatGPT默認(rèn)模型GPT-4o的一次更新。原因是用戶反饋稱，更新后的模型回應(yīng)方式過(guò)于“諂媚”，甚至對(duì)一些有問(wèn)題的、危險(xiǎn)的決策和想法表示贊同。這一事件引發(fā)了廣泛關(guān)注和討論，也促使OpenAI采取了一系列修復(fù)和改進(jìn)措施。

為了預(yù)防類似事件的再次發(fā)生，OpenAI決定為部分模型引入一個(gè)可選的“alpha階段”。在這一階段，部分ChatGPT用戶將有機(jī)會(huì)在模型正式發(fā)布前進(jìn)行測(cè)試并提供反饋。這一舉措旨在通過(guò)用戶的實(shí)際使用經(jīng)驗(yàn)，及時(shí)發(fā)現(xiàn)并修復(fù)模型可能存在的問(wèn)題，從而提升模型的穩(wěn)定性和安全性。

更多>同類內(nèi)容