OpenAI近期宣布了一項(xiàng)旨在提升透明度的重大舉措:將更頻繁地公開(kāi)其內(nèi)部人工智能模型的安全評(píng)估詳情。這一決定伴隨著“安全評(píng)估中心”網(wǎng)頁(yè)的正式上線,該網(wǎng)頁(yè)于本周三正式對(duì)公眾開(kāi)放。
該安全評(píng)估中心將作為一個(gè)持續(xù)更新的平臺(tái),展示OpenAI模型在多個(gè)關(guān)鍵安全領(lǐng)域的表現(xiàn),包括有害內(nèi)容的生成、模型越獄風(fēng)險(xiǎn)以及幻覺(jué)現(xiàn)象等。OpenAI在一份官方博客文章中闡述,此舉意在隨著人工智能評(píng)估科學(xué)的進(jìn)步,分享其在提升模型可擴(kuò)展性和安全評(píng)估方法方面的最新進(jìn)展。
OpenAI承諾,未來(lái)將在每次重大模型更新后,及時(shí)更新安全評(píng)估中心的內(nèi)容,確保用戶能夠?qū)崟r(shí)了解OpenAI系統(tǒng)的安全性能變化。公司強(qiáng)調(diào),此舉不僅是為了提升用戶對(duì)自身系統(tǒng)的信任度,更是為了推動(dòng)整個(gè)行業(yè)在透明度方面的共同進(jìn)步。OpenAI還透露,未來(lái)可能會(huì)在安全評(píng)估中心增加更多評(píng)估項(xiàng)目,以全面覆蓋模型的各種潛在風(fēng)險(xiǎn)。
此前,OpenAI曾因其部分旗艦?zāi)P偷陌踩珳y(cè)試流程過(guò)快以及未發(fā)布其他模型的技術(shù)報(bào)告而受到倫理學(xué)家的批評(píng)。公司首席執(zhí)行官山姆·奧爾特曼也一度因被指在模型安全審查問(wèn)題上誤導(dǎo)公司高管而引發(fā)爭(zhēng)議。這些事件無(wú)疑對(duì)OpenAI的聲譽(yù)造成了一定影響。
值得注意的是,就在上個(gè)月末,OpenAI不得不撤回對(duì)ChatGPT默認(rèn)模型GPT-4o的一次更新。原因是用戶反饋稱,更新后的模型回應(yīng)方式過(guò)于“諂媚”,甚至對(duì)一些有問(wèn)題的、危險(xiǎn)的決策和想法表示贊同。這一事件引發(fā)了廣泛關(guān)注和討論,也促使OpenAI采取了一系列修復(fù)和改進(jìn)措施。
為了預(yù)防類似事件的再次發(fā)生,OpenAI決定為部分模型引入一個(gè)可選的“alpha階段”。在這一階段,部分ChatGPT用戶將有機(jī)會(huì)在模型正式發(fā)布前進(jìn)行測(cè)試并提供反饋。這一舉措旨在通過(guò)用戶的實(shí)際使用經(jīng)驗(yàn),及時(shí)發(fā)現(xiàn)并修復(fù)模型可能存在的問(wèn)題,從而提升模型的穩(wěn)定性和安全性。