在北京市大興區(qū),一場聚焦全球化與人工智能的盛會——2024T-EDGE創(chuàng)新大會暨鈦媒體財經(jīng)年會于12月6日至7日成功舉辦。此次大會以“全力擁抱全球化,全力投入AI”為主題,匯聚了全球科技和商業(yè)領(lǐng)域的頂尖領(lǐng)袖,共同探索企業(yè)全球化增長的新格局、新趨勢,以及AI對全球各行業(yè)產(chǎn)生的深遠(yuǎn)影響。
在影視制作領(lǐng)域,視頻生成一直是一項極具挑戰(zhàn)性的任務(wù),特別是人物的面部、嘴型、表情和肢體動作的精準(zhǔn)捕捉。即便是微小的動作位移或差異,都可能導(dǎo)致畫面失真。要達(dá)到好萊塢級別的影視效果,往往需要投入大量的人力和財力。然而,隨著生成式AI技術(shù)的迅猛發(fā)展,這一難題正在被逐步攻克。
在2023年8月,知名視覺效果工作室和AI技術(shù)初創(chuàng)公司MARZ(Monsters Aliens Robot Zombies)推出了新一代AI視效產(chǎn)品LipDub,這款產(chǎn)品專為解決影視配音中口型不同步的問題而設(shè)計。據(jù)透露,LipDub將有助于好萊塢電影公司和廣告商在提升觀眾收視率和參與度方面實現(xiàn)質(zhì)的飛躍。
MARZ的AI研究團(tuán)隊由世界知名的特拉維夫大學(xué)計算機(jī)科學(xué)系教授Danny Cohen-Or領(lǐng)導(dǎo),他同時也是ACM研究員和Isaias Nizri視覺計算主席。Cohen-Or教授與他的長期合作者、西蒙弗雷澤大學(xué)助理教授Ali Mahdavi-Amiri共同領(lǐng)導(dǎo)了MARZ的AI研究。他們此前已成功開展了Vanity AI的研究,這是MARZ開發(fā)的第一個AI解決方案,能夠利用AI技術(shù)對人物面部皺紋進(jìn)行美妝處理,達(dá)到年輕化的效果。Vanity AI自2023年1月推出以來,已在45部好萊塢作品中得到應(yīng)用。
在12月7日的演講中,LipDub的CEO Jonathan Bronfman詳細(xì)闡述了LipDub的技術(shù)實現(xiàn)原理,并展示了該技術(shù)在不同行業(yè)和場景中的應(yīng)用解決方案。Bronfman指出,當(dāng)前生成式AI技術(shù)已經(jīng)發(fā)展到文生圖、圖生視頻的階段。對于營銷人員或內(nèi)容創(chuàng)作者而言,借助生成式AI技術(shù),他們幾乎可以在10分鐘內(nèi)將某個想法轉(zhuǎn)化為視頻,從而快速驗證視頻效果。
Bronfman認(rèn)為,視頻內(nèi)容生成的主要挑戰(zhàn)在于速度慢和成本高。然而,隨著視頻內(nèi)容生成效率的提升,用戶現(xiàn)在可以在幾分鐘內(nèi)生成一段視頻,并且同一段視頻素材可以反復(fù)使用。這極大地降低了視頻制作的門檻,使得更多人能夠參與到視頻內(nèi)容的創(chuàng)作中來。
LipDub的口形同步技術(shù)(Lip Sync)采用了三種方案:一是直接對視頻進(jìn)行翻譯,如將英文演講視頻翻譯成中文,并調(diào)整口型以匹配中文發(fā)音;二是通過定制虛擬形象進(jìn)行對話調(diào)整,這在廣告場景中尤為有用,因為品牌在全球各地可能有不同的產(chǎn)品名稱表達(dá),但希望使用同一支商業(yè)廣告;三是通過一段語料為角色量身定制對話,即針對同一件事物,根據(jù)不同的受眾群體生成不同的個性化表達(dá)。
Bronfman強(qiáng)調(diào),好萊塢影視畫面的要求不僅僅是口型同步,還需要動態(tài)且富有飽滿情緒的表演。因此,LipDub在跨語言轉(zhuǎn)換過程中,不僅要確??谛屯?,還要能夠恰當(dāng)?shù)赜昧硪环N語言傳遞源語言中所表達(dá)的情感。為了實現(xiàn)這一目標(biāo),LipDub采用了Language Agnostic模型,以實現(xiàn)跨語言無關(guān)特征學(xué)習(xí)。
Bronfman在演講中還透露,MARZ源自Monsters Aliens Robot Zombies的英文縮寫,是一家專門制作視覺特效的工作室,成立于2018年。他們曾為《蟻人》、《驚奇少女》等好萊塢影片和影視劇提供特效,并與迪士尼、奈飛、Amazon Prime等多家流媒體平臺建立了合作關(guān)系。在2019年,MARZ明確了AI可以加速發(fā)展,為他們提供在成本、時間和規(guī)模上的競爭力。
實際上,MARZ開發(fā)的第一款A(yù)I產(chǎn)品并不是LipDub,而是2D美妝產(chǎn)品Vanity AI。該產(chǎn)品可以通過創(chuàng)建一張單幀圖片,然后將其他底片插入使其鮮活起來。MARZ團(tuán)隊一開始就非常擅長對人物面部表情的刻畫。在注意到奈飛平臺上韓劇《魷魚游戲》在歐美地區(qū)爆火但配音口型不匹配的問題后,他們開始思考如何讓口型同步起來,提升觀眾的觀看體驗。
經(jīng)過不斷努力,MARZ將口型同步技術(shù)用在了好萊塢電影配音中,并一直引領(lǐng)著這一技術(shù)的發(fā)展。在演講的示例中,可以看到他們將佛蘭芒語的電影翻譯成英文,并使用了LipDub技術(shù)來實現(xiàn)口型同步。在為好萊塢電影制作過程中,他們還解決了大量技術(shù)難點,如擺姿勢、換鏡頭、換燈光等,以實現(xiàn)4K高分辨率。
除了好萊塢電影,LipDub還擴(kuò)展到了廣告、在線教育、企業(yè)宣傳片等多個領(lǐng)域,并專注于對視頻質(zhì)量有高要求的客戶群體。在在線教育場景中,LipDub營造出了一種真實的聽眾體驗,讓人感覺就像是說話人自己的語言一樣。
Bronfman還展示了LipDub的兩種應(yīng)用模式:初級模式和高級模式。在高級模式中,開發(fā)人員需要先對項目進(jìn)行命名并選擇源語言和目標(biāo)語言,然后上傳視頻并添加訓(xùn)練素材。經(jīng)過自動檢測打標(biāo)后,上傳音頻與對應(yīng)角色進(jìn)行匹配,最終生成視頻。而在初級模式中,用戶只需上傳視頻并進(jìn)行預(yù)處理后,點擊創(chuàng)建配音并選擇自己的音頻素材或內(nèi)置翻譯功能,即可一鍵生成配音效果。
最后,Bronfman展示了LipDub正在開發(fā)的新功能——替換對話框(Replace Dialogue)。這一功能類似于文本到語音的轉(zhuǎn)換,但如果輸出的結(jié)果不符合預(yù)期怎么辦?比如用戶想修改一個單詞,但跨語言轉(zhuǎn)換會有細(xì)微差別。為了確保能夠恰當(dāng)?shù)赜昧硪环N語言傳遞情感,LipDub正在不斷優(yōu)化這一功能。