在3d動畫的制作過程中,我們十分看重人物表情細節(jié)的處理,其中人物的嘴部作為交流的重要器官之一,嘴部動作逼真與否很大程度決定了3d動畫中人物的逼真程度。
迪士尼研究所(Disney Research)和幾所大學的研究人員撰寫的一篇新論文描述了一種基于深度學習的程序語言動畫的新方法。該系統(tǒng)對人類語音的錄音進行采樣,并使用它自動生成匹配的嘴部動畫。該方法的應(yīng)用范圍可從動畫擴展到VR社交的化身。
迪斯尼研究所,加拿大東加利福尼亞理工大學和卡內(nèi)基梅隆大學的研究人員撰寫了題為“廣義語音動畫深度學習方法”的論文。該文件描述了一種已經(jīng)用“深度學習/神經(jīng)網(wǎng)絡(luò)”方法訓練的系統(tǒng),使用來自單個揚聲器的八小時參考畫面(2,543句)來教導系統(tǒng)在各種語音單元期間應(yīng)該形成的形狀(稱為音素)及其組合。
下面這個示例中,右側(cè)的臉是參考鏡頭,左側(cè)的臉僅覆蓋了基于音頻輸入產(chǎn)出“嘴形”動畫的嘴部。
這個方法是使用滑動窗口預(yù)測器,其可以以準確地捕獲自然運動和視覺共同效應(yīng)的方式學習從音素標簽輸入序列到口部運動的任意非線性映射。
它有幾個特性:實時運行,需要最少的參數(shù)調(diào)整,很好地推廣到新穎的輸入語音序列,易于編輯,可創(chuàng)建風格化和情感化的語音,并且與現(xiàn)有的動畫重定向方法兼容。
雖然這個系統(tǒng)不能滿足主要CGI制作的高保真語音動畫,但是可以應(yīng)用于一些低預(yù)算項目,或者沒有辦法聘請動畫師的學術(shù)項目等。
而在VR社交里,這個方法的應(yīng)用會更加廣泛,它能讓3D化身更加生動逼真。相對于其它的工具,這種基于深度學習的新系統(tǒng)似乎提供了非常高的細節(jié)和語音動畫的準確性。
|