這款A(yù)I一鍵讓照片說話的模型叫SadTalker,是由西安交通大學(xué)的研究人員提出的,它可以讓照片里的人物跟隨音頻的輸入動起來,且頭部運動、面部表情比較真實,下圖是官方展示的效果圖,還在等什么呢,即刻擁有它!
①建議先部署SD(stable-diffusion-webui),可以參考以下文章:
因為SD已經(jīng)支持了SadTalker的插件了,后續(xù)從SD生成的圖片,都可以直接一鍵生成說話、唱歌視頻。
(當(dāng)然了,你也可以不部署SD,直接使用SadTalker)
②安裝SadTalker插件:
打開并運行SD webui,然后選擇“擴展”,在“從網(wǎng)址安裝”里,輸入以下地址:
https://github.com/OpenTalker/SadTalker
點擊安裝,需要等待3~5分鐘。
安裝完成后,重啟一下SD webui,即可在功能欄里看到“SadTalker”插件欄了。
FFmpeg是一套可以用來記錄、轉(zhuǎn)換數(shù)字音頻、視頻,并能將其轉(zhuǎn)化為流的開源計算機程序,是SadTalker運行的必要支持程序??梢詮囊韵戮W(wǎng)址下載獲得:
https://www.gyan.dev/ffmpeg/builds/ffmpeg-git-full.7z
解壓后,需要將FFmpeg的bin文件夾路徑添加到系統(tǒng)環(huán)境變量里:
手動添加環(huán)境變量:控制面板→系統(tǒng)→高級系統(tǒng)設(shè)置→環(huán)境變量→Path→編輯→添加
運行SadTalker,還需要下載一些模型,可以從以下鏈接獲得:
https://github.com/OpenTalker/SadTalker/releases
需要下載前面的10個文件:
找到之前在SD里添加的SadTalker插件(在SD文件夾\extensions里),然后新建一個文件夾“checkpoints”:
將上面下載的10個模型文件復(fù)制進去,其中BFM_Fitting和hub兩個壓縮文件還需要解壓到checkpoints文件根目錄中。
至此,你已經(jīng)擁有了一鍵讓圖片說話的能力了。
在SD webui的功能欄里,選擇“SadTalker”,然后將圖片(支持從SD中加載)和音頻傳入,音頻建議在10秒以內(nèi),不然顯卡壓力有點大。點擊“生成”按鈕,即可一鍵使照片說話。
相關(guān)設(shè)置項說明:
corp:圖片被裁剪為方形(運算速度快,但如果傳入的圖片不是方形,最終視頻會變形)
resize:重新調(diào)整尺寸,可以使脖子和頭部銜接自然,但代價是口型可能不太準(zhǔn)
full:完整體驗(基本就是選它了)
同時記得勾選“面部增強”,使整體面部效果更加自然些。
最終得到了文章開頭的會說話、唱歌的小姐姐了,她還會很自然地眨眼睛呢,成就感滿滿有木有!感興趣的小伙伴快去試試吧~