本申請涉及視覺,特別是涉及一種視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置。
背景技術(shù):
1、隨著人工智能技術(shù)的快速發(fā)展,視頻生成模型在多個領(lǐng)域得到了廣泛應(yīng)用,如虛擬助手、智能客服、影視制作等。然而,現(xiàn)有的視頻生成模型在生成高質(zhì)量、個性化視頻方面仍面臨諸多挑戰(zhàn)。特別是在生成包含人臉的視頻時,如何保持人臉的身份特征、生成高保真度且自然流暢的視頻,是一個亟待解決的問題。
技術(shù)實現(xiàn)思路
1、本申請?zhí)峁┝艘环N視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置。
2、本申請?zhí)峁┝巳缦路桨福?/p>
3、根據(jù)第一方面,提供了一種視頻生成方法,所述方法包括:
4、獲取人臉圖像和視頻描述文本;所述人臉圖像包括目標(biāo)人臉;
5、從所述人臉圖像中提取所述目標(biāo)人臉的二維特征和三維特征;
6、將所述目標(biāo)人臉的二維特征和三維特征進行融合,得到所述目標(biāo)人臉的身份特征表示;
7、基于所述身份特征表示和所述視頻描述文本,預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻。
8、根據(jù)第二方面,提供了一種視頻生成模型的訓(xùn)練方法,所述方法包括:
9、獲取包括多個訓(xùn)練樣本的訓(xùn)練數(shù)據(jù),所述訓(xùn)練樣本至少包括:人臉圖像樣本、視頻真值以及與所述視頻真值對應(yīng)的視頻文本描述,所述人臉圖像樣本和所述視頻真值中均包含目標(biāo)人臉;
10、基于所述訓(xùn)練數(shù)據(jù)訓(xùn)練視頻生成模型,其中所述訓(xùn)練包括:將所述人臉圖像樣本和所述視頻文本描述輸入所述視頻生成模型;由所述視頻生成模型從所述人臉圖像樣本中提取所述目標(biāo)人臉的二維特征和三維特征,將所述目標(biāo)人臉的二維特征和三維特征進行融合,得到所述目標(biāo)人臉的身份特征表示,基于所述身份特征表示和所述視頻描述文本,預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻;利用訓(xùn)練目標(biāo)對應(yīng)的損失函數(shù)取值更新所述視頻生成模型的模型參數(shù),所述訓(xùn)練目標(biāo)包括:最小化所述視頻生成模型輸出的目標(biāo)視頻與對應(yīng)的視頻真值之間的差異。
11、根據(jù)第三方面,提供了一種視頻生成模型,所述視頻生成模型包括:
12、二維特征生成網(wǎng)絡(luò),用以從人臉圖像樣本中提取目標(biāo)人臉的二維特征表示;
13、三維特征生成網(wǎng)絡(luò),用以從所述人臉圖像樣本中提取所述目標(biāo)人臉的三維特征表示;
14、融合網(wǎng)絡(luò),用以對所述二維特征表示和所述三維特征表示進行融合,得到所述目標(biāo)人臉的身份特征表示;
15、層感知網(wǎng)絡(luò),用以對所述身份特征表示進行優(yōu)化,得到優(yōu)化后的身份特征表示;
16、擴散網(wǎng)絡(luò),用以基于所述優(yōu)化后的身份特征表示和視頻描述文本,對噪聲圖像序列進行去噪處理后預(yù)測得到目標(biāo)視頻。
17、根據(jù)第四方面,提供了一種視頻生成裝置,所述裝置包括:
18、獲取單元,被配置為獲取人臉圖像和視頻描述文本;所述人臉圖像包括目標(biāo)人臉;
19、特征提取單元,被配置為從所述人臉圖像中提取所述目標(biāo)人臉的二維特征和三維特征;
20、特征融合單元,被配置為將所述目標(biāo)人臉的二維特征和三維特征進行融合,得到所述目標(biāo)人臉的身份特征表示;
21、視頻預(yù)測單元,被配置為基于所述身份特征表示和所述視頻描述文本,預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻。
22、根據(jù)第五方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面或第二方面中任一項所述方法的步驟。
23、根據(jù)本申請?zhí)峁┑木唧w實施例,本申請公開了以下技術(shù)效果:
24、本申請實施例通過獲取包含目標(biāo)人臉的人臉圖像和視頻描述文本,從人臉圖像中提取目標(biāo)人臉的二維特征和三維特征,并將這些特征進行融合,得到目標(biāo)人臉的身份特征表示。最終,基于身份特征表示和視頻描述文本,預(yù)測生成包含目標(biāo)人臉的目標(biāo)視頻。該方法通過融合二維和三維特征,能更全面準確地描述目標(biāo)人臉的身份特征,從而在生成視頻時更好地保持面部結(jié)構(gòu)的穩(wěn)定性和一致性,從而生成更加真實和自然的目標(biāo)視頻,提升用戶體驗。
25、當(dāng)然,實施本申請的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。
1.一種視頻生成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述身份特征表示和所述視頻描述文本,預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述層感知網(wǎng)絡(luò)包括多個輕量級模塊,每個輕量級模塊對應(yīng)擴散網(wǎng)絡(luò)中的一個視頻擴散變換器模塊,每個輕量級模塊包括卷積塊和歸一化層;
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述身份特征表示和所述視頻描述文本,預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,從所述人臉圖像中提取三維特征,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述目標(biāo)人臉的二維特征和三維特征進行融合,包括:
7.一種視頻生成模型的訓(xùn)練方法,其特征在于,所述方法包括:
8.一種視頻生成模型,其特征在于,所述視頻生成模型包括:
9.一種視頻生成裝置,其特征在于,所述裝置包括:
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。