System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 三维人脸合成方法、装置、设备及存储介质制造方法及图纸_技高网

三维人脸合成方法、装置、设备及存储介质制造方法及图纸

技术编号:41381414 阅读:3 留言:0更新日期:2024-05-20 10:23
本发明专利技术涉及计算机视觉领域,并公开了一种三维人脸合成方法、装置、设备及存储介质,该方法包括:从采集到的人脸图像中提取面部特征并从采集到的人物语音中提取语音特征;通过预设图像编码器对面部特征进行编码,得到编码后的面部特征;通过预设语音编码器对语音特征进行编码,得到编码后的语音特征;将编码后的面部特征和编码后的语音特征输入至扩散模型中进行三维人脸合成,得到三维人脸网格序列。本发明专利技术通过编码器对面部特征和语音特征进行编码,并通过扩散模型基于得到的编码后的面部特征和编码后的语音特征来预测人脸运动,实现了三维人脸合成并得到与人脸图像和人物语音匹配的三维人脸网格序列,从而能够快速准确地合成三维人脸。

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域,尤其涉及一种三维人脸合成方法、装置、设备及存储介质


技术介绍

1、如今,虚拟数字人技术被广泛应用于虚拟偶像、虚拟主持人等场景中。目前,虚拟数字人通常通过真人驱动的驱动方式进行合成。在真人驱动合成的虚拟数字人中,真人需要配合动作捕捉设备,让虚拟数字人能够与观众进行实时交互。

2、然而采用真人驱动的方式合成的虚拟数字人尽管人物模型较为逼真且人物动作较为精准,但由于复杂的数据处理流程和高昂的设备成本,导致其应用场景受限。因此,目前行业内亟需一种具有较强的适用性且能够快速准确地合成三维人脸的方法。

3、上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本专利技术的主要目的在于提供了一种三维人脸合成方法、装置、设备及存储介质,旨在解决现有技术无法快速准确地合成三维人脸的技术问题。

2、为实现上述目的,本专利技术提供了一种三维人脸合成方法,所述方法包括以下步骤:

3、从采集到的人脸图像中提取面部特征并从采集到的人物语音中提取语音特征;

4、通过预设图像编码器对所述面部特征进行编码,得到编码后的面部特征;

5、通过预设语音编码器对所述语音特征进行编码,得到编码后的语音特征;

6、将所述编码后的面部特征和所述编码后的语音特征输入至扩散模型中进行三维人脸合成,得到三维人脸网格序列,所述扩散模型用于根据所述编码后的面部特征和所述编码后的语音特征预测人脸运动。

7、可选地,所述从采集到的人脸图像中提取面部特征的步骤,包括:

8、对采集到的人脸图像进行三维人脸建模,得到三维人脸模板,所述采集到的人脸图像为单视角人脸图像;

9、从所述三维人脸模板中确定人脸的形态信息和纹理信息,并基于所述形态信息和所述纹理信息对所述三维人脸模板进行人脸重建,得到重建后的三维人脸模板;

10、从所述重建后的三维人脸模板中提取面部特征。

11、可选地,所述从采集到的人物语音中提取语音特征的步骤,包括:

12、对采集到的人物语音进行短时傅里叶变换,得到所述采集到的人物语音对应的短时段语音帧;

13、通过傅里叶变换将所述短时段语音帧对应的时域信号转换为频域信号,并根据所述频域信号在频域中的能量分布提取语音特征。

14、可选地,所述从采集到的人脸图像中提取面部特征并从采集到的人物语音中提取语音特征的步骤之前,还包括:

15、对原始人脸图像进行图像预处理,并将预处理后的原始人脸图像确定为采集到的人脸图像,图像预处理包括分辨率调整、图像裁剪、图像对齐和图像去噪;

16、对原始人物语音进行语音预处理,并将预处理后的原始人物语音确定为采集到的人物语音,语音预处理包括端点检测、语音预加重、语音分帧、语音归一化和语音去噪。

17、可选地,所述通过预设图像编码器对所述面部特征进行编码,得到编码后的面部特征的步骤,包括:

18、通过预设图像编码器将所述面部特征映射至潜在特征空间,所述预设图像编码器为transformer-vae编码器,所述transformer-vae编码器基于transformer结构和变分自编码器构建;

19、在所述潜在特征空间中对所述面部特征进行编码,得到编码后的面部特征,编码过程包括对所述面部特征的压缩过程、抽象过程和解耦过程。

20、可选地,所述通过预设语音编码器对所述语音特征进行编码,得到编码后的语音特征的步骤,包括:

21、所述预设语音编码器包括语音预训练模型和cbe模块;

22、通过所述语音预训练模型将所述语音特征转换为若干语音序列,并捕捉所述若干语音序列之间的依赖关系,所述语音预训练模型基于循环神经网络和/或卷积神经网络构建;

23、在所述cbe模块中基于所述依赖关系对所述若干语音序列进行编码,得到编码后的语音特征。

24、可选地,所述将所述编码后的面部特征和所述编码后的语音特征输入至扩散模型中进行三维人脸合成,得到三维人脸网格序列的步骤,包括:

25、将所述编码后的面部特征和所述编码后的语音特征输入至扩散模型中进行解码,得到人脸预测运动轨迹;

26、基于所述人脸预测运动轨迹对所述编码后的面部特征和所述编码后的语音特征进行三维人脸合成,在所述编码后的面部特征和所述编码后的语音特征达成唇音同步后,输出三维人脸网格序列。

27、此外,为实现上述目的,本专利技术还提出一种三维人脸合成装置,所述三维人脸合成装置包括:

28、特征提取模块,用于从采集到的人脸图像中提取面部特征并从采集到的人物语音中提取语音特征;

29、第一编码模块,用于通过预设图像编码器对所述面部特征进行编码,得到编码后的面部特征;

30、第二编码模块,用于通过预设语音编码器对所述语音特征进行编码,得到编码后的语音特征;

31、人脸合成模块,用于将所述编码后的面部特征和所述编码后的语音特征输入至扩散模型中进行三维人脸合成,得到三维人脸网格序列,所述扩散模型用于根据所述编码后的面部特征和所述编码后的语音特征预测人脸运动。

32、此外,为实现上述目的,本专利技术还提出一种三维人脸合成设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三维人脸合成程序,所述三维人脸合成程序配置为实现如上文所述的三维人脸合成方法的步骤。

33、此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有三维人脸合成程序,所述三维人脸合成程序被处理器执行时实现如上文所述的三维人脸合成方法的步骤。

34、本专利技术从采集到的人脸图像中提取面部特征并从采集到的人物语音中提取语音特征;通过预设图像编码器对所述面部特征进行编码,得到编码后的面部特征;通过预设语音编码器对所述语音特征进行编码,得到编码后的语音特征;将所述编码后的面部特征和所述编码后的语音特征输入至扩散模型中进行三维人脸合成,得到三维人脸网格序列,所述扩散模型用于根据所述编码后的面部特征和所述编码后的语音特征预测人脸运动。相比于传统的三维人脸合成方法,由于本专利技术上述方法通过编码器对面部特征和语音特征进行编码,并通过扩散模型基于得到的编码后的面部特征和编码后的语音特征来预测人脸运动,实现了三维人脸合成并得到与人脸图像和人物语音匹配的三维人脸网格序列,从而避免了现有技术中复杂的数据处理流程和高昂的设备成本,进而能够快速准确地合成三维人脸且具有较强的适用性。

本文档来自技高网...

【技术保护点】

1.一种三维人脸合成方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的三维人脸合成方法,其特征在于,所述从采集到的人脸图像中提取面部特征的步骤,包括:

3.如权利要求2所述的三维人脸合成方法,其特征在于,所述从采集到的人物语音中提取语音特征的步骤,包括:

4.如权利要求3所述的三维人脸合成方法,其特征在于,所述从采集到的人脸图像中提取面部特征并从采集到的人物语音中提取语音特征的步骤之前,还包括:

5.如权利要求1所述的三维人脸合成方法,其特征在于,所述通过预设图像编码器对所述面部特征进行编码,得到编码后的面部特征的步骤,包括:

6.如权利要求1所述的三维人脸合成方法,其特征在于,所述通过预设语音编码器对所述语音特征进行编码,得到编码后的语音特征的步骤,包括:

7.如权利要求1至6中任一项所述的三维人脸合成方法,其特征在于,所述将所述编码后的面部特征和所述编码后的语音特征输入至扩散模型中进行三维人脸合成,得到三维人脸网格序列的步骤,包括:

8.一种三维人脸合成装置,其特征在于,所述三维人脸合成装置包括:

9.一种三维人脸合成设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三维人脸合成程序,所述三维人脸合成程序配置为实现如权利要求1至7中任一项所述的三维人脸合成方法的步骤。

10.一种存储介质,其特征在于,所述存储介质上存储有三维人脸合成程序,所述三维人脸合成程序被处理器执行时实现如权利要求1至7中任一项所述的三维人脸合成方法的步骤。

...

【技术特征摘要】

1.一种三维人脸合成方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的三维人脸合成方法,其特征在于,所述从采集到的人脸图像中提取面部特征的步骤,包括:

3.如权利要求2所述的三维人脸合成方法,其特征在于,所述从采集到的人物语音中提取语音特征的步骤,包括:

4.如权利要求3所述的三维人脸合成方法,其特征在于,所述从采集到的人脸图像中提取面部特征并从采集到的人物语音中提取语音特征的步骤之前,还包括:

5.如权利要求1所述的三维人脸合成方法,其特征在于,所述通过预设图像编码器对所述面部特征进行编码,得到编码后的面部特征的步骤,包括:

6.如权利要求1所述的三维人脸合成方法,其特征在于,所述通过预设语音编码器对所述语音特征进行编码,得...

【专利技术属性】
技术研发人员:陈盛福耿卫东徐欣阳杨蕾温世欢余仲慰
申请(专利权)人:中邮消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1