实现3D人脸与音频同步的方法、装置、设备及介质制造方法及图纸

技术编号:34947335 阅读:11 留言:0更新日期:2022-09-17 12:23
本发明专利技术涉及人工智能技术领域,公开了实现3D人脸与音频同步的方法、装置、设备及介质。该方法包括获取第一采样视频中各个帧段下音素和3D人脸数据片段,以及得到各个帧段下音素和3D人脸数据片段的对应关系表;输入新音频数据,以及提取新音频数据中各个帧段下的新音素;将各个帧段下的新音素分别对应对应关系表,得到对应帧段下的3D人脸数据片段;将各个帧段下的3D人脸数据片段,按照新音频数据的时间轴进行重新排序以及组合,得到新3D人脸数据;对新3D人脸数据进行图像翻译,得到新2D人脸数据;将新2D人脸数据和新音频数据进行合并,得到目标数据,通过将音素和3D人脸在同一视频帧段下一一对应,来达到3D人脸与音频的同步效果。步效果。步效果。

【技术实现步骤摘要】
实现3D人脸与音频同步的方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及实现3D人脸与音频同步的方法、装置、设备及介质。

技术介绍

[0002]虚拟数字人是基于计算机视觉和语音合成等技术,进行形象、声音、动作等的模型训练后,可以通过在后台自由输入任意文字,便可以生成“真人”讲解的短视频。现阶段,在服务、游戏或影视等行业,对涉及虚拟人物时,需要根据场景使用各种表情,以此作为虚拟人物表情的依据,使人物越来越生动和逼真。
[0003]而现有的虚拟人物在说话时的口型与输出的音频难以同步上,导致用户的观看体验较差。

技术实现思路

[0004]本专利技术的主要目的在于解决了现有音频音轨与数字人脸口型不同步技术问题。
[0005]本专利技术第一方面提供了一种实现3D人脸与音频同步的方法,包括:
[0006]获取第一采样视频中各个帧段下音素和3D人脸数据片段,以及得到各个帧段下所述音素和所述3D人脸数据片段的对应关系表;
[0007]输入新音频数据,以及提取所述新音频数据中各个帧段下的新音素;
[0008]将各个帧段下的所述新音素分别对应所述对应关系表,得到对应帧段下的所述3D人脸数据片段;
[0009]将各个帧段下的所述3D人脸数据片段,按照所述新音频数据的时间轴进行重新排序以及组合,得到新3D人脸数据;
[0010]对所述新3D人脸数据进行图像翻译,得到新2D人脸数据;
[0011]将所述新2D人脸数据和所述新音频数据进行合并,得到目标数据。
[0012]可选的,在本专利技术第一方面的第一种实现方式中,所述获取第一采样视频中各个帧段下音素和3D人脸数据片段包括:
[0013]获取第一采样视频中的音频数据;
[0014]将所述音频数据进行分片,得到多个音素以及每个所述音素所处的时间段;
[0015]通过第一采样视频的帧率以及所述音素所处的时间段,计算出每个所述音素所对应的帧段。
[0016]可选的,在本专利技术第一方面的第二种实现方式中,所述获取第一采样视频中各个帧段下音素和3D人脸数据片段包括:
[0017]获取第一采样视频中的2D人脸数据;
[0018]根据每个所述音素所对应的帧段,将所述2D人脸数据进行分片,得到多个2D人脸数据片段;
[0019]基于Deep3DFaceReconstruction技术,提取出每个所述2D人脸数据片段的向量信
息;
[0020]基于3DMM技术,将每个所述向量信息进行3D重建,得到3D人脸数据片段。
[0021]可选的,在本专利技术第一方面的第三种实现方式中,所述将各个帧段下的所述3D人脸数据片段,按照所述新音频数据的时间轴进行重新排序以及组合,得到新3D人脸数据包括:
[0022]在所述新3D人脸数据中的每两个帧段过渡过程中进行平滑处理。
[0023]可选的,在本专利技术第一方面的第四种实现方式中,所述在所述新3D人脸数据中的每两个帧段过渡过程中进行平滑处理包括:
[0024]将当前所述向量信息按照1

n比例进行缩减,得到缩减向量信息,其中0<n<1;
[0025]将距离当前所述向量信息为1的两个向量信息分别按照n比例进行缩减,得到两个距离向量信息;
[0026]将所述缩减向量信息和两个所述距离向量信息相加,得到新的向量信息;
[0027]基于3DMM技术,重新将每个所述新的向量信息进行3D重建,得到多个过渡平滑的3D人脸数据片段;
[0028]将多个所述过渡平滑的3D人脸数据片段进行组合,得到新3D人脸数据。
[0029]可选的,在本专利技术第一方面的第五种实现方式中,所述对所述新3D人脸数据进行图像翻译,得到新2D人脸数据包括:
[0030]根据所述新3D人脸数据,并通过预置生成器进行处理,生成2D图像数据;
[0031]基于对抗网络,获取所述2D图像数据所映射到的3D图像数据;
[0032]判断所述3D图像数据是否与所述2D图像数据的对象匹对真假;
[0033]若为真,则输出true,以及将所述2D图像数据确定为新2D人脸数据;
[0034]若为假,则输出fake。
[0035]可选的,在本专利技术第一方面的第六种实现方式中,所述若为假,则输出fake包括:
[0036]基于VGG网络,计算所述3D图像数据与所述新3D人脸数据的误差,并反馈至所述对抗网络。
[0037]本专利技术第二方面提供了一种实现3D人脸与音频同步的装置,包括:
[0038]第一取样模块,用于获取第一采样视频中各个帧段下音素和3D人脸数据片段,以及得到各个帧段下所述音素和所述3D人脸数据片段的对应关系表;
[0039]第二取样模块,用于输入新音频数据,以及提取所述新音频数据中各个帧段下的新音素;
[0040]映射模块,用于将各个帧段下的所述新音素分别对应所述对应关系表,得到对应帧段下的所述3D人脸数据片段;
[0041]重序组合模块,用于将各个帧段下的所述3D人脸数据片段,按照所述新音频数据的时间轴进行重新排序以及组合,得到新3D人脸数据;
[0042]转换模块,用于对所述新3D人脸数据进行图像翻译,得到新2D人脸数据;
[0043]输出模块,用于将所述新2D人脸数据和所述新音频数据进行合并,得到目标数据。
[0044]本专利技术第三方面提供了一种实现3D人脸与音频同步的设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述实现3D人脸与音频同步的
设备执行上述的实现3D人脸与音频同步的方法。
[0045]本专利技术的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的实现3D人脸与音频同步的方法。
[0046]在本专利技术的实施例中,实现3D人脸与音频同步的方法、装置、设备及介质。该方法包括获取第一采样视频中各个帧段下音素和3D人脸数据片段,以及得到各个帧段下音素和3D人脸数据片段的对应关系表;输入新音频数据,以及提取新音频数据中各个帧段下的新音素;将各个帧段下的新音素分别对应对应关系表,得到对应帧段下的3D人脸数据片段;将各个帧段下的3D人脸数据片段,按照新音频数据的时间轴进行重新排序以及组合,得到新3D人脸数据;对新3D人脸数据进行图像翻译,得到新2D人脸数据;将新2D人脸数据和新音频数据进行合并,得到目标数据,通过将音素和3D人脸在同一视频帧段下一一对应,来达到3D人脸与音频的同步效果。
附图说明
[0047]图1为本专利技术实施例中实现3D人脸与音频同步的方法的第一个实施例示意图;
[0048]图2为本专利技术实施例中实现3D人脸与音频同步的方法的第二个实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现3D人脸与音频同步的方法,其特征在于,包括:获取第一采样视频中各个帧段下音素和3D人脸数据片段,以及得到各个帧段下所述音素和所述3D人脸数据片段的对应关系表;输入新音频数据,以及提取所述新音频数据中各个帧段下的新音素;将各个帧段下的所述新音素分别对应所述对应关系表,得到对应帧段下的所述3D人脸数据片段;将各个帧段下的所述3D人脸数据片段,按照所述新音频数据的时间轴进行重新排序以及组合,得到新3D人脸数据;对所述新3D人脸数据进行图像翻译,得到新2D人脸数据;将所述新2D人脸数据和所述新音频数据进行合并,得到目标数据。2.根据权利要求1所述的实现3D人脸与音频同步的方法,其特征在于,所述获取第一采样视频中各个帧段下音素和3D人脸数据片段包括:获取第一采样视频中的音频数据;将所述音频数据进行分片,得到多个音素以及每个所述音素所处的时间段;通过第一采样视频的帧率以及所述音素所处的时间段,计算出每个所述音素所对应的帧段。3.根据权利要求2所述的实现3D人脸与音频同步的方法,其特征在于,所述获取第一采样视频中各个帧段下音素和3D人脸数据片段包括:获取第一采样视频中的2D人脸数据;根据每个所述音素所对应的帧段,将所述2D人脸数据进行分片,得到多个2D人脸数据片段;基于Deep3DFaceReconstruction技术,提取出每个所述2D人脸数据片段的向量信息;基于3DMM技术,将每个所述向量信息进行3D重建,得到3D人脸数据片段。4.根据权利要求3所述的实现3D人脸与音频同步的方法,其特征在于,所述将各个帧段下的所述3D人脸数据片段,按照所述新音频数据的时间轴进行重新排序以及组合,得到新3D人脸数据包括:在所述新3D人脸数据中的每两个帧段过渡过程中进行平滑处理。5.根据权利要求4所述的实现3D人脸与音频同步的方法,其特征在于,所述在所述新3D人脸数据中的每两个帧段过渡过程中进行平滑处理包括:将当前所述向量信息按照1

n比例进行缩减,得到缩减向量信息,其中0<n<1;将距离当前所述向量信息为1的两个向量信息分别按照n比例进行缩减,得到两个距离向量信息;将所述缩减向量信息和两个所述距离向量信息相加,得到新的向量信息;基于3DMM技术,重新...

【专利技术属性】
技术研发人员:苏朋杨蔡卓君
申请(专利权)人:上海积图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1