【技术实现步骤摘要】
基于语义的音频驱动数字人生成方法及系统
[0001]本专利技术涉及机器学习领域,尤其涉及一种基于语义的音频驱动数字人生成方法及系统。
技术介绍
[0002]音频驱动所生成的数字人同步说话动作的视频广泛应用于多种视频分享的场景,例如新闻播报、培训分享,广告宣传等场景;
[0003]参照公布号为CN1032188842所公开的一种语音同步驱动三维人脸口型与面部姿势动画的方法,通过提取视频帧中各声韵母所对应的基于MPEG
‑
4定义的口型特征参数和面部姿势特征参数,然后计算各特征点坐标与标准帧坐标的差值Vel,再计算按MPEG
‑
4定义的人脸上的对应尺度参考量P,通过差值Vel和尺度参考量P计算得到人脸运动参数;
[0004]该专利申请采用所构建的三维人脸作为数字人,建模所生成的人脸与真实人脸存在较大差别,不适用于新闻播报、培训分享等要求数字人脸与真实人脸一致的场合;
[0005]由于人脸运动和说话是一个非常精细复杂的过程,用特征点坐标只能初步表征人脸运动,并且人脸特征点定 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义的音频驱动数字人生成方法,其特征在于包括以下步骤:获取目标音频和目标人脸图像序列,对所述目标人脸图像序列中各目标人脸图像的嘴部区域做掩膜处理后,获得相应的第一人脸图像序列;对所述目标音频进行特征提取,获得相应的音频特征;将所述音频特征输入至预训练的语义转换网络,由所述语义转换网络将所述音频特征进行语义转换,获得相应的语义运动序列,所述语义运动序列包括若干个嘴部语义图;基于第一人脸图像序列构建第二人脸图像序列,所述第二人脸图像序列包含与所述嘴部语义图相同数量的待渲染人脸图像,基于所述嘴部语义图和所述待渲染人脸图像进行人脸合成,生成合成人脸序列,所述合成人脸序列中包含与各嘴部语义图一一对应的合成人脸。2.根据权利要求1所述的基于语义的音频驱动数字人生成方法,其特征在于,所述语义转换网络包括循环神经网络和上采样卷积神经网络;所述循环神经网络,用于将所述音频特征转换为表情向量:所述上采样卷积神经网络,用于基于所述表情向量生成语义运动序列。3.根据权利要求1或2所述的基于语义的音频驱动数字人生成方法,其特征在于:将嘴部语义图与其相对应的待渲染人脸图像进行连接,获得相应的待合成数据;将所述待合成数据输入至预设的神经渲染网络,由所述神经渲染网络基于所述嘴部语义图对所述待渲染人脸图像进行合成渲染,生成相对应的合成人脸。4.根据权利要求3所述的基于语义的音频驱动数字人生成方法,其特征在于,预训练语义转换网络的步骤为:获取目标人脸对应的说话视频,提取所述说话视频的音频特征,获得样本音频特征,提取所述说话视频的视频帧,对各视频帧中的人脸进行检测,并分割该人脸的嘴部语义图,将所得嘴部语义图作为样本语义图;基于所述样本音频特征和所述样本语义图训练所述语义转换网络。5.根据权利要求4所述的基于语义的音频驱动数字人生成方法,其特征在于,预训练语义转换网络的步骤为:对所述视频帧中人脸的嘴部区域做掩膜处理后,获得相对应的待渲染样本...
【专利技术属性】
技术研发人员:王涛,徐常亮,
申请(专利权)人:新华智云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。