【技术实现步骤摘要】
数字人生成模型、模型的训练方法以及数字人生成方法
[0001]本申请涉及机器学习
,具体而言,涉及一种数字人生成模型、模型的训练方法以及数字人生成方法。
技术介绍
[0002]随着短视频平台、直播带货、网上教育等技术的普及,录制视频慢慢成为人们社交和传递信息的手段。受限于录制环境、录制设备和视频剪辑技术,很多人很难做出高质量的视频,或者要投入更多的时间和精力才能完成。
[0003]当前二维数字人生成技术还停留在学术研究阶段,生成视频质量较差,距离实际产品使用还有较远的距离,主要问题有:
[0004]1)当前主要采用先合成视频帧,再用视频帧拼成的思路,如果不能考虑视频生成的时序信息,将会出现严重的抖动现象,难以在真实产品中使用。
[0005]2)大多数学术研究集中在面部和嘴型的生成问题,没有考虑生成的头像与身体整体的融合问题,但多数应用都需要全身的视频,而且,还需要给文本配上相应的动作,整体融合问题的不成熟阻碍了二维数字人生成技术的应用。
[0006]3)多数研究采用的训练视频,大都在网络 ...
【技术保护点】
【技术特征摘要】
1.一种数字人生成模型,其特征在于,包括数据采集模块、数据预处理模块、模型训练模块、预测处理模块,其中:所述数据采集模块用于采集训练样本视频数据,所述训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据;所述数据处理模块用于对所述训练样本视频数据进行预处理,所述预处理包括删除有干扰的所述音频数据、优化所述视频数据;所述模型训练模块用于对所述音频数据进行特征提取,获取对应的样本特征;将所述视频数据转换为原始图片,提取人脸关键点数据和遮住嘴部区域的人脸图片;通过所述样本特征训练预设的第一神经网络模型,获取训练后的音频特征;通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征,训练预设的第二神经网络模型,生成与所述音频特征对应的预测人脸图片;所述预测处理模块用于将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片,通过融合技术将所述预测人脸图片与所述原模板图片融合,将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频。2.一种数字人生成模型的训练方法,应用于权利要求1所述的模型中,其特征在于,数字人生成模型由第一神经网络模型和第二神经网络模型组成,对所述数字人生成模型进行训练,包括:采集训练样本视频数据,所述训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据;对所述训练样本视频数据进行预处理,所述预处理包括删除有干扰的所述音频数据、优化所述视频数据;对所述音频数据进行特征提取,获取对应的样本特征;将所述视频数据转换为原始图片,提取人脸关键点数据和遮住嘴部区域的人脸图片;通过所述样本特征训练预设的第一神经网络模型,获取训练后的音频特征;通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征,训练预设的第二神经网络模型,生成与所述音频特征对应的预测人脸图片;将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片,通过融合技术将所述预测人脸图片与所述原模板图片融合,将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频。3.根据权利要求2所述的方法,其特征在于,提取所述遮住嘴部区域的人脸图片的具体步骤为:通过人脸识别库识别所述原始图片,设定目标圆心和长短轴对所述原始图片绘制椭圆并将所述原始图片中的衣领区域切除、裁剪头部区域,获得裁剪图片;通过人脸识别库检测所述裁剪图片中的所述人脸关键点数据;将脸颊和下巴的所述人脸关键点连接绘制成一个封闭区域,将所述封闭区域填充为黑色,生成所述遮住嘴部区域的人脸图片。4.根据权利要求2所述的方法,其特征在于,通过所述样本特征训练预设的第一神经网络模型,获取音频特征,包括:将所述样本特征对应的音频数据输入到所述预设的第一神经网络模型;
提取所述音频特征对应的Fbank音频特征;通过所述第一神经网络模型中的编码器和解码器对所述Fbank音频特征依次进行编码和解码,获取通过所述第一神经网络模型训练后的音频特征。5.根据权利要求2所述的方法,其特征在于,通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征,训练预设的第二神经网络模型,包括:将所述训练后的音频特征输入所述第二神经网络中的音频编码网路,获取输出音频编...
【专利技术属性】
技术研发人员:司马华鹏,王培雨,
申请(专利权)人:南京硅基智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。