【技术实现步骤摘要】
说话人视频的生成模型训练和使用方法、装置及设备
[0001]本申请涉及机器学习
,特别涉及一种说话人视频的生成模型训练和使用方法、装置及设备。
技术介绍
[0002]在数字人、聊天机器人和虚拟视频会议等许多应用中,高保真音频驱动的面部视频序列的合成是一个重要而具有挑战性的问题。即,将说话人视频的生成过程视为从音频到视觉人脸的跨模态映射,期望合成的人脸图像在执行自然的说话风格的同时,与原始视频相同的照片有同样逼真的效果。
[0003]近年来,人们提出使用AD
‑
NeRF(Audio Driven Neural Radiance Fields,音频驱动的神经辐射场)模型来生成说话人视频。具体的,在NeRF(神经辐射场)的基础上提出了一种由语音信号直接生成说话人视频的算法,该方法将音频信号的特征直接输入到条件隐式函数中,生成一个动态神经辐射场,通过体绘制合成出与音频信号相对应的说话人视频。AD
‑
NeRF模型不仅可以合成头部(带头发)区域,还通过两个单独的神经辐射场生成躯干,但其合 ...
【技术保护点】
【技术特征摘要】
1.一种说话人视频的生成模型训练方法,其特征在于,所述方法包括:获取若干组训练样本,每组训练样本包括含有说话人的视频数据、音频数据、所述说话人的真实头部图像和真实躯干图像;对AD
‑
NeRF模型进行改进,得到生成模型,所述生成模型中的头部神经辐射场包括第一Transformer模块和第一判别器,所述生成模型中的躯干神经辐射场包括第二Transformer模块和第二判别器;对于每组训练样本,利用所述生成模型对所述视频数据和所述音频数据进行处理,得到头部语义编码和躯干语义编码;基于所述第一Transformer模块对所述头部语义编码进行渲染,得到头部渲染结果,利用所述第一判别器对所述头部渲染结果和所述真实头部图像计算头部损失;基于所述第二Transformer模块对所述躯干语义编码进行渲染,得到躯干渲染结果,利用所述第二判别器对所述躯干渲染结果和所述真实躯干图像计算躯干损失;利用所述头部损失和所述躯干损失训练所述生成模型。2.根据权利要求1所述的说话人视频的生成模型训练方法,其特征在于,所述生成模型中还包括视频处理模块、wave2vec2.0模块和隐函数,则所述利用所述生成模型对所述视频数据和所述音频数据进行处理,得到头部语义编码和躯干语义编码,包括:利用所述视频处理模块对所述视频数据进行处理,得到视频解析图和姿势参数;利用所述wave2vec2.0模块对所述音频数据进行处理,得到wave2vec2.0特征;利用所述隐函数对所述视频解析图、所述姿势参数和所述wave2vec2.0特征进行处理,得到头部语义编码和躯干语义编码。3.根据权利要求1所述的说话人视频的生成模型训练方法,其特征在于,所述基于所述第一Transformer模块对所述头部语义编码进行渲染,得到头部渲染结果,包括:对所述头部语义编码进行体渲染,得到头部低维特征图;利用基于头部的二维神经渲染模块对所述头部低维特征图进行渲染,得到第一中间结果;利用所述第一Transformer模块对所述第一中间结果进行处理,得到头部渲染结果。4.根据权利要求1所述的说话人视频的生成模型训练方法,其特征在于,所述基于所述第二Transformer模块对所述躯干语义编码进行渲染,得到躯干渲染结果,包括:对所述躯干语义编码进行体渲染,得到躯干低维特征图;利用基于躯干的二维神经渲染模块对所述躯干低维特征图进行渲染,得到第二中间结果;利用所述第二Transformer模块对所述第二中间结果进行处理,得到躯干渲染结果。5.根据权利要求1至4中任一项所述的说话人视频的生成模型训练方法,其特征在于,所述第一判别器和所述第二判别器是GAN判别器。6.一种说话人视频的生成模型使用方法,其特征在于,所述方法包括:获取含有说话人的视频数据以及音频数据;利用训练好的生成模型对所述视频数据和所述音频数据进行处理,得到头部语义编码和躯干语义编码,所述生成模型中的头部神经辐射场包括第一Transformer模块和第一判...
【专利技术属性】
技术研发人员:严妍,汪敏,杨春宇,白杨,
申请(专利权)人:北京开普云信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。