当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于卷积神经网络的说话人脸视频生成方法及装置制造方法及图纸

技术编号:30016907 阅读:20 留言:0更新日期:2021-09-11 06:26
本发明专利技术公开了一种基于卷积神经网络的说话人脸视频生成方法及装置,所述方法包括:构建数据集;设计唇音同步判别器;利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;构建说话人脸生成网络;利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频;本发明专利技术的优点在于:能够生成清晰度较高且唇部运动与语音同步的真实性较高的说话人脸视频。话人脸视频。话人脸视频。

【技术实现步骤摘要】
一种基于卷积神经网络的说话人脸视频生成方法及装置


[0001]本专利技术涉及语音驱动说话人脸视频生成领域,更具体涉及一种基于卷积神经网络的说话人脸视频生成方法及装置。

技术介绍

[0002]语音驱动的说话人脸生成旨在给定任意一段语音,生成与语音内容对应的人脸说话视频。近年来,语音驱动说话人脸视频生成技术是深度学习领域的热门研究话题,并以广泛的应用于动画角色合成,虚拟交互,电影配音等领域中。
[0003]语音驱动的人脸生成是多模态生成任务,实现音频听觉信息与视觉信息间的映射。现有的方法在低分辨率图像取得好效果,但在高分辨率图像中生成的人脸图片清晰度低,尤其是牙齿区域会出现模糊问题,这些图像使人感到不真实。人类对视频中唇部运动和音频的同步具有较低的容忍度。因此,生成的说话视频与语音同步也是一个关键挑战。现有方法仅使用人脸重建损失或较弱的口型同步判别器来判断视频中唇部运动与语音同步程度高低,生成的说话视频真实度低,与语音不同步,给人不够真实的感觉。
[0004]中国专利申请号CN202010387250.0,公开了一种语音驱动的三维人脸动画生成方法,包括以下步骤:1)提取语音特征,并将该语音的身份信息嵌入到特征矩阵中;2)通过编码器将特征矩阵映射到低维空间,得到中间变量;3)利用解码器将中间变量映射到3D顶点位移的高维空间,对中间变量进行3D图形几何的约束,得到3D空间的位移量;4)根据获取的3D空间的位移量驱动模板模拟面部动画。与现有技术相比,该专利申请创新性地利用了3D几何图形特性来约束中间变量,通过引入非线性几何图形表示法和来自不同视角的两个约束条件,使得生成的3D面部表情更加生动形象。但是该专利申请对于生成的人脸图片清晰度以及唇部运动与语音同步控制均没有进行深入研究,不能生成清晰度高,唇部运动与语音同步的说话人脸视频,导致生成的说话人脸视频真实度低。

技术实现思路

[0005]本专利技术所要解决的技术问题在于现有技术语音驱动说话人脸视频生成方法不能生成清晰度高,唇部运动与语音同步的说话人脸视频,导致生成的说话人脸视频真实度低。
[0006]本专利技术通过以下技术手段实现解决上述技术问题的:一种基于卷积神经网络的说话人脸视频生成方法,所述方法包括:
[0007]步骤一:构建数据集;
[0008]步骤二:设计唇音同步判别器;
[0009]步骤三:利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;
[0010]步骤四:构建说话人脸生成网络,所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器,输入语音到语音编码器以及唇音同步判别器,输入人脸图片到超分辨模块以及人脸视觉判别器,超分辨模块对人脸进行重建,超分辨模块的输出与人脸编码器连接,语音编码器以及人脸
编码器均与人脸解码器连接,人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接;
[0011]步骤五:利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;
[0012]步骤六:将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。
[0013]本专利技术设计唇音同步判别器并训练唇音同步判别器,利用训练好的唇音同步判别器以及超分辨模块构建了说话人脸生成网络,并训练说话人脸生成网络,将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频,唇音同步判别器实现唇部运动与语音同步,超分辨模块对人脸进行重建,解决高清视频中人脸模糊的问题,最终生成的说话人脸视频真实度较高。
[0014]进一步地,所述步骤一包括:使用MTCNN模型识别高清新闻主播视频中人脸关键点,计算视频中人脸关键点和目标人物的人脸关键点相似度,记下人脸相似度超过预设值的视频帧,使用FFMPEG软件根据视频帧从视频中截取视频段,使用DLIB模型识别截取的视频段中的人脸关键点,将人脸区域和嘴部区域分别保存为序列图片,使用FFMPEG提取出视频段中的音频。
[0015]更进一步地,所述步骤二中唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块,人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取,将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后,得到特征权重与中间特征相乘,再输入到第一卷积网络后面的卷积层中进行下采样,采样为第一一维人脸特征向量;人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取,得到第一一维语音特征向量。
[0016]更进一步地,所述步骤三包括:将唇音同步判别器送入Adam优化器进行参数优化,对唇音同步判别器进行训练,每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算,取得的余弦相似度值与目标值计算二分类交叉熵,达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练,得到训练好的唇音同步判别器。
[0017]更进一步地,所述第一卷积网络包括6个顺次连接的第一卷积层至第六卷积层,所述第一卷积层的卷积核大小7
×
7,卷积核个数32;第二卷积层的卷积核大小5
×
5,卷积核个数64;第三卷积层的卷积核大小3
×
3,卷积核个数128;第四卷积层的卷积核大小3
×
3,卷积核个数256;第五卷积层的卷积核大小3
×
3,卷积核个数512;第六卷积层的卷积核大小1
×
1,卷积核个数512;空间注意力模块有两层,第一层是卷积层,第二层为softmax激活层,空间注意力模块的卷积层的卷积核大小为1
×
1,卷积核个数2;通道注意力模块有三层,第一层是平均池化层,第二层是卷积层和第三层是softmax激活层,通道注意力模块的卷积层的卷积核大小1
×
1,卷积核个数1;第一卷积网络的第一卷积层的输出与空间注意力模块的第一层连接,通道注意力模块的第三层与第一卷积网络的第二卷积层的输入连接;第二卷积网络包括6个顺次连接的第七卷积层至第十二卷积层,第七卷积层至第十一卷积层的卷积核大小均为3
×
3,第十二卷积层的卷积核大小均为1
×
1,第七卷积层至第十二卷积层的卷积核个数分别为32、64、128、256、512、512。
[0018]进一步地,所述步骤四包括:语音编码器的输入是对语音经过预处理后的语音梅尔频谱图,语音编码器对语音梅尔频谱图进行特征提取,输出第二一维语音特征向量;人脸
图片先通过超分辨模块,进行脸部重建,再输入进人脸编码器进行下采样,得到与第二一维语音特征向量形状相同的第二一维人脸特征向量,人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量,人脸解码器进行上采样得到与语音对应的新的人脸图片,人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片,其由若干个卷积块组成,每个卷积块由一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述方法包括:步骤一:构建数据集;步骤二:设计唇音同步判别器;步骤三:利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;步骤四:构建说话人脸生成网络,所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器,输入语音到语音编码器以及唇音同步判别器,输入人脸图片到超分辨模块以及人脸视觉判别器,超分辨模块对人脸进行重建,超分辨模块的输出与人脸编码器连接,语音编码器以及人脸编码器均与人脸解码器连接,人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接;步骤五:利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;步骤六:将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。2.根据权利要求1所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述步骤一包括:使用MTCNN模型识别高清新闻主播视频中人脸关键点,计算视频中人脸关键点和目标人物的人脸关键点相似度,记下人脸相似度超过预设值的视频帧,使用FFMPEG软件根据视频帧从视频中截取视频段,使用DLIB模型识别截取的视频段中的人脸关键点,将人脸区域和嘴部区域分别保存为序列图片,使用FFMPEG提取出视频段中的音频。3.根据权利要求2所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述步骤二中唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块,人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取,将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后,得到特征权重与中间特征相乘,再输入到第一卷积网络后面的卷积层中进行下采样,采样为第一一维人脸特征向量;人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取,得到第一一维语音特征向量。4.根据权利要求3所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述步骤三包括:将唇音同步判别器送入Adam优化器进行参数优化,对唇音同步判别器进行训练,每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算,取得的余弦相似度值与目标值计算二分类交叉熵,达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练,得到训练好的唇音同步判别器。5.根据权利要求3所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述第一卷积网络包括6个顺次连接的第一卷积层至第六卷积层,所述第一卷积层的卷积核大小7
×
7,卷积核个数32;第二卷积层的卷积核大小5
×
5,卷积核个数64;第三卷积层的卷积核大小3
×
3,卷积核个数128;第四卷积层的卷积核大小3
×
3,卷积核个数256;第五卷积层的卷积核大小3
×
3,卷积核个数512;第六卷积层的卷积核大小1
×
1,卷积核个数512;空间注意力模块有两层,第一层是卷积层,第二层为softmax激活层,空间注意力模块的卷积层的卷积核大小为1
×
1,卷积核个数2;通道注意力模块有三层,第一层是平均池化层,第二层是卷积层和第三层是softmax激活层,通道注意力模块的卷积层的卷积核大小1
×
1,卷积核个数1;第一卷积网络的第一卷积层的输出与空间注意力模块的第一层连接,通
道注意力模块的第三层与第一卷积网络的第二卷积层的输入连接;第二卷积网络包括6个顺次连接的第七卷积层至第十二卷积层,第七卷积层至第十一卷积层的卷积核大小均为3
×
3,第十二卷积层的卷积核大小均为1
×
1,第七卷积层至第十二卷积层的卷积核个数分别为32、64、128、256、512、512。6.根据权利要求2所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述步骤四包括:语音编码器的输入是...

【专利技术属性】
技术研发人员:李腾刘晨然王妍
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1