一种唇形同步的视频生成方法、装置、设备及存储介质制造方法及图纸

技术编号:27832971 阅读:28 留言:0更新日期:2021-03-30 11:45
本发明专利技术公开了一种唇形同步的视频生成方法、装置、设备及存储介质,方法包括:获取了原始视频数据后,对所述原始视频数据中的语音数据进行人物标注,得到第一数据,并对标注好的原始视频数据进行人脸检测,得到第二数据,然后根据所述第一数据和所述第二数据,训练得到生成网络、唇形同步判别网络和图像质量判别网络,并根据所述生成网络、唇形同步判别网络和图像质量判别网络构建人物唇形生成模型,最后通过所述人物唇形生成模型对输入的序列图片进行处理,生成唇形同步的图像数据。本发明专利技术能够准确生成视频中人物讲话时的唇形图像,可广泛应用于视频数据处理技术领域。泛应用于视频数据处理技术领域。泛应用于视频数据处理技术领域。

【技术实现步骤摘要】
一种唇形同步的视频生成方法、装置、设备及存储介质


[0001]本专利技术涉及视频数据处理
,尤其是一种唇形同步的视频生成方法、装置、设备及存储介质。

技术介绍

[0002]随着视频内容丰富多样性不断的增长,对视频内容的创作方式提出了新的需求,让这些视频可以通过不同的语言观看也是一个急需解决的关键问题。例如一堂系列讲座,或者一个大范围的新闻演讲,一部非常好看的电影,甚至是非常有趣的动画。如果将它们翻译成所需的目标语言,这样让更多不同语言环境下的观众都能更好的观看接触到这个视频。通过这样的方式翻译说话的面部视频或创作新的视频,需要解决的关键问题是纠正口型,并且使之与目标语音相匹配。
[0003]目前的一些技术需要在训练中看到的特定人物的静态图像或者视频人物动作和背景没有复杂的变化,才能实现人物唇形生成。然而,在复杂动态背景、无限制的说话人脸视频中,就无法准确地改变任意身份的嘴唇动作,导致视频的人物唇形部分与新音频不同步。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种准确性高的唇形同步的视频生成方法、装置、设备及存储介质。
[0005]本专利技术的一个方面提供了一种唇形同步的视频生成方法,包括:
[0006]获取原始视频数据,所述原始视频数据包括人物在不同场景下的语音数据和图像数据;
[0007]对所述原始视频数据中的语音数据进行人物标注,得到第一数据,所述第一数据用于确定每一段语音数据对应的人脸在视频图像中位置;
[0008]对标注好的原始视频数据进行人脸检测,得到第二数据,所述第二数据用于确定每一帧图像中人脸的位置;
[0009]根据所述第一数据和所述第二数据,训练得到生成网络、唇形同步判别网络和图像质量判别网络;所述唇形同步判别网络用于判断人物唇形与人物音频的同步性,所述图像质量判别网络用于判断生成图像的真假与质量;
[0010]根据所述生成网络、唇形同步判别网络和图像质量判别网络构建人物唇形生成模型;
[0011]通过所述人物唇形生成模型对输入的序列图片进行处理,生成唇形同步的图像数据。
[0012]在一些实施例中,所述方法还包括对原始视频数据中的语音数据和图像数据进行预处理;
[0013]具体地,所述对原始视频数据中的语音数据进行预处理包括:
[0014]将语音数据进行归一化处理,得到音频波形数据;
[0015]将所述音频波形数据转化为声音频谱图,频谱图包括但不限于梅尔频谱、线性频谱;
[0016]所述对原始视频数据中的图像数据进行预处理包括:
[0017]将图像数据的序列帧中每一帧图像包含唇形的下半部分像素点置0,以使所述生成网络生成补全唇形图像;
[0018]确定与所述序列帧数量相同的参考帧,所述参考帧用于编码人物特征信息。
[0019]在一些实施例中,所述生成网络包括声音编码器、图像编码器、图像解码生成器;
[0020]其中,所述声音编码器,用于通过卷积编码从预处理得到的声音频谱图中提取所述第一数据和所述第二数据中的声音特征;
[0021]所述图像编码器,用于通过卷积编码从预处理得到的图像数据的序列帧中提取图像特征;
[0022]所述图像解码生成器,用于根据所述声音特征和所述图像特征,生成人物唇形图像。
[0023]在一些实施例中,所述人物唇形生成模型的目标损失函数为:
[0024]Loss=(1

S
w

S
g
)
·
L1+S
w
·
L
sync
+S
g
·
L
gen
[0025]其中,S
w
为唇形同步判别网络对整体损失值的影响;S
g
为图像质量判别网络对整体损失值的影响;Loss为人物唇形生成模型总体损失函数值;L1为真实图像与生成图像的均方误差损失值;L
sync
为生成人物唇形视频与音频同步率的损失值;L
gen
为图像判别网络对真实图像与生成图像判别损失值。
[0026]在一些实施例中,所述输入的序列图片带有标签限制条件;
[0027]所述标签限制条件包括可变尺寸边缘像素轮廓限制、人脸唇形关键点轮廓限制、头部轮廓限制以及背景限制。
[0028]本专利技术的另一方面还提供了一种唇形同步的视频生成装置,包括:
[0029]获取模块,用于获取原始视频数据,所述原始视频数据包括人物在不同场景下的语音数据和图像数据;
[0030]语音标注模块,用于对所述原始视频数据中的语音数据进行人物标注,得到第一数据,所述第一数据用于确定每一段语音数据对应的人脸在视频图像中位置;
[0031]人脸检测模块,用于对标注好的原始视频数据进行人脸检测,得到第二数据,所述第二数据用于确定每一帧图像中人脸的位置;
[0032]训练模块,用于根据所述第一数据和所述第二数据,训练得到生成网络、唇形同步判别网络和图像质量判别网络;所述唇形同步判别网络用于判断人物唇形与人物音频的同步性,所述图像质量判别网络用于判断生成图像的真假与质量;
[0033]构建模块,用于根据所述生成网络、唇形同步判别网络和图像质量判别网络构建人物唇形生成模型;
[0034]生成模块,用于通过所述人物唇形生成模型对输入的序列图片进行处理,生成唇形同步的图像数据。
[0035]在一些实施例中,还包括预处理模块;
[0036]所述预处理模块,用于:
[0037]将语音数据进行归一化处理,得到音频波形数据;
[0038]将所述音频波形数据转化为声音频谱图,频谱图包括但不限于梅尔频谱、线性频谱;
[0039]以及,
[0040]将图像数据的序列帧中每一帧图像包含唇形的下半部分像素点置0,以使所述生成网络生成补全唇形图像;
[0041]确定与所述序列帧数量相同的参考帧,所述参考帧用于编码人物特征信息。
[0042]本专利技术的另一方面还提供了一种电子设备,包括处理器以及存储器;
[0043]所述存储器用于存储程序;
[0044]所述处理器执行所述程序实现如前面所述的方法。
[0045]本专利技术的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0046]本专利技术的实施例在获取了原始视频数据后,对所述原始视频数据中的语音数据进行人物标注,得到第一数据,并对标注好的原始视频数据进行人脸检测,得到第二数据,然后根据所述第一数据和所述第二数据,训练得到生成网络、唇形同步判别网络和图像质量判别网络,并根据所述生成网络、唇形同步判别网络和图像质量判别网络构建人物唇形生成模型,最后通过所述人物唇形生成模型对输入的序列图片进行处理,生成唇形同步的图像数据。本专利技术能够准确生成视频中人物讲话本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种唇形同步的视频生成方法,其特征在于,包括:获取原始视频数据,所述原始视频数据包括人物在不同场景下的语音数据和图像数据;对所述原始视频数据中的语音数据进行人物标注,得到第一数据,所述第一数据用于确定每一段语音数据对应的人脸在视频图像中位置;对标注好的原始视频数据进行人脸检测,得到第二数据,所述第二数据用于确定每一帧图像中人脸的位置;根据所述第一数据和所述第二数据,训练得到生成网络、唇形同步判别网络和图像质量判别网络;所述生成网络用于生成人物唇形图像,所述唇形同步判别网络用于判断人物唇形与人物音频的同步性,所述图像质量判别网络用于判断生成图像的真假与质量;根据所述生成网络、唇形同步判别网络和图像质量判别网络构建人物唇形生成模型;通过所述人物唇形生成模型对输入的序列图片进行处理,生成唇形同步的图像数据。2.根据权利要求1所述的一种唇形同步的视频生成方法,其特征在于,所述方法还包括对原始视频数据中的语音数据和图像数据进行预处理;具体地,所述对原始视频数据中的语音数据进行预处理包括:将语音数据进行归一化处理,得到音频波形数据;将所述音频波形数据转化为声音频谱图,频谱图包括但不限于梅尔频谱、线性频谱;所述对原始视频数据中的图像数据进行预处理包括:将图像数据的序列帧中每一帧图像包含唇形的下半部分像素点置0,以使所述生成网络生成补全唇形图像;确定与所述序列帧数量相同的参考帧,所述参考帧用于编码人物特征信息。3.根据权利要求2所述的一种唇形同步的视频生成方法,其特征在于,所述生成网络包括声音编码器、图像编码器、图像解码生成器;其中,所述声音编码器,用于通过卷积编码从预处理得到的声音频谱图中提取所述第一数据和所述第二数据中的声音特征;所述图像编码器,用于通过卷积编码从预处理得到的图像数据的序列帧中提取图像特征;所述图像解码生成器,用于根据所述声音特征和所述图像特征,生成人物唇形图像。4.根据权利要求1所述的一种唇形同步的视频生成方法,其特征在于,所述人物唇形生成模型的目标损失函数为:Loss=(1

S
w

S
g
)
·
L1+S
w
·
L
sync
+S
g
·
L
gen
其中,S
w
为唇形同...

【专利技术属性】
技术研发人员:李权王伦基叶俊杰成秋喜胡玉针李嘉雄朱杰刘华清韩蓝青
申请(专利权)人:赛业广州生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1