唇形生成方法、装置、设备及介质制造方法及图纸

技术编号:34325461 阅读:18 留言:0更新日期:2022-07-31 01:03
本申请涉及视频处理技术领域,提供了一种唇形生成方法、装置、设备及介质,所述方法通过获取包含说话者唇形的说话视频样本,并从说话视频样本中提取不同时间段的子视频,对子视频进行音视频分离得到第一唇形图像序列、第一说话音频序列以及第二唇形图像序列,将第一说话音频序列和第二唇形图像序列作为唇形生成模型的输入,并将第一唇形图像序列作为期望输出的结果对唇形生成模型进行训练,之后利用训练好的唇形生成模型进行唇形生成。本申请实施例从同一说话视频样本中提取出不同时间段的唇形图像序列和说话音频序列,并以此对唇形生成模型进行训练,利用训练好的唇形生成模型进行唇形生成,能够在任意人物上无拘束地进行唇形生成。生成。生成。

Lip generation method, device, equipment and medium

【技术实现步骤摘要】
唇形生成方法、装置、设备及介质


[0001]本申请涉及视频处理
,尤其涉及一种唇形生成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着短视频内容消费的快速增长,快速创建视频内容已成为一个典型的需求,而视频质量的高低较大取决于生成的说话者唇形。
[0003]为了快速构建高质量的视频,相关技术中通过深度学习,从单个说话者长时间的说话视频中学习从语言表达到唇形标志的映射,由于只接受特定说话者的训练,无法合成新的身份或者声音。
[0004]然而,实际应用中视频创建希望服务于多个用户,因此,需要提供一种独立于说话者,能够在任意人物上无拘束地生成唇形的方法。

技术实现思路

[0005]本申请实施例的主要目的在于提出一种唇形生成方法、装置、电子设备及计算机可读存储介质,能够在任意人物上无拘束地进行唇形生成。
[0006]为实现上述目的,本申请实施例的第一方面提出了一种唇形生成方法,所述方法包括:
[0007]获取包含说话者唇形的说话视频样本;
[0008]从所述说话视频样本中提取第一子视频和第二子视频,所述第一子视频和所述第二子视频为所述说话视频样本中不同时间段的子视频;
[0009]对所述第一子视频进行音视频分离,得到第一唇形图像序列和第一说话音频序列;
[0010]对所述第二子视频进行音视频分离,得到第二唇形图像序列;
[0011]将所述第一说话音频序列、所述第二唇形图像序列作为唇形生成模型的输入,将所述第一唇形图像序列作为期望所述唇形生成模型输出的结果,对所述唇形生成模型进行训练,得到训练好的唇形生成模型;
[0012]获取初始唇形图像序列和目标说话音频序列,所述初始唇形图像序列包含说话者唇形;
[0013]将所述初始唇形图像序列和所述目标说话音频序列输入所述训练好的唇形生成模型,得到说话者唇形与所述目标说话音频序列匹配的目标唇形图像序列。
[0014]根据本专利技术一些实施例提供的唇形生成方法,所述将所述第一说话音频序列、所述第二唇形图像序列作为唇形生成模型的输入,将所述第一唇形图像序列作为期望所述唇形生成模型输出的结果,对所述唇形生成模型进行训练,得到训练好的唇形生成模型,包括:
[0015]将所述第一说话音频序列、所述第二唇形图像序列输入唇形生成模型,得到预测
唇形图像序列;
[0016]基于所述预测唇形图像序列和所述第一唇形图像序列,确定所述第一唇形图像序列的判别结果;
[0017]当所述判别结果满足预设的训练结束条件,结束训练,得到训练好的唇形生成模型;
[0018]当所述判别结果未满足预设的训练结束条件,根据所述判别结果对所述唇形生成模型的参数进行更新,并继续对所述唇形生成模型进行训练直至所述判别结果满足预设的训练结束条件。
[0019]根据本专利技术一些实施例提供的唇形生成方法,所述判别结果包括图像真实度概率;
[0020]所述基于所述预测唇形图像序列和所述第一唇形图像序列,确定所述第一唇形图像序列的判别结果,包括:
[0021]获取预设的图像质量判别器;
[0022]将所述预测唇形图像序列和所述第一唇形图像序列输入到所述图像质量判别器,以通过所述图像质量判别器得到所述预测唇形图像序列相对于所述第一唇形图像序列的图像真实度概率。
[0023]根据本专利技术一些实施例提供的唇形生成方法,所述判别结果包括光流特征差异值;
[0024]所述基于所述预测唇形图像序列和所述第一唇形图像序列,确定所述第一唇形图像序列的判别结果,包括:
[0025]获取所述预测唇形图像序列中两两相邻帧的第一光流特征和所述第一唇形图像序列中两两相邻帧的第二光流特征;
[0026]根据所述第一光流特征和所述第二光流特征,确定所述预测唇形图像序列与所述第一唇形图像序列之间的光流特征差异值。
[0027]根据本专利技术一些实施例提供的唇形生成方法,所述判别结果包括音视频同步率;
[0028]所述方法还包括:
[0029]获取训练好的SyncNet模型;
[0030]将所述第一说话音频序列和所述预测唇形图像序列输入到所述SyncNet模型,以通过所述SyncNet模型得到所述预测唇形图像序列中说话者唇形相对于所述第一说话音频序列的音视频同步率。
[0031]根据本专利技术一些实施例提供的唇形生成方法,所述唇形生成模型包括音频编码器、图像编码器和图像解码器,其中,
[0032]所述音频编码器用于对输入的所述第一说话音频序列进行编码,得到音频表示向量,所述音频表示向量包含音频特征信息;
[0033]所述图像编码器用于对输入的所述第二唇形图像序列进行编码,得到图像表示向量,所述图像表示向量包含唇形特征信息;
[0034]所述图像解码器用于对所述音频表示向量和所述图像表示向量的拼接向量进行解码,生成所述预测唇形图像序列。
[0035]根据本专利技术一些实施例提供的唇形生成方法,所述方法还包括:
[0036]将所述目标说话音频序列和所述目标唇形图像序列进行音视频合并,得到目标视频。
[0037]为实现上述目的,本申请实施例的第二方面提出了一种唇形生成装置,所述装置包括:
[0038]视频样本获取模块,用于获取包含说话者唇形的说话视频样本;
[0039]子视频提取模块,用于从所述说话视频样本中提取第一子视频和第二子视频,所述第一子视频和所述第二子视频为所述说话视频样本中不同时间段的子视频;
[0040]第一音视频分离模块,用于对所述第一子视频进行音视频分离,得到第一唇形图像序列和第一说话音频序列;
[0041]第二音视频分离模块,用于对所述第二子视频进行音视频分离,得到第二唇形图像序列;
[0042]模型训练模块,用于将所述第一说话音频序列、所述第二唇形图像序列作为唇形生成模型的输入,将所述第一唇形图像序列作为期望所述唇形生成模型输出的结果,对所述唇形生成模型进行训练,得到训练好的唇形生成模型;
[0043]序列获取模块,用于获取初始唇形图像序列和目标说话音频序列,所述初始唇形图像序列包含说话者唇形;
[0044]唇形生成模块,用于将所述初始唇形图像序列和所述目标说话音频序列输入所述训练好的唇形生成模型,得到说话者唇形与所述目标说话音频序列匹配的目标唇形图像序列。
[0045]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第一方面所述的方法。
[0046]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个计算机程序,所述一个或者多个计算机程序可被一个或者多个处理器执行,以实现上述第一方面所述的方法。...

【技术保护点】

【技术特征摘要】
1.一种唇形生成方法,其特征在于,所述方法包括:获取包含说话者唇形的说话视频样本;从所述说话视频样本中提取第一子视频和第二子视频,所述第一子视频和所述第二子视频为所述说话视频样本中不同时间段的子视频;对所述第一子视频进行音视频分离,得到第一唇形图像序列和第一说话音频序列;对所述第二子视频进行音视频分离,得到第二唇形图像序列;将所述第一说话音频序列、所述第二唇形图像序列作为唇形生成模型的输入,将所述第一唇形图像序列作为期望所述唇形生成模型输出的结果,对所述唇形生成模型进行训练,得到训练好的唇形生成模型;获取初始唇形图像序列和目标说话音频序列,所述初始唇形图像序列包含说话者唇形;将所述初始唇形图像序列和所述目标说话音频序列输入所述训练好的唇形生成模型,得到说话者唇形与所述目标说话音频序列匹配的目标唇形图像序列。2.根据权利要求1所述的唇形生成方法,其特征在于,所述将所述第一说话音频序列、所述第二唇形图像序列作为唇形生成模型的输入,将所述第一唇形图像序列作为期望所述唇形生成模型输出的结果,对所述唇形生成模型进行训练,得到训练好的唇形生成模型,包括:将所述第一说话音频序列、所述第二唇形图像序列输入唇形生成模型,得到预测唇形图像序列;基于所述预测唇形图像序列和所述第一唇形图像序列,确定所述第一唇形图像序列的判别结果;当所述判别结果满足预设的训练结束条件,结束训练,得到训练好的唇形生成模型;当所述判别结果未满足预设的训练结束条件,根据所述判别结果对所述唇形生成模型的参数进行更新,并继续对所述唇形生成模型进行训练直至所述判别结果满足预设的训练结束条件。3.根据权利要求2所述的唇形生成方法,其特征在于,所述判别结果包括图像真实度概率;所述基于所述预测唇形图像序列和所述第一唇形图像序列,确定所述第一唇形图像序列的判别结果,包括:获取预设的图像质量判别器;将所述预测唇形图像序列和所述第一唇形图像序列输入到所述图像质量判别器,以通过所述图像质量判别器得到所述预测唇形图像序列相对于所述第一唇形图像序列的图像真实度概率。4.根据权利要求2所述的唇形生成方法,其特征在于,所述判别结果包括光流特征差异值;所述基于所述预测唇形图像序列和所述第一唇形图像序列,确定所述第一唇形图像序列的判别结果,包括:获取所述预测唇形图像序列中两两相邻帧的第一光流特征和所述第一唇形图像序列中两两相邻帧的第二光流特征;
根据所述第一光流特征和所述第二光流特征,确定所述预测唇形图像序列与所述第一唇形图像序列之间的光流特征差异值。5.根据权...

【专利技术属性】
技术研发人员:邹泽宇
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1