视频合成方法、装置、设备及存储介质制造方法及图纸

技术编号:35275601 阅读:16 留言:0更新日期:2022-10-19 10:55
本公开涉及一种视频合成方法、装置、设备及存储介质。该方法包括:得到音频帧序列中每个音频帧对应的多个音频特征图;得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图;针对每个音频帧,基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,对多个融合图像帧进行拼接处理,得到该音频帧对应的图像帧;将每个音频帧和与其对应的图像帧合成,得到音频帧序列对应的视频帧序列。根据本公开实施例能够提高推理出的图像帧的合理性和平滑性,避免出现抖动的问题,还可使图像帧语义信息更加丰富,纹理和细节更加逼真,有利于提高视频合成质量。视频合成质量。视频合成质量。

【技术实现步骤摘要】
视频合成方法、装置、设备及存储介质


[0001]本公开涉及图像处理
,尤其涉及一种视频合成方法、装置、设备及存储介质。

技术介绍

[0002]视频合成方法技术可以基于音频生成人物在描述该段音频内容的讲话视频,因此,广泛应用在诸如天气播报,新闻播报,虚拟老师,虚拟主播等领域。
[0003]现阶段,视频合成方法技术主要包括基于3D的视频合成方法和基于2D的视频合成方法,其中,基于2D的视频合成方法具有推理合成效率高的优点,因此受到广泛应用。基于2D的视频合成方法在训练模型时,通常先将音频和人脸图像对齐,然后将单个音频帧输入音频对应的编码器,并且将单张人脸图像帧输入图像对应的编码器,然后融合两者信息监督训练,训练完成后即可将音频输入模型,使用模型推理合成视频,但是,基于2D的视频合成方法合成的视频会出现抖动问题,导致合成效果不佳。

技术实现思路

[0004]为了解决上述技术问题,本公开提供了一种视频合成方法、装置、设备及存储介质。
[0005]第一方面,本公开提供了一种视频合成方法,该方法包括:
[0006]获取音频帧序列和人脸图像帧序列,其中,音频帧序列与人脸图像帧序列在时间上对齐;
[0007]利用视频合成模型,对音频帧序列进行多个第一预设尺度的下采样,得到音频帧序列中每个音频帧对应的多个音频特征图;
[0008]利用视频合成模型,对人脸图像帧序列进行多个第二预设尺度的下采样,得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图;
[0009]针对每个音频帧,利用视频合成模型,基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,并对多个融合图像帧进行拼接处理,得到该音频帧对应的图像帧;
[0010]将每个音频帧和与其对应的图像帧合成,得到音频帧序列对应的视频帧序列。
[0011]第二方面,本公开提供了一种视频合成装置,该装置包括:
[0012]获取模块,用于获取音频帧序列和人脸图像帧序列,其中,音频帧序列与人脸图像帧序列在时间上对齐;
[0013]第一下采样模块,用于利用视频合成模型,对音频帧序列进行多个第一预设尺度的下采样,得到音频帧序列中每个音频帧对应的多个音频特征图;
[0014]第二下采样模块,用于利用视频合成模型,对人脸图像帧序列进行多个第二预设尺度的下采样,得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图;
[0015]拼接模块,用于针对每个音频帧,利用视频合成模型,基于该音频帧对应的多个音
频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,并对多个融合图像帧进行拼接处理,得到该音频帧对应的图像帧;
[0016]合成模块,用于将每个音频帧和与其对应的图像帧合成,得到音频帧序列对应的视频帧序列。
[0017]第三方面,本公开实施例还提供了一种电子设备,该设备包括:
[0018]处理器;以及存储程序的存储器,其中,程序包括指令,指令在由处理器执行时使处理器执行根据上述视频合成方法。
[0019]第四方面,本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据视频合成方法。
[0020]第五方面,本公开实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述视频合成方法。
[0021]本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0022]本公开实施例,能够获取音频帧序列和人脸图像帧序列,其中,音频帧序列与人脸图像帧序列在时间上对齐;利用视频合成模型,对音频帧序列进行多个第一预设尺度的下采样,得到音频帧序列中每个音频帧对应的多个音频特征图;利用视频合成模型,对人脸图像帧序列进行多个第二预设尺度的下采样,得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图;针对每个音频帧,利用视频合成模型,基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,并对多个融合图像帧进行拼接处理,得到该音频帧对应的图像帧;将每个音频帧和与其对应的图像帧合成,得到音频帧序列对应的视频帧序列。可见,根据本公开实施例,音频帧序列中每个音频帧对应的图像帧由该音频帧序列中所有音频帧共同决定,即在推理该音频帧对应的图像帧时会充分考虑与该音频帧在时间轴上相邻或者说临近的音频帧,相比于现有技术中音频帧对应的图像帧由该单个音频帧和单张图像帧共同决定,能够提高推理出的图像帧的合理性和平滑性,改善抖动的问题。并且,通过获取每个音频帧对应的多个音频特征图和多个人脸图像特征图,并基于多个音频特征图和多个人脸图像特征图生成多个融合图像帧后,对多个融合图像帧进行拼接处理得到该音频帧对应的图像帧,可使推理出的图像帧语义信息更加丰富,纹理和细节更加逼真,有利于提高视频合成质量。
附图说明
[0023]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0024]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0025]图1示出了本公开实施例提供的一种视频合成系统的架构图;
[0026]图2示出了本公开实施例提供的一种视频合成方法的流程示意图;
[0027]图3示出了本公开实施例提供的一种下采样前的图像的示意图;
[0028]图4示出了本公开实施例提供的一种下采样后的图像的示意图;
[0029]图5示出了本公开实施例提供的一种视频合成过程的逻辑示意图;
[0030]图6示出了本公开实施例提供的一种对视频合成模型进行训练的流程示意图;
[0031]图7示出了本公开实施例提供的一种视频合成装置的结构示意图;
[0032]图8示出了本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0033]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0034]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0035]为了解决上述问题,本公开实施例提供了一种视频合成方法、装置、设备及存储介质。
[0036]示例性地,图1示出了本公开实施例提供的一种视频合成系统的架构图。
[0037]如图1所示,该视频合成系统可以包括客本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频合成方法,其特征在于,包括:获取音频帧序列和人脸图像帧序列,其中,所述音频帧序列与所述人脸图像帧序列在时间上对齐;利用视频合成模型,对所述音频帧序列进行多个第一预设尺度的下采样,得到所述音频帧序列中每个音频帧对应的多个音频特征图;利用所述视频合成模型,对所述人脸图像帧序列进行多个第二预设尺度的下采样,得到所述人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图;针对每个音频帧,利用所述视频合成模型,基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,并对所述多个融合图像帧进行拼接处理,得到该音频帧对应的图像帧;将每个音频帧和与其对应的图像帧合成,得到所述音频帧序列对应的视频帧序列。2.根据权利要求1所述的方法,其特征在于,所述对所述音频帧序列进行多个第一预设尺度的下采样,得到所述音频帧序列中每个音频帧对应的多个音频特征图包括:针对每个音频帧,基于所述第一预设尺度修改该音频帧的采样个数、采样位数和/或通道数,得到所述音频特征图。3.根据权利要求1所述的方法,其特征在于,所述对所述人脸图像帧序列进行多个第二预设尺度的下采样,得到所述人脸图像序列中每个人脸图像帧对应的多个人脸图像特征图包括:针对每个人脸图像帧,每间隔第一预设行、第一预设列采集关键点,得到所述人脸图像特征图,其中,所述第一预设行和所述第一预设列与所述第二预设尺度对应。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述针对每个音频帧,利用所述视频合成模型,基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,包括:针对音频帧对应的多个音频特征图中的每个音频特征图,将该音频特征图和与其尺度不同的一音频特征图基于采样和卷积进行融合处理,得到该音频特征图对应的音频融合特征图;针对音频帧对应的多个人脸图像特征图中的每个人脸图像特征图,将该人脸图像特征图和与其尺度不同的一人脸图像特征图基于采样和卷积进行融合处理,得到该音频特征图对应的人脸图像融合特征图;将每个音频帧对应的多个音频融合特征图和多个人脸图像融合特征图中具有相同尺度的音频融合特征图和人脸图像融合特征图进行融合处理,以得到所述多个融合图像帧。5.根据权利要求1

3中任一项所述的方法,其特征在于,所述对所述多个融合图像帧进行拼接处理,得到所述音频帧对应的图像帧,包括:针对所述多个融合图像帧,重复执行以下操作直至尺寸最大的融合图像帧完成拼接:将所述多...

【专利技术属性】
技术研发人员:郎彦王鹏程冀志龙
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1