图像生成方法、系统、电子设备及存储介质技术方案

技术编号:38151830 阅读:6 留言:0更新日期:2023-07-13 09:16
本申请实施例提供了一种图像生成方法、系统、电子设备及存储介质,属于人工智能领域。通过执行图像生成方法,先获取样本视频帧和样本音频,随后将样本视频帧和样本音频输入至唇形同步模型中进行图像合成,得到第一合成图像,为了进一步提高唇形同步的清晰度,将第一合同图像和初始的样本视频帧均输入到生成对抗模型中进行对抗训练,并优化生成对抗模型中的生成器,在训练完成后,对输入的目标视频帧和目标音频,就可以通过唇形同步模型和训练后的生成器进行处理,从而生成清晰度高的目标图像,本申请实施例无需任何人工标注而自动化地有效提升了虚拟人唇形同步任务图像的分辨率,提高视觉观看的清晰度,提高用户的观看体验。提高用户的观看体验。提高用户的观看体验。

【技术实现步骤摘要】
图像生成方法、系统、电子设备及存储介质


[0001]本申请涉及人工智能领域,尤其涉及一种图像生成方法、系统、电子设备及存储介质。

技术介绍

[0002]人物视频的唇形同步任务是属于视频生成任务中的一项,实现人物视频的唇形同步有着广阔的应用前景。相关技术中,通过对人物视频和音频进行唇形同步处理得到最终所需要的视频,但是,在进行唇形同步的时候,对输入输出的视频帧有宽和高的限制,导致最终生成的图像中嘴部分辨率较低,视觉效果模糊,降低了用户观看体验。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种图像生成方法、系统、电子设备及存储介质,能够提高唇形同步生成的图像的分辨率,提高视觉观看的清晰度,提高用户的观看体验。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种图像生成方法,包括:获取样本视频帧和样本音频;将所述样本视频帧和所述样本音频输入至预设的唇形同步模型,得到第一合成图像;将所述样本视频帧和所述第一合成图像输入至预设的生成对抗模型,得到所述生成对抗模型的输出结果,其中,所述生成对抗模型包括生成器;根据所述输出结果调整所述生成器的参数;获取目标视频帧和目标音频,将所述目标视频帧和所述目标音频输入至所述唇形同步模型中得到第二合成图像,并将所述第二合成图像输入至调整参数后的所述生成器,得到目标图像。
[0005]在一些实施例中,所述生成对抗模型还包括判别器,所述判别器为谱归一化判别器,所述输出结果包括第一生成图像和判别结果;所述将所述样本视频帧和所述第一合成图像输入至预设的生成对抗模型,得到所述生成对抗模型的输出结果,包括:将所述第一合成图像输入至所述生成器,得到所述第一生成图像;将所述样本视频帧和所述第一生成图像输入至预设的所述判别器中进行判别,得到所述判别结果。
[0006]在一些实施例中,所述根据所述输出结果调整所述生成器的参数,包括:根据所述判别结果确定所述判别器对应的判别对抗损失值;对所述判别对抗损失值进行对称处理,确定所述生成器对应的生成对抗损失值;根据所述生成对抗损失值调整所述生成器的参数。
[0007]在一些实施例中,所述根据所述生成对抗损失值调整所述生成器的参数,包括:确定所述第一生成图像与对应的所述样本视频帧之间的内容损失值和感知损失值;根据所述生成对抗损失值、所述内容损失值和所述感知损失值调整所述生成器的参数。
[0008]在一些实施例中,所述确定所述第一生成图像与对应的所述样本视频帧之间的内容损失值和感知损失值,包括:获取所述第一生成图像与所述样本视频帧的像素数据;根据所述像素数据,确定所述第一生成图像与所述样本视频帧之间的内容损失值;将所述第一
生成图像输入至预设的特征提取网络进行特征提取,得到第一特征图谱,并将所述样本视频帧输入至所述特征提取网络进行特征提取,得到第二特征图谱;根据所述第一特征图谱和所述第二特征图谱确定所述第一生成图像与所述样本视频帧之间的感知损失值。
[0009]在一些实施例中,所述根据所述生成对抗损失值、所述内容损失值和所述感知损失值调整所述生成器的参数,包括:获取所述生成对抗损失值、所述内容损失值和所述感知损失值各自对应的权值,根据所述权值对所述生成对抗损失值、所述内容损失值和所述感知损失值进行加权计算,得到总损失值,并根据所述总损失值调整所述生成器的参数;或者,分别根据所述生成对抗损失值、所述内容损失值和所述感知损失值调整所述生成器的参数。
[0010]在一些实施例中,所述获取样本视频帧和样本音频,包括:获取用于训练的样本视频和样本音频;对所述样本视频进行切分,得到多个样本视频帧;其中,多个所述样本视频帧用于分别和所述样本音频得到所述第一合成图像,每个所述样本视频帧还用于分别和对应的所述第一合成图像输入至所述生成对抗模型中进行训练。
[0011]为实现上述目的,本申请实施例的第二方面提出了一种图像生成系统,所述系统包括:样本获取模块,用于获取样本视频帧和样本音频;唇形同步模块,用于将所述样本视频帧和所述样本音频输入至预设的唇形同步模型,得到第一合成图像;对抗训练模块,用于将所述样本视频帧和所述第一合成图像输入至预设的生成对抗模型,得到所述生成对抗模型的输出结果,其中,所述生成对抗模型包括生成器;参数调整模块,用于根据所述输出结果调整所述生成器的参数;图像生成模块,用于获取目标视频帧和目标音频,将所述目标视频帧和所述目标音频输入至所述唇形同步模型中得到第二合成图像,并将所述第二合成图像输入至调整参数后的所述生成器,得到目标图像。
[0012]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面实施例所述的方法。
[0013]本申请提出的图像生成方法、系统、电子设备及存储介质,图像生成方法可以应用在图像生成系统中,通过执行图像生成方法,先获取样本视频帧和样本音频,随后将样本视频帧和样本音频输入至唇形同步模型中进行图像合成,得到第一合成图像,为了进一步提高唇形同步的清晰度,将第一合同图像和初始的样本视频帧均输入到生成对抗模型中进行对抗训练,并优化生成对抗模型中的生成器,在训练完成后,对输入的目标视频帧和目标音频,就可以通过唇形同步模型和训练后的生成器进行处理,从而生成清晰度高的目标图像,本申请实施例无需任何人工标注而自动化地有效提升了虚拟人唇形同步任务图像的分辨率,提高视觉观看的清晰度,提高用户的观看体验。
附图说明
[0014]图1是本申请实施例提供的图像生成系统的结构示意图;
[0015]图2是本申请实施例提供的图像生成方法的流程图;
[0016]图3是图2中的步骤S103的流程图;
[0017]图4是图2中的步骤S104的流程图;
[0018]图5是图4中的步骤S303的流程图;
[0019]图6是图5中的步骤S401的流程图;
[0020]图7是图5中的步骤S402的流程图;
[0021]图8是图2中的步骤S101的流程图;
[0022]图9是本申请实施例提供的图像生成系统的功能模块示意图;
[0023]图10是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
[0024]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0025]需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0026]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成方法,其特征在于,所述方法包括:获取样本视频帧和样本音频;将所述样本视频帧和所述样本音频输入至预设的唇形同步模型,得到第一合成图像;将所述样本视频帧和所述第一合成图像输入至预设的生成对抗模型,得到所述生成对抗模型的输出结果,其中,所述生成对抗模型包括生成器;根据所述输出结果调整所述生成器的参数;获取目标视频帧和目标音频,将所述目标视频帧和所述目标音频输入至所述唇形同步模型中得到第二合成图像,并将所述第二合成图像输入至调整参数后的所述生成器,得到目标图像。2.根据权利要求1所述的图像生成方法,其特征在于,所述生成对抗模型还包括判别器,所述判别器为谱归一化判别器,所述输出结果包括第一生成图像和判别结果;所述将所述样本视频帧和所述第一合成图像输入至预设的生成对抗模型,得到所述生成对抗模型的输出结果,包括:将所述第一合成图像输入至所述生成器,得到所述第一生成图像;将所述样本视频帧和所述第一生成图像输入至预设的所述判别器中进行判别,得到所述判别结果。3.根据权利要求2所述的图像生成方法,其特征在于,所述根据所述输出结果调整所述生成器的参数,包括:根据所述判别结果确定所述判别器对应的判别对抗损失值;对所述判别对抗损失值进行对称处理,确定所述生成器对应的生成对抗损失值;根据所述生成对抗损失值调整所述生成器的参数。4.根据权利要求3所述的图像生成方法,其特征在于,所述根据所述生成对抗损失值调整所述生成器的参数,包括:确定所述第一生成图像与对应的所述样本视频帧之间的内容损失值和感知损失值;根据所述生成对抗损失值、所述内容损失值和所述感知损失值调整所述生成器的参数。5.根据权利要求4所述的图像生成方法,其特征在于,所述确定所述第一生成图像与对应的所述样本视频帧之间的内容损失值和感知损失值,包括:获取所述第一生成图像与所述样本视频帧的像素数据;根据所述像素数据,确定所述第一生成图像与所述样本视频帧之间的内容损失值;将所述第一生成图像输入至预设的特征提取网络进行特征提取,得到第一特征图谱,并将所述样本视频帧输入至所述特征提取网络进行特征...

【专利技术属性】
技术研发人员:欧阳升王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1