视频处理方法、相关装置及存储介质制造方法及图纸

技术编号:37477629 阅读:17 留言:0更新日期:2023-05-07 09:19
本申请实施例涉及计算机视觉领域,提供一种视频处理方法、相关装置及存储介质,该方法包括:获取候选图像序列,所述候选图像序列通过预设对抗生成模型中的生成器基于目标语音片段以及目标对象的面部图像得到;基于所述候选图像序列获取目标损失,所述目标损失至少包括真实度判别损失,所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到;若所述目标损失未收敛,则基于所述目标损失更新所述生成器;基于更新的生成器,获取更新的候选图像序列,直至目标损失收敛,并将目标损失收敛时的候选图像序列作为目标图像序列。本申请实施例中在生成图像序列时,至少基于真实度判别损失约束生成器,在视频层面对图像的连续生成提供了指导。成提供了指导。成提供了指导。

【技术实现步骤摘要】
视频处理方法、相关装置及存储介质


[0001]本申请实施例涉及计算机视觉领域,更具体地涉及一种视频处理方法、相关装置及存储介质。

技术介绍

[0002]通过语音驱动人脸视频生成的方案,可广泛应用于虚拟助手、智能客服、新闻播报、远程会议、电子游戏等多个领域,满足上述领域对智能虚拟形象的功能需求和性能需求,并基于人工智能大幅度降低相关行业的人工劳动。
[0003]现有技术中往往采用生成式对抗网络(Generative Adversarial Networks,GAN)基于输入的语音和目标人物图像,生成目标人物的换口型视频。然而,由于GAN通常仅对单张图像的质量负责,并不关心多张图像之间的联系,因此现有技术生成的换口型视频存在明显瑕疵,例如连续帧图像之间的人物动作衔接不自然,出现图像抖动的现象。
[0004]在目标人物的换口型视频的生成方案中,通常是仅生成目标人物的头部图像,并将该头部图像粘贴回原视频中。由于现有技术在生成单张头部图像时,并未考虑人物头部前后动作的连贯性和一致性,这就导致随着人物动作变化,生成图像的瑕疵(尤其是图像边缘靠近贴合部位的地方)会在连续播放时被放大。另外,不同图像之间明暗、光线的差异,在单张观察时并不明显,一旦连续播放,这些属性的差异也会被肉眼直观的捕捉到。

技术实现思路

[0005]本申请实施例提供一种视频处理方法、相关装置及存储介质,可以生成前后帧图像连贯性和一致性较高的换口型视频。
[0006]第一方面,本申请实施例提供一种视频处理方法,该方法包括:<br/>[0007]获取候选图像序列,所述候选图像序列通过预设对抗生成模型中的生成器基于目标语音片段以及目标对象的面部图像得到;
[0008]基于所述候选图像序列获取目标损失,所述目标损失至少包括真实度判别损失,所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到;
[0009]若所述目标损失未收敛,则基于所述目标损失更新所述生成器;
[0010]基于更新的生成器,获取更新的候选图像序列,直至目标损失收敛,并将目标损失收敛时的候选图像序列作为目标图像序列。
[0011]第二方面,本申请实施例提供一种视频处理装置,具有实现对应于上述第一方面提供的视频处理方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
[0012]在一个实施方式中,所述视频处理装置包括:
[0013]输入输出模块,被配置为获取目标语音片段以及目标对象的面部图像;
[0014]处理模块,被配置为获取候选图像序列,所述候选图像序列基于所述目标语音片
段以及所述面部图像得到;
[0015]所述处理模块,还被配置为基于所述候选图像序列获取目标损失,所述目标损失至少包括真实度判别损失,所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到;
[0016]所述处理模块,还被配置为若所述目标损失未收敛,则基于所述目标损失更新所述候选图像序列;以及基于更新的候选图像序列,获取更新的目标损失,直至目标损失收敛,并将目标损失收敛时的候选图像序列作为目标图像序列。
[0017]第三方面,本申请实施例提供一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所述的视频处理方法。
[0018]第四方面,本申请实施例提供一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第一方面所述的视频处理方法。
[0019]相较于现有技术,本申请实施例中,基于生成的候选图像序列中各个候选图像之间的差异获取时序连接特征,之后可以基于该时序连接特征获取真实度判别损失,然后基于至少包括所述真实度判别损失的目标损失确定所述候选图像序列是否符合要求,能否作为目标图像序列,以替换原视频中的面部图像序列,得到目标对象的换口型视频。由于本申请实施例中的真实度判别损失是基于图像序列之间的时序连接特征获取的,因此,本申请实施例中相当于基于候选图像序列之间的连续性对生成器进行了图像生成的指导,从而本申请实施例中获得的目标图像序列之间的连贯性和一致性较高,不容易出现图像抖动。本申请实施例中生成的目标图像序列在插入原始视频之后形成的换口型视频,不存在现有技术中的图像抖动、伪影等缺陷,且口腔等部位的细节质量高,不需要人工后期处理。
附图说明
[0020]通过参考附图阅读本申请实施例的详细描述,本申请实施例的目的、特征和优点将变得易于理解。其中:
[0021]图1为本申请实施例中视频处理方法的一种视频处理系统示意图;
[0022]图2为本申请实施例的视频处理方法的一种流程示意图;
[0023]图3为本申请实施例的视频处理方法的目标对象的面部中目标区域的示意图;
[0024]图4为现有技术中用于生成换口型视频的一种对抗生成模型的结构示意图;
[0025]图5为本申请实施例的视频处理方法的一种对抗生成模型的结构示意图;
[0026]图6为本申请实施例的视频处理方法的一种获取第二判别器的流程示意图;
[0027]图7为本申请实施例的视频处理装置的结构示意图;
[0028]图8为本申请实施例的计算设备的一种结构示意图;
[0029]图9为本申请实施例中手机的一种结构示意图;
[0030]图10为本申请实施例中服务器的一种结构示意图。
[0031]在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0032]本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用
于区别类似的对象(例如第一预设视频和第二预设视频分别表示为不同的预设视频,其他类似),而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合,通信连接可以是电性或其他类似的形式,本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
[0033]本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,所述方法包括:获取候选图像序列,所述候选图像序列通过预设对抗生成模型中的生成器,基于目标语音片段以及目标对象的面部图像得到;基于所述候选图像序列获取目标损失,所述目标损失至少包括真实度判别损失,所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到;若所述目标损失未收敛,则基于所述目标损失更新所述生成器;基于更新的生成器,获取更新的候选图像序列,直至目标损失收敛,并将目标损失收敛时的候选图像序列作为目标图像序列。2.如权利要求1所述的方法,其中,所述面部图像中包括多个目标区域,所述目标区域基于所述面部图像的预设关键点确定;所述候选图像序列基于所述目标语音片段以及所述多个目标区域得到。3.如权利要求1所述的方法,其中,得到所述目标图像序列之后,所述方法还包括:获取所述目标对象的第一预设视频;基于所述目标图像序列和目标语音片段更新所述第一预设视频,得到目标视频;其中,所述目标图像序列用于更新所述第一预设视频中的面部图像序列。4.如权利要求1

3中任一项所述的方法,其中,所述候选图像序列包括多个候选图像;基于所述候选图像序列获取所述真实度判别损失,包括:获取所述候选图像序列的时序连接特征;所述时序连接特征包括各个候选图像的图像表征和区域运动趋势变化值;将相邻候选图像之间的图像表征的距离,以及同一个候选图像中各个区域的运动趋势变化差异,进行加权融合,得到所述真实度判别损失。5.如权利要求4所述的方法,其中,一个候选图像的图像表征基于预设图像通道的像素值获取,所述预设图像通道包括以下至少一项:亮度、色度、对比度和饱和度;所述区域运动趋势变化值基于目标像素点在不同时序的数值确定;所述目标像素点根据目标对象的预设面部关键点确定,所述预设面部关键点为第二预设视频中的目标对象讲话时突出显示的面部关键点。6.如权利要求4所述的方法,其中,所述目标损失基于所述真实度判别损失、口型判别损失和图像质量判别损失加权得到,所述图像质量判别损失的权重值不小于全部类型的损失中至少一种的权重值;所述口型判别损失基于各个候选图像的口型语义特征与各个目标语音的语义特征之间的距离得到,候选图像与目标语音的时序对应;所述图像质量判别损失基于各个候选图...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:北京生数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1