【技术实现步骤摘要】
视频处理方法、相关装置及存储介质
[0001]本申请实施例涉及计算机视觉领域,更具体地涉及一种视频处理方法、相关装置及存储介质。
技术介绍
[0002]通过语音驱动人脸视频生成的方案,可广泛应用于虚拟助手、智能客服、新闻播报、远程会议、电子游戏等多个领域,满足上述领域对智能虚拟形象的功能需求和性能需求,并基于人工智能大幅度降低相关行业的人工劳动。
[0003]现有技术中往往采用生成式对抗网络(Generative Adversarial Networks,GAN)基于输入的语音和目标人物图像,生成目标人物的换口型视频。然而,由于GAN通常仅对单张图像的质量负责,并不关心多张图像之间的联系,因此现有技术生成的换口型视频存在明显瑕疵,例如连续帧图像之间的人物动作衔接不自然,出现图像抖动的现象。
[0004]在目标人物的换口型视频的生成方案中,通常是仅生成目标人物的头部图像,并将该头部图像粘贴回原视频中。由于现有技术在生成单张头部图像时,并未考虑人物头部前后动作的连贯性和一致性,这就导致随着人物动作变化,生成图像的 ...
【技术保护点】
【技术特征摘要】
1.一种视频处理方法,所述方法包括:获取候选图像序列,所述候选图像序列通过预设对抗生成模型中的生成器,基于目标语音片段以及目标对象的面部图像得到;基于所述候选图像序列获取目标损失,所述目标损失至少包括真实度判别损失,所述真实度判别损失至少基于所述候选图像序列的时序连接特征得到;若所述目标损失未收敛,则基于所述目标损失更新所述生成器;基于更新的生成器,获取更新的候选图像序列,直至目标损失收敛,并将目标损失收敛时的候选图像序列作为目标图像序列。2.如权利要求1所述的方法,其中,所述面部图像中包括多个目标区域,所述目标区域基于所述面部图像的预设关键点确定;所述候选图像序列基于所述目标语音片段以及所述多个目标区域得到。3.如权利要求1所述的方法,其中,得到所述目标图像序列之后,所述方法还包括:获取所述目标对象的第一预设视频;基于所述目标图像序列和目标语音片段更新所述第一预设视频,得到目标视频;其中,所述目标图像序列用于更新所述第一预设视频中的面部图像序列。4.如权利要求1
‑
3中任一项所述的方法,其中,所述候选图像序列包括多个候选图像;基于所述候选图像序列获取所述真实度判别损失,包括:获取所述候选图像序列的时序连接特征;所述时序连接特征包括各个候选图像的图像表征和区域运动趋势变化值;将相邻候选图像之间的图像表征的距离,以及同一个候选图像中各个区域的运动趋势变化差异,进行加权融合,得到所述真实度判别损失。5.如权利要求4所述的方法,其中,一个候选图像的图像表征基于预设图像通道的像素值获取,所述预设图像通道包括以下至少一项:亮度、色度、对比度和饱和度;所述区域运动趋势变化值基于目标像素点在不同时序的数值确定;所述目标像素点根据目标对象的预设面部关键点确定,所述预设面部关键点为第二预设视频中的目标对象讲话时突出显示的面部关键点。6.如权利要求4所述的方法,其中,所述目标损失基于所述真实度判别损失、口型判别损失和图像质量判别损失加权得到,所述图像质量判别损失的权重值不小于全部类型的损失中至少一种的权重值;所述口型判别损失基于各个候选图像的口型语义特征与各个目标语音的语义特征之间的距离得到,候选图像与目标语音的时序对应;所述图像质量判别损失基于各个候选图...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:北京生数科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。