【技术实现步骤摘要】
语音与图像同步性衡量模型的训练方法及装置
[0001]本申请涉及神经网络
,尤其涉及一种语音与图像同步性衡量模型的训练方法及装置。
技术介绍
[0002]在一段视频中,往往都包含有图像和语音。并且,当视频中的人物说话时,图像中该人物的嘴部运动应当与该人物所发出的语音保持同步。
[0003]为了衡量视频中人物的嘴部运动与其所发出的语音是否同步,现有一般采用的是SyncNet类技术。所谓SyncNet类技术,可以参考文献Chung,Joon Son,and Andrew Zisserman."Out of time:automated lip sync in the wild."Asian conference on computer vision.Springer,Cham,2016。具体来说,就是将视频中的语音片段输入一个神经网络,得到语音特征。再将视频中的图像片段输入另一个神经网络,得到视觉特征。最后,通过对比语音特征与视觉特征,进而判断视频中人物的嘴部运动与其所发出的语音是否同步。
[0004]但是 ...
【技术保护点】
【技术特征摘要】
1.一种语音与图像同步性衡量模型的训练方法,其特征在于,所述方法包括:将第一图像片段处理为第一图像数据、第一语音片段处理为第一语音数据、第二语音片段处理为第二语音数据,其中:所述第一图像片段、所述第一语音片段和所述第二语音片段来自于第一训练视频,所述第一图像片段与所述第一语音片段具有同步性,所述第一图像片段与所述第二语音片段不具有同步性;将随机图像片段处理为第二图像数据、随机语音片段处理为第三语音数据,其中:所述随机图像片段和所述随机语音片段来自于第二训练视频;将所述第一图像数据和所述第一语音数据组成正样本;将所述第一图像数据和所述第二语音数据组成第一负样本;将所述第一图像数据和所述第三语音数据组成第二负样本;将所述第一语音数据或所述第二语音数据,和所述第二图像数据组成第三负样本;采用所述正样本、所述第一负样本、所述第二负样本和所述第三负样本训练语音与图像同步性衡量模型。2.根据权利要求1所述的方法,其特征在于,语音数据的语音帧数与图像数据的图像帧数相关,所述语音数据包括第一语音数据、第二语音数据或第三语音数据,所述图像数据包括第一图像数据或第二图像数据。3.根据权利要求1所述的方法,其特征在于,所述第二语音片段与所述第一图像片段错位的时长大于或等于所述第二语音片段的总时长的2倍。4.根据权利要求1所述的方法,其特征在于,所述第一图像片段和所述随机图像片段均为一个或多个连续时间点的图像。5.根据权利要求1所述的方法,其特征在于,训练视频为单人说话的人像视频,所述训练视频中背景声的干扰程度小于特定程度;其中:训练视频包括所述第一训练视频和所述第二训练视频。6.根据权利要求1所述的方法,其特征在于,所述将所述第一图像数据和所述第二语音数据组成第一负样本;将所述第一图像数据和所述第三语音数据组成第二负样本;将所述第一语音数据或所述第二语音数据,和所述第二图像数据组成第三负样本,包括:当判定出所述第一图像数据对应的语音数据与所述第二语音数据在语音类别后验概率上存在不同,以及所述第一图像数据与所述第二语音数据对应的图像数据在下半脸运动上存在不同时,将所述第一图像数据和所述第二语音数据组成第一负样本;当判定出所述第一图像数据对应的语音数据与所述第三语音数据在语音类别后验概率上存在不同,以及所述第一图像数据与所述第三语音数据对应的图像数据在下半脸运动上存在不同时,将所述第一图像数据和所述第三语音数据组成第二负样本;当判定出所述第二图像数据对应的语音数据与所述第一语音数据或所述第二语音数据在语音类别后验概率上存在不同,以及所述第二图像数据与所述第一语音数据或所述第二语音数据对应的图像片段在下半脸运动上存在不同时,将所述第一语音数据或所述第二语音数据,和所述第二图像数据组成第三负样本。7.根据权利要求1所述的方法,其特征在于,在将第一图像片段处理为第一图像数据、第一语音片段处理为第一语音数据、第二语音片段处理为第二语音数据、将随机图像片段处理为第二图像数据、所述随机语音片段处理为第三语音数据,包括:
根据所述第一图像片段生成目标人物的轮廓图,得到第一图像数据;根据所述随机图像片段生成目标人物的轮廓图,得到第二图像数据;所述轮廓图与所述目标人物的个体特征无关;将所述第一语音片段转换为特定信号,得到第一语音数据;将所述第二语音片段转换为特定信号,得到第二语音数据;将所述随机语音片段转换为特定信号,得到第三语音数据;所述特定信号与所述第一语音片段、所述第二语音片段以及所述随机语音片段中说话人的个体特征无关。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述采用所述正样本、所述第一负样本、所述第二负样本...
【专利技术属性】
技术研发人员:王淳,曾定衡,王洪斌,吴海英,周迅溢,蒋宁,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。