【技术实现步骤摘要】
语音与图像同步性的衡量方法及装置
[0001]本申请涉及视频处理
,尤其涉及一种语音与图像同步性的衡量方法及装置。
技术介绍
[0002]在一段视频中,往往都包含有图像和语音。并且,当视频中的人物说话时,图像中该人物的嘴部运动应当与该人物所发出的语音保持同步。
[0003]为了衡量视频中人物的嘴部运动与其所发出的语音是否同步,现有一般采用的是SyncNet类技术。所谓SyncNet类技术,可以参考文献Chung,Joon Son,and Andrew Zisserman."Out of time:automated lip sync in the wild."Asian conference on computer vision.Springer,Cham,2016。具体来说,就是将视频中的语音片段输入一个神经网络,得到语音特征。再将视频中的图像片段输入另一个神经网络,得到视觉特征。最后,通过对比语音特征与视觉特征,进而判断视频中人物的嘴部运动与其所发出的语音是否同步。
[0004]但是,采用SyncN ...
【技术保护点】
【技术特征摘要】
1.一种语音与图像同步性的衡量方法,其特征在于,所述方法包括:获取视频中的语音片段和图像片段,所述语音片段与所述图像片段在所述视频中具有对应关系;根据所述图像片段生成目标人物的轮廓图,所述轮廓图与所述目标人物的个体特征无关;通过语音神经网络获得所述语音片段的语音特征;通过视觉神经网络获得所述轮廓图的视觉特征;根据所述语音特征与所述视觉特征确定所述语音片段与所述图像片段是否具有同步性,所述同步性用于表征所述语音片段中的声音与所述图像片段中所述目标人物的动作相匹配。2.根据权利要求1所述的方法,其特征在于,所述轮廓图为人脸轮廓图;所述根据所述图像片段生成目标人物的轮廓图,包括:从所述图像片段中提取所述目标人物的表情系数;基于所述表情系数和通用参数化人脸模型生成所述目标人物的人脸轮廓图。3.根据权利要求2所述的方法,其特征在于,所述从所述图像片段中提取所述目标人物的表情系数,包括:通过三维可形变参数化人脸模型参数估计算法提取所述图像片段中所述目标人物的表情系数,表情系数符合三维可形变参数化人脸模型的标准。4.根据权利要求3所述的方法,其特征在于,在所述通过三维可形变参数化人脸模型参数估计算法提取所述图像片段中所述目标人物表情系数之前,所述方法还包括:对所述图像片段进行人脸检测,得到人脸检测框;将所述人脸检测框中的人脸进行水平对齐;所述通过三维可形变参数化人脸模型参数估计算法提取所述图像片段中所述目标人物的表情系数,包括:从对齐后的人脸中提取所述目标人物的表情系数。5.根据权利要求2所述的方法,其特征在于,所述通用参数化人脸模型为通用三维人脸模型;所述基于所述表情系数和通用参数化人脸模型生成所述目标人物的人脸轮廓图,包括:提取所述表情系数中下半脸对应的下半脸表情系数;将所述下半脸表情系数输入所述通用三维人脸模型,得到所述目标人物的下半脸对应的三维人脸模型,并将所述三维人脸模型处理为所述目标人物的人脸轮廓图。6.根据权利要求5所述的方法,其特征在于,所述将所述下半脸表情系数输入所述通用三维人脸模型,得到所述目标人物的下半脸对应的三维人脸模型,并将所述三维人脸模型处理为所述目标人物的人脸轮廓图,包括:将所述下半脸表情系数输入所述通用三维人脸模型,得到所述目标人物的下半脸对应的三维人脸模型;获取所述三维人脸模型中下半脸的顶点集合;将所述顶点集合投影到二维平面,得到所述目标人物的下半脸轮廓图,并将所述下半脸轮廓图...
【专利技术属性】
技术研发人员:王淳,曾定衡,王洪斌,吴海英,周迅溢,蒋宁,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。