一种视频中说话人定位的方法、装置及计算机存储介质制造方法及图纸

技术编号:27657402 阅读:21 留言:0更新日期:2021-03-12 14:21
本发明专利技术公开了一种视频中说话人定位的方法、装置及计算机存储介质,其中所述方法包括:对待检测视频进行分段,对分段视频片段进行人脸检测,检测出每一帧当中有多少张人脸,同时获取每张人脸的定位,得到人脸检测区域集,利用前后帧人脸区域的交并比为人脸检测区域集进行分组,利用人脸识别或者是唇形同步来定位说话人,本申请可以达到在视频中准确找出并定位指定说话人的效果。本申请可以广泛应用于人脸识别领域。

【技术实现步骤摘要】
一种视频中说话人定位的方法、装置及计算机存储介质
本申请涉及人脸识别领域,尤其涉及一种视频中说话人定位的方法、装置及计算机存储介质。
技术介绍
随着互联网的不断发展,视频已经成为信息传递的新载体。但不同语种的客观存在,使视频信息在交流中遇到了较大阻碍,而目前的解决方法则大多是用添加指定语言字幕或使用人工配音的方式。为此,现有技术提出一种视频翻译方法,将说话人的语言翻译为指定语言并配合生成同步的唇形,让视频中的说话人看起来像是在使用指定语言在说话,提高用户的观感体验。而实现该视频翻译方法的过程中,需要对视频进行处理。原始视频中可能有多个人,可能说话人只是旁白,并没有出现。所以需要一种视频中说话人定位的方法,找到视频中是否有人,以及一个或多个人中是哪个人在说话,将说话人的人脸区域找出来,有利于实现后续视频翻译、唇形纠正等步骤。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种视频中说话人定位的方法、装置及计算机存储介质。第一方面,本申请一些实施例提供了一种视频中说话人定位的方法,包括:将获得的待检测视频分段,得到若干分段视频;根据若干所述分段视频,获取若干分段音频;对若干所述分段视频进行人脸检测,得到若干人脸区域集;所述人脸区域集包含若干张人脸以及所述若干张人脸的定位信息;对若干所述人脸区域集进行分组,得到若干人脸检测结果组;获取说话人人脸图像;根据所述说话人人脸图像,从所述人脸检测结果组中确定目标人脸区域集;或者,对所述分段音频以及所述人脸区域集进行唇形同步检测,确定目标人脸区域集;其中,所述目标人脸区域集包含所述说话人人脸图像。在一些实施例中,所述将获得的待检测视频分段,得到若干分段视频,包括:对所述待检测视频中任意相邻两帧的颜色直方图进行波动检测;当所述任意相邻两帧视频中后一帧视频的颜色直方图发生波动,将所述后一帧作为所述分段视频的第一帧,得到若干所述分段视频。在一些实施例中,所述对若干所述分段视频进行人脸检测,包括:通过具有尺度不变框架的人脸检测网络对若干所述分段视频进行人脸检测;其中,所述人脸检测网络利用尺度修正策略提高小尺寸人脸的检测效果。在一些实施例中,所述对若干所述分段视频进行人脸检测,得到若干人脸区域集,包括:对所述分段视频中每一帧检测到的每张人脸均使用左上角坐标和右下角坐标进行定位,得到若干人脸区域,从而得到所述分段视频的所述人脸区域集。在一些实施例中,所述对若干所述人脸区域集进行分组,得到若干人脸检测结果组,包括:确定所述人脸区域集中任意相邻两帧的所述人脸区域的交集;确定所述人脸区域集中任意相邻两帧的所述人脸区域的并集;确定所述人脸区域的交集与所述人脸区域的并集的比值,得出人脸区域交并比;当所述人脸区域交并比大于预设的第一阈值,将所述人脸区域分为一组,并采用中值滤波算法对分组后的人脸区域进行平滑处理,从而得到若干人脸检测结果组。在一些实施例中,所述根据所述说话人人脸图像,从所述人脸检测结果组中确定目标人脸区域集,包括:将若干所述人脸检测结果组中的人脸区域进行扭曲,使所述人脸区域中人脸的眼睛和嘴巴在预设的位置范围,得到扭曲后的人脸检测结果组;将所述扭曲后的人脸检测结果组输入训练好的深度卷积神经网络模型,得到若干第一向量;所述第一向量为128维度的向量;将所述说话人人脸图像输入所述训练好的深度卷积神经网络模型,得到第二向量;所述第二向量为128维度的向量;根据所述第二向量与若干所述第一向量的相似度,确定所述说话人在所述扭曲后的人脸检测结果组中的位置,得到所述目标人脸区域集。在一些实施例中,所述对所述分段音频以及所述人脸区域集进行唇形同步检测,确定目标人脸区域集,包括:将若干所述人脸检测结果组输入第一神经网络,得到若干第三向量;所述第一神经网络用于对人脸的下半脸进行特征提取,所述第三向量为512维度的向量;将若干所述分段音频输入第二神经网络,得到若干第四向量;所述第二神经网络用于对所述分段音频进行特征提取,所述第四向量为512维度的向量;根据若干所述第三向量与若干所述第四向量的相似度,确定所述人脸检测结果组中的所述说话人,得到所述目标人脸区域集。在一些实施例中,所述根据若干所述第三向量与若干所述第四向量的相似度,确定所述人脸检测结果组中的所述说话人,得到所述目标人脸区域集,还包括:对若干所述第三向量与若干所述第四向量的相似度结果进行加窗处理以及逻辑回归处理,确定所述人脸检测结果组中的所述说话人,得到所述目标人脸区域集。第二方面,本申请一些实施例还提供了一种装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如第一方面所述的视频中说话人定位的方法。第三方面,本申请一些实施例还提供了一种计算机存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由所述处理器执行时用于实现如第一方面所述的视频中说话人定位的方法。本申请实施例的有益效果如下:对待检测视频进行分段,对分段视频片段进行人脸检测,检测出每一帧当中有多少张人脸,同时获取每张人脸的定位,得到人脸检测区域集,利用前后帧人脸区域的交并比为人脸检测区域集进行分组,利用人脸识别或者是唇形同步来定位说话人,从而达到在视频中准确找出并定位指定说话人的效果。附图说明附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。图1为本申请一些实施例提供的一种视频中说话人定位的方法流程图;图2为本申请一些实施例提供的经过多尺度滑动窗口检测的图像;图3为人脸区域用左上角坐标及右下角坐标定位的示意图;图4为得到人脸区域交并比的示意图;图5为SyncNet唇形同步检测器的检测结果示意图;图6为对SyncNet唇形同步检测器的检测结果进行加窗处理以及softmax逻辑回归处理的结果示意图;图7为本申请一些实施例提供的一种装置的结构示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。参照图1,图1为本申请一些实施例提供的一种视频中说话人定位的方法,该方法包括但不限于步骤S100至步骤S150。步骤S100,将获得的待检测视频分段,得到若干分段视频。一般视频中存在着镜头变化,获取到的待检测视频可能由多个镜头剪辑拼接而成,因此要在视频中准确定位到说话人,需本文档来自技高网...

【技术保护点】
1.一种视频中说话人定位的方法,其特征在于,包括:/n将获得的待检测视频分段,得到若干分段视频;/n根据若干所述分段视频,获取若干分段音频;/n对若干所述分段视频进行人脸检测,得到若干人脸区域集;所述人脸区域集包含若干张人脸以及所述若干张人脸的定位信息;/n对若干所述人脸区域集进行分组,得到若干人脸检测结果组;/n获取说话人人脸图像;/n根据所述说话人人脸图像,从所述人脸检测结果组中确定目标人脸区域集;或者,对所述分段音频以及所述人脸区域集进行唇形同步检测,确定目标人脸区域集;/n其中,所述目标人脸区域集包含所述说话人人脸图像。/n

【技术特征摘要】
1.一种视频中说话人定位的方法,其特征在于,包括:
将获得的待检测视频分段,得到若干分段视频;
根据若干所述分段视频,获取若干分段音频;
对若干所述分段视频进行人脸检测,得到若干人脸区域集;所述人脸区域集包含若干张人脸以及所述若干张人脸的定位信息;
对若干所述人脸区域集进行分组,得到若干人脸检测结果组;
获取说话人人脸图像;
根据所述说话人人脸图像,从所述人脸检测结果组中确定目标人脸区域集;或者,对所述分段音频以及所述人脸区域集进行唇形同步检测,确定目标人脸区域集;
其中,所述目标人脸区域集包含所述说话人人脸图像。


2.根据权利要求1所述的视频中说话人定位的方法,其特征在于,所述将获得的待检测视频分段,得到若干分段视频,包括:
获取待检测视频中任意相邻两帧中前一帧的第一颜色直方图,并获取后一帧的第二颜色直方图;
获取所述第一颜色直方图和所述第二颜色直方图的差异;
当所述第一颜色直方图和所述第二颜色直方图的差异超过预设的第一阈值,将所述后一帧作为所述分段视频的第一帧,得到若干所述分段视频。


3.根据权利要求1所述的视频中说话人定位的方法,其特征在于,所述对若干所述分段视频进行人脸检测,包括:
根据多尺度滑动窗口对任意所述分段视频中的任意一帧进行检测,框选出若干检测结果;
对所述若干检测结果进行过滤处理,确定人脸区域集。


4.根据权利要求3所述的视频中说话人定位的方法,其特征在于,所述对若干所述分段视频进行人脸检测,得到若干人脸区域集,包括:
对所述分段视频中每一帧检测到的每张人脸均使用左上角坐标和右下角坐标进行定位,得到若干人脸区域,从而得到所述分段视频的所述人脸区域集。


5.根据权利要求4所述的视频中说话人定位的方法,其特征在于,所述对若干所述人脸区域集进行分组,得到若干人脸检测结果组,包括:
确定所述人脸区域集中任意相邻两帧的所述人脸区域的交集;
确定所述人脸区域集中任意相邻两帧的所述人脸区域的并集;
确定所述人脸区域的交集与所述人脸区域的并集的比值,得出人脸区域交并比;
当所述人脸区域交并比大于预设的第一阈值,将所述人脸区域分为一组,并采用中值...

【专利技术属性】
技术研发人员:王伦基李权叶俊杰李嘉雄成秋喜胡玉针朱杰高翠韩蓝青
申请(专利权)人:清华珠三角研究院赛业广州生物科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1