【技术实现步骤摘要】
一种视频中说话人定位的方法、装置及计算机存储介质
本申请涉及人脸识别领域,尤其涉及一种视频中说话人定位的方法、装置及计算机存储介质。
技术介绍
随着互联网的不断发展,视频已经成为信息传递的新载体。但不同语种的客观存在,使视频信息在交流中遇到了较大阻碍,而目前的解决方法则大多是用添加指定语言字幕或使用人工配音的方式。为此,现有技术提出一种视频翻译方法,将说话人的语言翻译为指定语言并配合生成同步的唇形,让视频中的说话人看起来像是在使用指定语言在说话,提高用户的观感体验。而实现该视频翻译方法的过程中,需要对视频进行处理。原始视频中可能有多个人,可能说话人只是旁白,并没有出现。所以需要一种视频中说话人定位的方法,找到视频中是否有人,以及一个或多个人中是哪个人在说话,将说话人的人脸区域找出来,有利于实现后续视频翻译、唇形纠正等步骤。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种视频中说话人定位的方法、装置及计算机存储介质。第一方面,本申请一些实施例提供了一种视频中说话人定位的方法,包括:将获得的待检测视频分段,得到若干分段视频;根据若干所述分段视频,获取若干分段音频;对若干所述分段视频进行人脸检测,得到若干人脸区域集;所述人脸区域集包含若干张人脸以及所述若干张人脸的定位信息;对若干所述人脸区域集进行分组,得到若干人脸检测结果组;获取说话人人脸图像;根据所述说话人人脸图像,从所述人脸检测结果组中确定目标人脸区域集;或者,对所述分段音频以及所述人脸区域集进行 ...
【技术保护点】
1.一种视频中说话人定位的方法,其特征在于,包括:/n将获得的待检测视频分段,得到若干分段视频;/n根据若干所述分段视频,获取若干分段音频;/n对若干所述分段视频进行人脸检测,得到若干人脸区域集;所述人脸区域集包含若干张人脸以及所述若干张人脸的定位信息;/n对若干所述人脸区域集进行分组,得到若干人脸检测结果组;/n获取说话人人脸图像;/n根据所述说话人人脸图像,从所述人脸检测结果组中确定目标人脸区域集;或者,对所述分段音频以及所述人脸区域集进行唇形同步检测,确定目标人脸区域集;/n其中,所述目标人脸区域集包含所述说话人人脸图像。/n
【技术特征摘要】
1.一种视频中说话人定位的方法,其特征在于,包括:
将获得的待检测视频分段,得到若干分段视频;
根据若干所述分段视频,获取若干分段音频;
对若干所述分段视频进行人脸检测,得到若干人脸区域集;所述人脸区域集包含若干张人脸以及所述若干张人脸的定位信息;
对若干所述人脸区域集进行分组,得到若干人脸检测结果组;
获取说话人人脸图像;
根据所述说话人人脸图像,从所述人脸检测结果组中确定目标人脸区域集;或者,对所述分段音频以及所述人脸区域集进行唇形同步检测,确定目标人脸区域集;
其中,所述目标人脸区域集包含所述说话人人脸图像。
2.根据权利要求1所述的视频中说话人定位的方法,其特征在于,所述将获得的待检测视频分段,得到若干分段视频,包括:
获取待检测视频中任意相邻两帧中前一帧的第一颜色直方图,并获取后一帧的第二颜色直方图;
获取所述第一颜色直方图和所述第二颜色直方图的差异;
当所述第一颜色直方图和所述第二颜色直方图的差异超过预设的第一阈值,将所述后一帧作为所述分段视频的第一帧,得到若干所述分段视频。
3.根据权利要求1所述的视频中说话人定位的方法,其特征在于,所述对若干所述分段视频进行人脸检测,包括:
根据多尺度滑动窗口对任意所述分段视频中的任意一帧进行检测,框选出若干检测结果;
对所述若干检测结果进行过滤处理,确定人脸区域集。
4.根据权利要求3所述的视频中说话人定位的方法,其特征在于,所述对若干所述分段视频进行人脸检测,得到若干人脸区域集,包括:
对所述分段视频中每一帧检测到的每张人脸均使用左上角坐标和右下角坐标进行定位,得到若干人脸区域,从而得到所述分段视频的所述人脸区域集。
5.根据权利要求4所述的视频中说话人定位的方法,其特征在于,所述对若干所述人脸区域集进行分组,得到若干人脸检测结果组,包括:
确定所述人脸区域集中任意相邻两帧的所述人脸区域的交集;
确定所述人脸区域集中任意相邻两帧的所述人脸区域的并集;
确定所述人脸区域的交集与所述人脸区域的并集的比值,得出人脸区域交并比;
当所述人脸区域交并比大于预设的第一阈值,将所述人脸区域分为一组,并采用中值...
【专利技术属性】
技术研发人员:王伦基,李权,叶俊杰,李嘉雄,成秋喜,胡玉针,朱杰,高翠,韩蓝青,
申请(专利权)人:清华珠三角研究院,赛业广州生物科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。