视频目标片段识别方法及系统技术方案

技术编号:39413494 阅读:10 留言:0更新日期:2023-11-19 16:05
本发明专利技术涉及人工智能技术领域,尤其涉及一种视频精彩片段识别方法及系统。视频精彩片段识别方法包括:获取各目标人物在待处理视频中出现的目标时间区间;遍历全部目标时间区间,将具有重合时间段,或者,时间间隔小于或等于预设的目标时间差容忍阈值的任两个目标时间区间,进行时间区间合并,得到多个重合时间区间,重合时间区间关联有至少一个目标人物;基于重合时间区间,进行视频目标片段识别。本方法能够有效提高视频目标片段识别的识别效率,降低人力成本和时间成本,且能够提高视频目标片段识别的精确度。片段识别的精确度。片段识别的精确度。

【技术实现步骤摘要】
视频目标片段识别方法及系统


[0001]本专利技术涉及人工智能
,尤其涉及一种视频目标片段识别方法及系统。

技术介绍

[0002]随着智能电视、智能投影仪和智能手机等智能终端的普及,影视类内容的推广渠道、推广方式和受众越来越多,影视类内容的制作技术水平也逐步提升。电视剧、电影、综艺等节目的精彩片段(片花)视频可以在较短时间内将内容的精彩部分呈现给用户,相较于海报等方式,能够有效提升与用户的共情效果,达到快速引流的目的。然而,目前的视频精彩片段识别,大多依赖人工处理的方式,处理效率较低、人力成本和时间成本较高。

技术实现思路

[0003]本专利技术提供一种视频目标片段识别方法及系统,用以解决现有技术中视频目标片段识别的识别效率较低、人力成本和时间成本较高的问题。
[0004]本专利技术提供一种视频目标片段识别方法,包括:
[0005]获取各目标人物在待处理视频中出现的目标时间区间;
[0006]遍历全部所述目标时间区间,将具有重合时间段,或者,时间间隔小于或等于预设的目标时间差容忍阈值的任两个所述目标时间区间,进行时间区间合并,得到多个重合时间区间,所述重合时间区间关联有至少一个所述目标人物;
[0007]基于所述重合时间区间,进行视频目标片段识别。
[0008]可选地,获取各目标人物在待处理视频中出现的目标时间区间的步骤包括:
[0009]对所述待处理视频进行图像抽帧,得到多张抽帧图像;
[0010]基于所述抽帧图像,进行人脸识别,得到人脸识别结果;
[0011]基于所述人脸识别结果和所述抽帧图像对应的时间点,得到所述目标人物在所述待处理视频中出现的至少一个第一时间区间,从而得到与所述目标人物一一对应的第一时间区间集,所述第一时间区间集包括至少一个所述第一时间区间;
[0012]对所述待处理视频的音频流进行音频切片,得到多个音频文件;
[0013]基于所述音频文件,进行声纹识别,得到声纹识别结果;
[0014]基于所述声纹识别结果、以及所述音频文件在所述待处理视频中的起始时间点和结束时间点,得到所述目标人物在所述待处理视频中出现的至少一个第二时间区间,从而得到与所述目标人物一一对应的第二时间区间集,所述第二时间区间集包括至少一个所述第二时间区间;
[0015]对每个所述目标人物对应的所述第一时间区间集和所述第二时间区间集,进行重合时间整合,得到所述目标时间区间。
[0016]可选地,基于所述抽帧图像,进行人脸识别,得到人脸识别结果的步骤包括:
[0017]按照每张所述抽帧图像在所述待处理视频中出现的时间顺序,依次对每张所述抽帧图像进行特征提取与人脸特征识别,得到所述抽帧图像中至少一人的图像人脸特征信
息;
[0018]将任一所述图像人脸特征信息与预设的每个所述目标人物的标准人脸特征信息进行特征匹配,得到所述人脸识别结果。
[0019]可选地,基于所述人脸识别结果和所述抽帧图像对应的时间点,得到所述目标人物在所述待处理视频中出现的至少一个第一时间区间,从而得到与所述目标人物一一对应的第一时间区间集的步骤包括:
[0020]在所述人脸识别结果为匹配成功的情况下,确定对应所述目标人物的一个所述第一时间区间,所述第一时间区间的开始时间和结束时间均为当前所述抽帧图像对应的时间点;
[0021]获取匹配成功的所述图像人脸特征信息对应的所述目标人物在剩余所述抽帧图像中再次出现的再现时间点;
[0022]在所述再现时间点与所述结束时间之间的差距小于或等于预设的图像时间差容忍阈值的情况下,将所述结束时间的数值更新为所述再现时间点,直至所述再现时间点与所述结束时间之间的差距大于所述图像时间差容忍阈值,得到更新完成的所述第一时间区间;
[0023]在所述再现时间点与所述结束时间之间的差距大于所述图像时间差容忍阈值的情况下,确定对应所述目标人物的下一个所述第一时间区间,下一个所述第一时间区间的开始时间和结束时间均为所述再现时间点;
[0024]在全部所述第一时间区间更新完成或无需更新的情况下,得到所述第一时间区间集。
[0025]可选地,基于所述音频文件,进行声纹识别,得到声纹识别结果的步骤包括:
[0026]按照每个所述音频文件在所述待处理视频中出现的时间顺序,依次对每个所述音频文件进行音频特征提取,得到所述音频文件中至少一人的音频特征数据;
[0027]将任一所述音频特征数据与预设的每个所述目标人物的标准音频特征进行特征匹配,以得到所述声纹识别结果。
[0028]可选地,基于所述声纹识别结果、以及所述音频文件在所述待处理视频中的起始时间点和结束时间点,得到所述目标人物在所述待处理视频中出现的至少一个第二时间区间,从而得到与所述目标人物一一对应的第二时间区间集的步骤包括:
[0029]在所述声纹识别结果为匹配成功的情况下,确定对应所述目标人物的一所述第二时间区间,所述第二时间区间的开始时间为当前所述音频文件在所述待处理视频中的起始时间点,所述第二时间区间的结束时间为当前所述音频文件在所述待处理视频中的结束时间点;
[0030]获取匹配成功的所述音频特征数据对应的所述目标人物在剩余所述音频文件中再次匹配成功的再现时间点;
[0031]在所述结束时间与所述再现时间点对应的音频文件的起始时间点之间的差距,小于或等于预设的音频时间差容忍阈值的情况下,将所述结束时间的数值更新为所述再现时间点对应的音频文件的结束时间点,直至所述结束时间与所述再现时间点对应的音频文件的起始时间点之间的差距大于所述图像时间差容忍阈值,得到更新完成的所述第二时间区间;
[0032]在所述结束时间与所述再现时间点对应的音频文件的起始时间点之间的差距,大于所述音频时间差容忍阈值的情况下,确定对应所述目标人物的下一个所述第二时间区间,下一个所述第二时间区间的开始时间为所述再现时间点对应的所述音频文件的起始时间点,下一个所述第二时间区间的结束时间为所述再现时间点对应的所述音频文件的结束时间点;
[0033]在全部所述第二时间区间更新完成或无需更新的情况下,得到所述第二时间区间集。
[0034]可选地,对每个所述目标人物对应的所述第一时间区间集和所述第二时间区间集,进行重合时间整合,得到所述目标时间区间的步骤包括:
[0035]对任一所述目标人物对应的所述第一时间区间和所述第二时间区间,按照每个时间区间的开始时间,进行时间区间升序排序,得到时间区间序列;
[0036]将所述时间区间序列的头部的时间区间,确定为目标时间区间;
[0037]在所述目标时间区间与所述时间区间序列中的下一时间区间存在时间重合,或者所述目标时间区间的结束时间与下一时间区间的开始时间之间的差距,小于或等于预设的整合时间差容忍阈值的情况下,将所述目标时间区间的结束时间更新为下一时间区间的结束时间,直至所述目标时间区间的结束时间与下一时间区间的开始时间之间的差距本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频目标片段识别方法,其特征在于,包括:获取各目标人物在待处理视频中出现的目标时间区间;遍历全部所述目标时间区间,将具有重合时间段,或者,时间间隔小于或等于预设的目标时间差容忍阈值的任两个所述目标时间区间,进行时间区间合并,得到多个重合时间区间,所述重合时间区间关联有至少一个所述目标人物;基于所述重合时间区间,进行视频目标片段识别。2.根据权利要求1所述的视频目标片段识别方法,其特征在于,获取各目标人物在待处理视频中出现的目标时间区间的步骤包括:对所述待处理视频进行图像抽帧,得到多张抽帧图像;基于所述抽帧图像,进行人脸识别,得到人脸识别结果;基于所述人脸识别结果和所述抽帧图像对应的时间点,得到所述目标人物在所述待处理视频中出现的至少一个第一时间区间,从而得到与所述目标人物一一对应的第一时间区间集,所述第一时间区间集包括至少一个所述第一时间区间;对所述待处理视频的音频流进行音频切片,得到多个音频文件;基于所述音频文件,进行声纹识别,得到声纹识别结果;基于所述声纹识别结果、以及所述音频文件在所述待处理视频中的起始时间点和结束时间点,得到所述目标人物在所述待处理视频中出现的至少一个第二时间区间,从而得到与所述目标人物一一对应的第二时间区间集,所述第二时间区间集包括至少一个所述第二时间区间;对每个所述目标人物对应的所述第一时间区间集和所述第二时间区间集,进行重合时间整合,得到所述目标时间区间。3.根据权利要求2所述的视频目标片段识别方法,其特征在于,基于所述抽帧图像,进行人脸识别,得到人脸识别结果的步骤包括:按照每张所述抽帧图像在所述待处理视频中出现的时间顺序,依次对每张所述抽帧图像进行特征提取与人脸特征识别,得到所述抽帧图像中至少一人的图像人脸特征信息;将任一所述图像人脸特征信息与预设的每个所述目标人物的标准人脸特征信息进行特征匹配,得到所述人脸识别结果。4.根据权利要求3所述的视频目标片段识别方法,其特征在于,基于所述人脸识别结果和所述抽帧图像对应的时间点,得到所述目标人物在所述待处理视频中出现的至少一个第一时间区间,从而得到与所述目标人物一一对应的第一时间区间集的步骤包括:在所述人脸识别结果为匹配成功的情况下,确定对应所述目标人物的一个所述第一时间区间,所述第一时间区间的开始时间和结束时间均为当前所述抽帧图像对应的时间点;获取匹配成功的所述图像人脸特征信息对应的所述目标人物在剩余所述抽帧图像中再次出现的再现时间点;在所述再现时间点与所述结束时间之间的差距小于或等于预设的图像时间差容忍阈值的情况下,将所述结束时间的数值更新为所述再现时间点,直至所述再现时间点与所述结束时间之间的差距大于所述图像时间差容忍阈值,得到更新完成的所述第一时间区间;在所述再现时间点与所述结束时间之间的差距大于所述图像时间差容忍阈值的情况下,确定对应所述目标人物的下一个所述第一时间区间,下一个所述第一时间区间的开始
时间和结束时间均为所述再现时间点;在全部所述第一时间区间更新完成或无需更新的情况下,得到所述第一时间区间集。5.根据权利要求2所述的视频目标片段识别方法,其特征在于,基于所述音频文件,进行声纹识别,得到声纹识别结果的步骤包括:按照每个所述音频文件在所述待处理视频中出现的时间顺序,依次对每个所述音频文件进行音频特征提取,得到所述音频文件中至少一人的音频特征数据;将任一所述音频特征数据与预设的每个所述目标人物的标准音频特征进行特征匹配,以得到所述声纹识别结果。6.根据权利要求5所述的视频目标片段识别方法,其特征在于,基于所述声纹识别结果、以及所述音频文件在所述待处理视频中的起始时间点和结束时间点,得到所述目标人物在所述待处理视频中出现的至少一个第二时间区间,从而得到与所述目标人物一一对应的第二时间区间集的步骤包括:在所述声纹识别结果为匹配成功的情况下,确定对应所述目标人物的一所述第二时间区间,所述第二时间区间的开始时间为当前所述音频文件在所述待处理视频中的起始时间点...

【专利技术属性】
技术研发人员:朱群陈凯高甲阮泽凯王庆龙
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1