一种对象识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29759357 阅读:20 留言:0更新日期:2021-08-20 21:12
本发明专利技术涉及一种对象识别方法、装置、电子设备及存储介质,其中,对象识别方法包括:接收针对当前播放的目标视频中对象的识别请求;在所述识别请求中提取所述目标视频的视频标识及当前播放时刻;获取与所述视频标识对应的对象库,所述对象库中包含对所述目标视频的多个视频帧中对象的识别结果,所述识别结果是对所述目标视频中对象的聚类结果进行识别得到的;在所述对象库中,基于所述当前播放时刻获取至少一个相应时间戳所对应的视频帧中对象的识别结果,并返回所述识别结果。本发明专利技术实施例能够实现即使画面中的待识别对象呈现侧脸、背影、失焦或者遮挡等不易于识别的情况,也能够识别出视频帧中的对象,提高对象识别的成功率。

【技术实现步骤摘要】
一种对象识别方法、装置、电子设备及存储介质
本申请涉及计算机
,尤其涉及一种对象识别方法、装置、电子设备及存储介质。
技术介绍
随着互联网的发展,用户经常通过视频APP观看喜爱的视频,对于视频中出现的陌生的角色、演员或者台词等,用户需要自主去网上查询搜索相关内容,非常不方便。为了满足用户在观影过程中对角色、演员或者台词等的识别需求,视频APP提供了自动识别功能,使得用户在观看视频时,点击即可识别视频中内容。然而,目前对于视频内容的识别主要基于视频中的信息分析来实现,但是画面中的待识别对象呈现侧脸、背影、失焦或者遮挡,导致识别成功率低。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种对象识别方法、装置、电子设备及存储介质。第一方面,本申请提供了一种对象识别方法,包括:接收针对当前播放的目标视频中对象的识别请求;在所述识别请求中提取所述目标视频的视频标识及当前播放时刻;获取与所述视频标识对应的对象库,所述对象库中包含对所述目标视频的多个视频帧中对象的识别结果,所述识别结果是对所述目标视频中对象的聚类结果进行识别得到的,每个视频帧具有对应的时间戳;在所述对象库中,基于所述当前播放时刻获取至少一个相应时间戳对应的视频帧中对象的识别结果,并返回所述识别结果,以展示所述识别结果。可选地,在接收针对当前播放的目标视频中对象的识别请求之前,所述方法还包括:按照预设采样率在所述目标视频中提取多个视频帧;对所述目标视频中的多个视频帧进行对象检测,得到每个视频帧中的对象图像;对多个对象图像中的对象进行聚类,得到聚类结果,所述聚类结果对应一个或多个对象图像;基于预设对象识别库,对所述聚类结果进行识别,得到每个聚类结果对应的识别结果;根据每个聚类结果对应的对象图像以及对象图像所属的视频帧,确定每个聚类结果对应的视频帧;根据每个聚类结果对应的识别结果,确定每个视频帧中对象对应的识别结果;基于每个视频帧中对象对应的识别结果,构建所述对象库。可选地,在所述对象库中,基于所述当前播放时刻获取至少一个相应时间戳所对应的视频帧中对象的识别结果,包括:基于所述当前播放时刻确定查询时间段;在所述对象库中,确定至少一个时间戳位于所述查询时间段内的目标视频帧;对至少一个所述目标视频帧中同一对象的重复的识别结果进行合并;将合并后不重复的识别结果确定为所述当前播放时刻相应视频帧中对象的识别结果。可选地,所述方法还包括:获取所述目标视频的多个视频帧中的对象图像,所述对象图像是对各视频帧中的对象进行对象检测得到的;对多个视频帧中的对象进行图像质量评估,得到各所述视频帧中对象图像的质量分数;在基于所述当前播放时刻获取的至少一个相应时间戳所对应的视频帧中,针对每个对象,确定质量分数最高的对象图像所在的视频帧;返回所述质量分数最高的对象图像所在的视频帧对应的展示信息,以使与所述识别结果共同展示。可选地,所述方法还包括:获取所述质量分数最高的对象图像所在的视频帧的帧标识;所述返回所述质量分数最高的对象图像所在的视频帧对应的展示信息,以使与所述识别结果共同展示,包括:返回与所述识别结果对应的所述帧标识,以根据展示的识别结果,相应的展示与所述帧标识对应的视频帧。可选地,所述方法还包括:对所述目标视频的多个视频帧中的对象图像进行定位,确定各所述对象图像在对应视频帧中的图像位置;针对每个对象,获取质量分数最高的对象图像所在的视频帧中对象图像的图像位置;返回与所述识别结果对应的所述图像位置,以根据展示的识别结果,相应的在展示的视频帧中标记所述图像位置。可选地,获取质量分数最高的对象图像所在的视频帧的帧标识,包括:在基于所述当前播放时刻获取的至少一个相应时间戳所对应的视频帧中,确定获取的至少一个相应时间戳所对应的视频帧中是否包含至少两个对象的对象图像;若获取的至少一个相应时间戳所对应的视频帧中包含至少两个对象的对象图像,确定每个对象的质量分数最高的对象图像是否位于同一视频帧中;若每个对象的质量分数最高的对象图像位于同一视频帧中,获取该视频帧的帧标识。可选地,还包括:若每个对象的质量分数最高的对象图像位于不同视频帧中,获取每个对象的质量分数最高的对象图像所在的视频帧的帧标识,以根据展示的识别结果,相应的展示与所述帧标识对应的视频帧。可选地,所述在基于所述当前播放时刻获取的至少一个相应时间戳所对应的视频帧中,针对每个对象,确定质量分数最高的对象图像所在的视频帧,包括:获取所述目标视频中包含的镜头所对应的镜头信息,所述镜头信息包括所述镜头的镜头时间范围;在基于所述当前播放时刻获取的至少一个相应时间戳所对应的视频帧中,针对每个对象,确定所述对象对应的镜头时间范围;在时间戳位于所述镜头时间范围内视频帧中,确定质量分数最高的对象图像所在的视频帧。可选地,所述方法还包括:获取质量分数最高的对象图像所在的视频帧中对象的头像图像;所述返回所述质量分数最高的对象图像所在的视频帧对应的展示信息,以使与所述识别结果共同展示,包括:返回所述头像图像,以用于根据展示的识别结果,相应的展示对象的头像图像。第二方面,本申请提供了一种对象识别装置,包括:接收模块,用于接收针对当前播放的目标视频中对象的识别请求;提取模块,用于在所述识别请求中提取所述目标视频的视频标识及当前播放时刻;第一获取模块,用于获取与所述视频标识对应的对象库,所述对象库中包含对所述目标视频的多个视频帧中对象的识别结果,所述识别结果是对所述目标视频中对象的聚类结果进行识别得到的,每个视频帧具有对应的时间戳;第二获取模块,用于在所述对象库中,基于所述当前播放时刻获取至少一个相应时间戳对应的视频帧中对象的识别结果,并返回所述识别结果,以展示所述识别结果。可选地,在接收模块之前,所述装置还包括:提取模块,用于按照预设采样率在所述目标视频中提取多个视频帧;检测模块,用于对所述目标视频中的多个视频帧进行对象检测,得到每个视频帧中的对象图像;聚类模块,用于对多个对象图像中的对象进行聚类,得到聚类结果,所述聚类结果对应一个或多个对象图像;第一识别模块,用于基于预设对象识别库,对所述聚类结果进行识别,得到每个聚类结果对应的识别结果;第一确定模块,用于根据每个聚类结果对应的对象图像以及对象图像所属的视频帧,确定每个聚类结果对应的视频帧;第二确定模块,用于根据每个聚类结果对应的识别结果,确定每个视频帧中对象对应的识别结果;构建模块,用于基于每个视频帧中对象对应的识别结果,构建所述对象库。可选地,第二获取模块,包括:第一确定单元,用于基于所述当前播放时刻确定查本文档来自技高网...

【技术保护点】
1.一种对象识别方法,其特征在于,包括:/n接收针对当前播放的目标视频中对象的识别请求;/n在所述识别请求中提取所述目标视频的视频标识及当前播放时刻;/n获取与所述视频标识对应的对象库,所述对象库中包含对所述目标视频的多个视频帧中对象的识别结果,所述识别结果是对所述目标视频中对象的聚类结果进行识别得到的,每个视频帧具有对应的时间戳;/n在所述对象库中,基于所述当前播放时刻获取至少一个相应时间戳所对应的视频帧中对象的识别结果,并返回所述识别结果,以展示所述识别结果。/n

【技术特征摘要】
1.一种对象识别方法,其特征在于,包括:
接收针对当前播放的目标视频中对象的识别请求;
在所述识别请求中提取所述目标视频的视频标识及当前播放时刻;
获取与所述视频标识对应的对象库,所述对象库中包含对所述目标视频的多个视频帧中对象的识别结果,所述识别结果是对所述目标视频中对象的聚类结果进行识别得到的,每个视频帧具有对应的时间戳;
在所述对象库中,基于所述当前播放时刻获取至少一个相应时间戳所对应的视频帧中对象的识别结果,并返回所述识别结果,以展示所述识别结果。


2.根据权利要求1所述的对象识别方法,其特征在于,在所述接收针对当前播放的目标视频中对象的识别请求之前,所述方法还包括:
按照预设采样率在所述目标视频中提取多个视频帧;
对所述目标视频中的多个视频帧进行对象检测,得到每个视频帧中的对象图像;
对多个对象图像中的对象进行聚类,得到聚类结果,所述聚类结果对应一个或多个对象图像;
基于预设对象识别库,对所述聚类结果进行识别,得到每个聚类结果对应的识别结果;
根据每个聚类结果对应的对象图像以及对象图像所属的视频帧,确定每个聚类结果对应的视频帧;
根据每个聚类结果对应的识别结果,确定每个视频帧中对象对应的识别结果;
基于每个视频帧中对象对应的识别结果,构建所述对象库。


3.根据权利要求1所述的对象识别方法,其特征在于,所述在所述对象库中,基于所述当前播放时刻获取至少一个相应时间戳所对应的视频帧中对象的识别结果,包括:
基于所述当前播放时刻确定查询时间段;
在所述对象库中,确定至少一个时间戳位于所述查询时间段内的目标视频帧;
对至少一个所述目标视频帧中同一对象的重复的识别结果进行合并;
将合并后不重复的识别结果确定为所述当前播放时刻相应视频帧中对象的识别结果。


4.根据权利要求1所述的对象识别方法,其特征在于,所述方法还包括:
获取所述目标视频的多个视频帧中的对象图像,所述对象图像是对各视频帧中的对象进行对象检测得到的;
对多个视频帧中的对象进行图像质量评估,得到各所述视频帧中对象图像的质量分数;
在基于所述当前播放时刻获取的至少一个相应时间戳所对应的视频帧中,针对每个对象,确定质量分数最高的对象图像所在的视频帧;
返回所述质量分数最高的对象图像所在的视频帧对应的展示信息,以使与所述识别结果共同展示。


5.根据权利要求4所述的对象识别方法,其特征在于,所述方法还包括:
获取所述质量分数最高的对象图像所在的视频帧的帧标识;
所述返回所述质量分数最高的对象图像所在的视频帧对应的展示信息,以使与所述识别结果共同展示,包括:
返回与所述识别结果对应的所述帧标识,以根据展示的识别结果,相应的展示与所述帧标识对应的视频帧。


6.根据权利要求4所述的对象识别方法,其特征在于,所述方法还包括:
对所述目标视频的多个视频帧中的对象图像进行定位,确定各所述对象图像在对应视频帧中的图像位置;
针对每个对象,获取质量分数最高的对象图像所在的视频帧中对象图像的图像位置;
返回与所...

【专利技术属性】
技术研发人员:王视鎏
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1