【技术实现步骤摘要】
一种视频识别方法、装置及计算机可读存储介质
本公开涉及计算机
,尤其涉及一种视频识别方法、装置及计算机可读存储介质。
技术介绍
随着移动终端的普及和网络的提速,网络平台上发布的内容从之前单一的文字、图片、音频等,慢慢地趋于融合,形成在互联网媒体上传播的时长在5分钟以内的短视频,短视频的出现更加适合用户在移动状态和短时休闲状态下观看。目前,短视频的覆盖范围急速扩张,影响力越来越大,每日有几千万的视频上传和几亿用户去观看视频,为了用户更好的观看体验,网络平台一般会根据用户的历史搜索记录或者关注的主播类型去推送视频内容,网络平台在向用户推荐视频时,可以基于视频内容向用户进行推荐。相关技术中,在对视频内容进行识别时,可以根据待识别视频的视频标签对视频内容进行识别,而视频标签是用户通过客户端发布短视频时自定义的,并不能反映视频真实内容。目前对视频内容进行识别的方式准确率较低且识别效率较低。
技术实现思路
本公开提供一种视频识别方法、装置及计算机可读存储介质,用以提高对待识别视频的视频内容进行识别的准确性及识别效率。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种视频识别方法,包括:获取待识别视频中的参考图像,以及与所述参考图像对应的文本信息;对所述参考图像进行目标检测,获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量,并将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征;其中,所述预设的相对位置信息用于表示所述图像特征向量中各个 ...
【技术保护点】
1.一种视频识别方法,其特征在于,包括:/n获取待识别视频中的参考图像,以及与所述参考图像对应的文本信息;/n对所述参考图像进行目标检测,获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量,并将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征;其中,所述预设的相对位置信息用于表示所述图像特征向量中各个特征值在所述参考图像中的相对位置;以及/n对所述文本信息进行特征提取,得到所述文本信息对应的文本特征;/n将所述融合图像特征与所述文本特征进行融合处理,得到用于识别所述待识别视频的视频内容的语义信息。/n
【技术特征摘要】
1.一种视频识别方法,其特征在于,包括:
获取待识别视频中的参考图像,以及与所述参考图像对应的文本信息;
对所述参考图像进行目标检测,获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量,并将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征;其中,所述预设的相对位置信息用于表示所述图像特征向量中各个特征值在所述参考图像中的相对位置;以及
对所述文本信息进行特征提取,得到所述文本信息对应的文本特征;
将所述融合图像特征与所述文本特征进行融合处理,得到用于识别所述待识别视频的视频内容的语义信息。
2.根据权利要求1所述的视频识别方法,其特征在于,所述对所述参考图像进行目标检测,获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量,包括:
对所述参考图像进行目标检测,识别所述参考图像中所述目标对象所在的区域;
根据所述参考图像中所述目标对象所在区域的像素值,对所述目标对象所在区域进行图像特征提取,得到多个用于表示所述参考图像中目标对象所在区域像素特征的特征值;
根据得到的多个所述特征值生成所述图像特征向量。
3.根据权利要求1或2所述的视频识别方法,其特征在于,所述将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征,包括:
将所述图像特征向量与预设的相对位置信息进行映射得到第一嵌入向量;
根据注意力权重参数,对所述第一嵌入向量中的各个元素进行融合处理得到所述融合图像特征。
4.根据权利要求1所述的视频识别方法,其特征在于,所述对所述文本信息进行特征提取,得到所述文本信息对应的文本特征,包括:
提取所述文本信息中的字向量和/或词向量;
将提取出的所述字向量和/或词向量进行映射得到第二嵌入向量;
根据注意力权重参数,对所述第二嵌入向量中的各个元素进行融合处理得到所述文本特征。
5.根据权利要求1所述的视频识别方法,其特征在于,所述将所述融合图像特征与所述文本特征进行融合处理,得到用于识别所述待识别视频的视频内容的语义信息,包括:
将所述融合图像特征与所述文本特征分别进行嵌入处...
【专利技术属性】
技术研发人员:刘鹏,陈益如,丁文奎,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。