一种视频识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号:27879774 阅读:11 留言:0更新日期:2021-03-31 01:12
本公开关于一种视频识别方法、装置及计算机可读存储介质。本公开实施例获取待识别视频中的参考图像,以及与参考图像对应的文本信息;对参考图像进行目标检测,获取用于表示参考图像中目标对象所在区域像素特征的图像特征向量,并将图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征;以及对文本信息进行特征提取,得到文本信息对应的文本特征,并将融合图像特征与文本特征进行融合处理,得到用于识别待识别视频的视频内容的语义信息。由于本公开实施例获取图像特征向量之后,可以直接与预设的相对位置信息进行融合处理得到融合图像特征,提高了对视频内容进行识别的效率以及准确性。

【技术实现步骤摘要】
一种视频识别方法、装置及计算机可读存储介质
本公开涉及计算机
,尤其涉及一种视频识别方法、装置及计算机可读存储介质。
技术介绍
随着移动终端的普及和网络的提速,网络平台上发布的内容从之前单一的文字、图片、音频等,慢慢地趋于融合,形成在互联网媒体上传播的时长在5分钟以内的短视频,短视频的出现更加适合用户在移动状态和短时休闲状态下观看。目前,短视频的覆盖范围急速扩张,影响力越来越大,每日有几千万的视频上传和几亿用户去观看视频,为了用户更好的观看体验,网络平台一般会根据用户的历史搜索记录或者关注的主播类型去推送视频内容,网络平台在向用户推荐视频时,可以基于视频内容向用户进行推荐。相关技术中,在对视频内容进行识别时,可以根据待识别视频的视频标签对视频内容进行识别,而视频标签是用户通过客户端发布短视频时自定义的,并不能反映视频真实内容。目前对视频内容进行识别的方式准确率较低且识别效率较低。
技术实现思路
本公开提供一种视频识别方法、装置及计算机可读存储介质,用以提高对待识别视频的视频内容进行识别的准确性及识别效率。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种视频识别方法,包括:获取待识别视频中的参考图像,以及与所述参考图像对应的文本信息;对所述参考图像进行目标检测,获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量,并将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征;其中,所述预设的相对位置信息用于表示所述图像特征向量中各个特征值在所述参考图像中的相对位置;以及对所述文本信息进行特征提取,得到所述文本信息对应的文本特征;将融合图像特征与所述文本特征进行融合处理,得到用于识别所述待识别视频的视频内容的语义信息。一种可选的实施方式为,所述对所述参考图像进行目标检测,获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量,包括:对所述参考图像进行目标检测,识别所述参考图像中所述目标对象所在的区域;根据所述参考图像中所述目标对象所在区域的像素值,对所述目标对象所在区域进行图像特征提取,得到多个用于表示所述参考图像中目标对象所在区域像素特征的特征值;根据得到的多个所述特征值生成所述图像特征向量。一种可选的实施方式为,所述将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征,包括:将所述图像特征向量与预设的相对位置信息进行映射得到第一嵌入向量;根据注意力权重参数,对所述第一嵌入向量中的各个元素进行融合处理得到所述融合图像特征。一种可选的实施方式为,所述对所述文本信息进行特征提取,得到所述文本信息对应的文本特征,包括:提取所述文本信息中的字向量和/或词向量;将提取出的所述字向量和/或词向量进行映射得到第二嵌入向量;根据注意力权重参数,对所述第二嵌入向量中的各个元素进行融合处理得到所述文本特征。一种可选的实施方式为,所述将所述融合图像特征与所述文本特征进行融合处理,得到用于识别所述待识别视频的视频内容的语义信息,包括:将所述融合图像特征与所述文本特征分别进行嵌入处理,分别得到第三嵌入向量和第四嵌入向量;基于第一注意力机制模块,根据所述第一注意力机制模块对应的注意力权重参数,将所述第三嵌入向量中的各个元素进行融合处理得到中间融合图像特征;以及,基于第二注意力机制模块,根据所述第二注意力机制模块对应的注意力权重参数,将所述第四嵌入向量中的各个元素进行融合处理得到中间文本特征;将所述中间融合图像特征中的部分特征与所述中间文本特征中的部分特征进行融合处理,得到所述语义信息。一种可选的实施方式为,所述获取待识别视频中的参考图像,包括:将所述待识别视频的封面图像作为所述参考图像;或根据预设的时间间隔,从所述待识别视频中提取出至少一帧图像作为所述参考图像。根据本公开实施例的第二方面,提供一种视频识别装置,包括:获取单元,被配置为获取待识别视频中的参考图像,以及与所述参考图像对应的文本信息;检测单元,被配置为对所述参考图像进行目标检测,获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量,并将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征;其中,所述预设的相对位置信息用于表示所述图像特征向量中各个特征值在所述参考图像中的相对位置;提取单元,被配置为对所述文本信息进行特征提取,得到所述文本信息对应的文本特征;处理单元,被配置为将所述融合图像特征与所述文本特征进行融合处理,得到用于识别所述待识别视频的视频内容的语义信息。一种可选的实施方式为,所述检测单元被配置为执行:对所述参考图像进行目标检测,识别所述参考图像中所述目标对象所在的区域;根据所述参考图像中所述目标对象所在区域的像素值,对所述目标对象所在区域进行图像特征提取,得到多个用于表示所述参考图像中目标对象所在区域像素特征的特征值;根据得到的多个所述特征值生成所述图像特征向量。一种可选的实施方式为,所述检测单元还被配置为执行:将所述图像特征向量与预设的相对位置信息进行映射得到第一嵌入向量;根据注意力权重参数,对所述第一嵌入向量中的各个元素进行融合处理得到所述融合图像特征。一种可选的实施方式为,所述提取单元被配置为执行:提取所述文本信息中的字向量和/或词向量;将提取出的所述字向量和/或词向量进行映射得到第二嵌入向量;根据注意力权重参数,对所述第二嵌入向量中的各个元素进行融合处理得到所述文本特征。一种可选的实施方式为,所述处理单元被配置为执行:将所述融合图像特征与所述文本特征分别进行嵌入处理,分别得到第三嵌入向量和第四嵌入向量;基于第一注意力机制模块,根据所述第一注意力机制模块对应的注意力权重参数,将所述第三嵌入向量中的各个元素进行融合处理得到中间融合图像特征;以及,基于第二注意力机制模块,根据所述第二注意力机制模块对应的注意力权重参数,将所述第四嵌入向量中的各个元素进行融合处理得到中间文本特征;将所述中间融合图像特征中的部分特征与所述中间文本特征中的部分特征进行融合处理,得到所述语义信息。一种可选的实施方式为,所述获取单元被配置为执行:将所述待识别视频的封面图像作为所述参考图像;或根据预设的时间间隔,从所述待识别视频中提取出至少一帧图像作为所述参考图像。根据本公开实施例的第三方面,提供一种视频识别装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的视频识别方法。根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述存储介质中的指令由视频识别装置的处理器执行时,使得视频识别装置能够执行如第一方面所述的视频识别方法。根据本公开实施例的本文档来自技高网...

【技术保护点】
1.一种视频识别方法,其特征在于,包括:/n获取待识别视频中的参考图像,以及与所述参考图像对应的文本信息;/n对所述参考图像进行目标检测,获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量,并将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征;其中,所述预设的相对位置信息用于表示所述图像特征向量中各个特征值在所述参考图像中的相对位置;以及/n对所述文本信息进行特征提取,得到所述文本信息对应的文本特征;/n将所述融合图像特征与所述文本特征进行融合处理,得到用于识别所述待识别视频的视频内容的语义信息。/n

【技术特征摘要】
1.一种视频识别方法,其特征在于,包括:
获取待识别视频中的参考图像,以及与所述参考图像对应的文本信息;
对所述参考图像进行目标检测,获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量,并将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征;其中,所述预设的相对位置信息用于表示所述图像特征向量中各个特征值在所述参考图像中的相对位置;以及
对所述文本信息进行特征提取,得到所述文本信息对应的文本特征;
将所述融合图像特征与所述文本特征进行融合处理,得到用于识别所述待识别视频的视频内容的语义信息。


2.根据权利要求1所述的视频识别方法,其特征在于,所述对所述参考图像进行目标检测,获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量,包括:
对所述参考图像进行目标检测,识别所述参考图像中所述目标对象所在的区域;
根据所述参考图像中所述目标对象所在区域的像素值,对所述目标对象所在区域进行图像特征提取,得到多个用于表示所述参考图像中目标对象所在区域像素特征的特征值;
根据得到的多个所述特征值生成所述图像特征向量。


3.根据权利要求1或2所述的视频识别方法,其特征在于,所述将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征,包括:
将所述图像特征向量与预设的相对位置信息进行映射得到第一嵌入向量;
根据注意力权重参数,对所述第一嵌入向量中的各个元素进行融合处理得到所述融合图像特征。


4.根据权利要求1所述的视频识别方法,其特征在于,所述对所述文本信息进行特征提取,得到所述文本信息对应的文本特征,包括:
提取所述文本信息中的字向量和/或词向量;
将提取出的所述字向量和/或词向量进行映射得到第二嵌入向量;
根据注意力权重参数,对所述第二嵌入向量中的各个元素进行融合处理得到所述文本特征。


5.根据权利要求1所述的视频识别方法,其特征在于,所述将所述融合图像特征与所述文本特征进行融合处理,得到用于识别所述待识别视频的视频内容的语义信息,包括:
将所述融合图像特征与所述文本特征分别进行嵌入处...

【专利技术属性】
技术研发人员:刘鹏陈益如丁文奎
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1