基于空间时序特征的视频自然语言文本检索方法技术

技术编号：31019283 阅读：18 留言：0更新日期：2021-11-30 03:05

一种基于空间时序特征的视频文本检索方法，利用三种不同类型的神经网络对视频的空间时序语义信息进行了层次化细粒度全面的视频统一表征，构建视频文本公共语义嵌入网络拟合跨模态数据的语义鸿沟并利用对比排序损失函数训练网络。本发明专利技术可用于视频自然语言文本相互检索，分层的特征提取方法充分挖掘了视频模态数据更具判别性的复杂时空语义信息，视频文本公共语义嵌入网络有效地学习不同模态异构数据语义特征同分布的公共空间特征表示，公共空间特征表示准确衡量了视频和自然语言文本高阶特征间的语义关联，提高了视频自然语言文本检索的精度。本检索的精度。本检索的精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于空间时序特征的视频自然语言文本检索方法

[0001]本专利技术属于物理
，更进一步涉及图像与数据处理
中的一种基于空间时序特征的视频自然语言文本检索方法。本专利技术可用于互联网和社交媒体涌现的大规模视频模态和自然语言文本模态数据的语义信息互检索、视频主题检测和视频应用的内容推荐。

技术介绍

[0002]用户生成的视频在互联网上的大量涌现，增加了对基于自然语言文本描述的视频检索系统的需求，用户对检索准确度的要求也为视频内容的精确检索带来了前所未有的挑战。传统方法主要是支持简单自然语言文本查询的基于概念的检索，这对于具有复杂语义的复杂长自然语言文本查询无效。近年来，兴起了基于嵌入的检索方法，将视频和自然语言文本模态映射到联合视觉语义共享空间以计算跨模态语义相似度作为检索工作的依托。但是简单的嵌入不足以表示复杂的、细粒度的、时空性的视觉自然语言文本语义，例如复杂的场景、多元的空间对象及带有时序信息的动作信息，导致视频自然语言文本检索精度无法提升，检索效果不足以满足需求。所以能更加细粒度地对视频模态和自然语言文本模态数据的空间时序信息建模，并在不同粒度将视频特征和自然语言文本特征进行多层级匹配以提高检索精度是该领域研究的关键。
[0003]北京航空航天大学在其在其申请的专利文献“一种基于内容的视频检索方法及装置”(专利申请号：2016109784348，申请公布号：CN 106570165 A)中提出了一种基于内容的视频检索方法。该方法使用任一目标关键帧编码对由关键帧编码构成的多个哈希表进行检索，确定...

【技术保护点】

【技术特征摘要】
1.一种基于空间时序特征的视频文本检索方法，其特征在于，利用三种神经网络分别提取视频样本三层级的空间时序特征，构建视频文本公共语义嵌入网络拟合跨模态数据的语义鸿沟并利用对比排序损失函数训练网络；该方法的具体步骤包括如下：步骤1，生成样本集：选取至少6000个待检索的多类别动态行为视频及与其对应的自然语言文本注释组成样本集，每个视频中含有人工标注的自然语言文本注释至少20条，自然语言文本字数不超过30字，生成至少120000对视频自然语言文本对；步骤2，利用三种神经网络分别提取视频样本三层级的空间时序特征：(2a)将样本集中的视频输入到训练好的深度残差神经网络ResNet
‑
152中，提取每个视频中每帧图像的特征，将每个视频中所有帧的图像特征进行平均池化，将输出的视频2048维的帧级特征作为视频第一层级特征；(2b)使用训练好的3D卷积神经网络I3D提取样本集每个视频沿时序的动态行为特征，将输出的视频1024维的时序特征作为视频第二层级特征；(2c)每隔2秒从样本集的每个视频中抽取一帧图像，将该视频抽取的所有帧图像输入到训练好的Fast
‑
RCNN网络中，输出该视频F
a
*M
ab
*2048维的高维显著特征，其中，F
a
表示第a个视频抽取的帧的总数，M
ab
表示第a个视频抽取的第b帧提取的显著区域的总数，每帧提取的显著区域的总数相同；(2d)使用全局自适应池化方法AdaptiveAvgPool2d沿帧流动的方向处理每个视频的高维显著特征，将输出的视频降维后保留显著区域及其位置信息的t*2048维空间对象特征作为视频第三层级特征，t为设置的保留显著区域的总数，默认设置为6；步骤3，构建语义角色树提取自然语言文本样本三层级的特征：(3a)将样本集中的所有自然语言文本输入到双向长短期记忆网络Bi
‑
LSTM中，每个单词输出为512维的单词嵌入特征，将自然语言文本所有单词的嵌入特征级联，得到N
c
*512维自然语言文本上下文感知的嵌入特征，其中，N
c
表示第c个自然语言文本中单词的总数；(3b)利用注意力公式，计算每个自然语言文本的显著事件特征；(3c)使用开源的语义角色解析工具，按自然语言文本单词的顺序，标注样本集中每个自然语言文本的所有单词的语义角色和语义关系；(3d)将每个自然语言文本的语义角色为动词的单词和语义角色为名词的单词，分别输入到两个训练好的双向长短期记忆网络Bi
‑
LSTM中，两个网络分别输出该自然语言文本V
s
*300维的动词序列特征和E
s
*300维对象序列特征，其中，V
s
表示第s个自然语言文本中语义角色为动词的单词的总数，E
s
表示第s个自然语言文本中语义角色为名词的单词的总数；(3e)构建每个自然语言文本的语义角色树，其根节点表示自然语言文本的显著事件特征，与根节点相连的第二层动作节点表示自然语言文本的动词序列特征，与动作节点相连的树结构末端的实体结点表示自然语言文本的对象序列特征；(3f)利用训练好的图卷积神经网络GCN，提取语义角色树根节点1024维的自然语言文本全局特征作为自然语言文本第一层级特征，提取语义角色树动作节点V
s
*1024维的自然语言文本动作时序特征作为自然语言文本第二层级特征，提取语义角色树实体节点E
s
*1024维的自然语言文本实体特征作为自然语言文本第三层级特征；步骤4，构建视频文本公共语义嵌入网络：
(4a)搭建一个由卷积层、池化层、第一全连接层和第二全连接层的视频文本公共语义嵌入网络；(4b)将卷积层的卷积核大小设置为2
×
2，个数设置为2048，步长设置为1，池化层采用最大池化方式，池化层的卷积池化核大小设置的为2
×
2，步长设置...

【专利技术属性】
技术研发人员：王笛，田玉敏，罗雪梅，丁子芮，万波，王义峰，赵辉，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人