基于空间时序特征的视频自然语言文本检索方法技术

技术编号:31019283 阅读:18 留言:0更新日期:2021-11-30 03:05
一种基于空间时序特征的视频文本检索方法,利用三种不同类型的神经网络对视频的空间时序语义信息进行了层次化细粒度全面的视频统一表征,构建视频文本公共语义嵌入网络拟合跨模态数据的语义鸿沟并利用对比排序损失函数训练网络。本发明专利技术可用于视频自然语言文本相互检索,分层的特征提取方法充分挖掘了视频模态数据更具判别性的复杂时空语义信息,视频文本公共语义嵌入网络有效地学习不同模态异构数据语义特征同分布的公共空间特征表示,公共空间特征表示准确衡量了视频和自然语言文本高阶特征间的语义关联,提高了视频自然语言文本检索的精度。本检索的精度。本检索的精度。

【技术实现步骤摘要】
基于空间时序特征的视频自然语言文本检索方法


[0001]本专利技术属于物理
,更进一步涉及图像与数据处理
中的一种基于空间时序特征的视频自然语言文本检索方法。本专利技术可用于互联网和社交媒体涌现的大规模视频模态和自然语言文本模态数据的语义信息互检索、视频主题检测和视频应用的内容推荐。

技术介绍

[0002]用户生成的视频在互联网上的大量涌现,增加了对基于自然语言文本描述的视频检索系统的需求,用户对检索准确度的要求也为视频内容的精确检索带来了前所未有的挑战。传统方法主要是支持简单自然语言文本查询的基于概念的检索,这对于具有复杂语义的复杂长自然语言文本查询无效。近年来,兴起了基于嵌入的检索方法,将视频和自然语言文本模态映射到联合视觉语义共享空间以计算跨模态语义相似度作为检索工作的依托。但是简单的嵌入不足以表示复杂的、细粒度的、时空性的视觉自然语言文本语义,例如复杂的场景、多元的空间对象及带有时序信息的动作信息,导致视频自然语言文本检索精度无法提升,检索效果不足以满足需求。所以能更加细粒度地对视频模态和自然语言文本模态数据的空间时序信息建模,并在不同粒度将视频特征和自然语言文本特征进行多层级匹配以提高检索精度是该领域研究的关键。
[0003]北京航空航天大学在其在其申请的专利文献“一种基于内容的视频检索方法及装置”(专利申请号:2016109784348,申请公布号:CN 106570165 A)中提出了一种基于内容的视频检索方法。该方法使用任一目标关键帧编码对由关键帧编码构成的多个哈希表进行检索,确定与任一目标关键帧编码匹配的关键帧编码;计算任一目标关键帧编码与每个匹配关键帧编码之间的相似度分值;基于关键帧的时序信息,根据每个目标关键帧编码与每个匹配关键帧编码之间的相似度分值,计算目标视频与每个匹配视频之间的整体相似度分值;将大于自适应得分阈值的整体相似度分值对应的匹配视频作为检索结果。该方法存在的不足之处是:不同模态数据语义特征存在异质性底层流形结构分布不同的语义鸿沟,通过简单编码无法实现跨模态数据的全面统一表征,影响视频自然语言文本检索精度。
[0004]复旦大学在其在其申请的专利文献“一种用于多段视频跨模态检索的方法”(专利申请号:201910453196.2,申请公布号:CN 110175266 A)中提出了一种基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法。该方法针对长自然语言文本跨模态检索复杂视频任务设计了双边自注意力方法以提取视频中与检索自然语言文本相关的特征,具体是使用带有自注意力机制的跨模态检模型初选出一小部分相关的视频片段,再根据同模态和跨模态相似度进一步精选视频片段,最后用语义排序网络将视频片段序列与自然语言文本句子序列对齐。该方法存在的不足之处是:视频和自然语言文本属于不同模态的数据,数据的异质性使得简单通过单独的深度神经网络进行单一特征提取难以准确表达视频与自然语言文本复杂的时空性语义特征,进而难以衡量视频和自然语言文本的高阶特征间相似性,影响检索准确率。
[0005]Zhang B,Hu H,Fei S等人在其发表的论文“Cross

modal and hierarchical modeling of video and text”(European Conference on Computer Vision,2018:374

390)中提出了一种基于层次化建模的视频自然语言文本检索方法。该方法对视频和自然语言文本进行层次化建模,将自然语言文本段落视为自然语言文本句的集合,将视频视为视频片段的集合,忽略视频片段和自然语言文本句的边界,将其视为一序列连续流动的视频帧和单词,分别进行全局高层级(自然语言文本段落和视频)和局部底层级(自然语言文本句和视频片段)的编码和对齐,并在两个层级进行相似度计算。该方法存在的不足之处是:只是简单地在媒体级对视频和自然语言文本分层建模,难以准确建模视频帧和自然语言文本单词的时序这种深层语义级关联,且该方法对检索精度的提升是微小的。
[0006]Yang X,Dong J,Cao Y等人在其发表的论文“Tree

Augmented Cross

Modal Encoding for Complex

Query Video Retrieval”(International ACM SIGIR Conference on Research and Development in Information Retrieval,2020:1339

1348)中提出了一种面向复杂自然语言文本查询的树结构增强的视频自然语言文本检索方法。该方法通过联合学习查询自然语言文本的语言结构和视频的时序表示来进行细粒度的编码。具体来说,对于一个复杂的用户查询自然语言文本,先递归地构成一个潜在的语义树,以在语言结构上描述自然语言文本查询,然后设计了一个树增强型查询自然语言文本编码器以生成结构感知的查询自然语言文本表示,并设计了一个基于时序注意力的视频编码器对视频的时序特征进行建模。最后,自然语言文本和视频都被映射到联合的嵌入空间以进行匹配和排名。该方法存在的不足之处是:视频空间实体对象对应自然语言文本的“名词”部分,是检索的关键信息所在。该方法专注于时序建模的模型难以捕获视频区域级的空间对象信息,影响检索的准确性。

技术实现思路

[0007]本专利技术的目的在于针对上述现有技术存在的不足,提出一种基于空间时序特征的视频自然语言文本检索方法,旨在解决难以准确建模视频复杂的时空性语义特征,不同模态数据语义特征存在异质性底层流形结构分布不同的语义鸿沟影响视频自然语言文本检索精度的问题。
[0008]实现本专利技术目的的思路是,本专利技术利用三种不同类型的神经网络分别提取每个视频样本三层级特征,即在第一层级使用的深度残差神经网络ResNet

152提取了视频图像帧级的整体性特征,在第二层级使用的3D卷积神经网络I3D沿帧流动的方向捕获视频的动作时序性特征,在第三层级使用的Fast

RCNN网络提取视频具有空间位置信息的显著区域空间性特征。这种分层的特征提取方法,对具有整体性、时序性及冗余性的视频模态数据的空间时序信息进行了细粒度建模以获得全面的视频统一表征。由于全面的视频统一表征可以充分挖掘视频模态数据复杂的多层级、细粒度、时空性的语义特征,实现了保留视频中用于计算跨模态视频自然语言文本相似度的复杂语义信息。本专利技术利用视频自然语言文本公共语义嵌入网络将两种不同模态数据的三层级语义特征嵌入到三个不同的公共语义表示空间,解决不同模态数据的语义特征分布不同的语义鸿沟影响视频自然语言文本检索精度的问题。跨模态数据呈现高层语义相关但底层特征异构的特性,公共语义表示空间旨在拟合跨模态数据异质性的底层流形结构,使公共语义嵌入网络能够有效地学习不同模态异构数
据的公共空间表示。视频自然语言文本公共语义嵌入网络在对比排序损失本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于空间时序特征的视频文本检索方法,其特征在于,利用三种神经网络分别提取视频样本三层级的空间时序特征,构建视频文本公共语义嵌入网络拟合跨模态数据的语义鸿沟并利用对比排序损失函数训练网络;该方法的具体步骤包括如下:步骤1,生成样本集:选取至少6000个待检索的多类别动态行为视频及与其对应的自然语言文本注释组成样本集,每个视频中含有人工标注的自然语言文本注释至少20条,自然语言文本字数不超过30字,生成至少120000对视频自然语言文本对;步骤2,利用三种神经网络分别提取视频样本三层级的空间时序特征:(2a)将样本集中的视频输入到训练好的深度残差神经网络ResNet

152中,提取每个视频中每帧图像的特征,将每个视频中所有帧的图像特征进行平均池化,将输出的视频2048维的帧级特征作为视频第一层级特征;(2b)使用训练好的3D卷积神经网络I3D提取样本集每个视频沿时序的动态行为特征,将输出的视频1024维的时序特征作为视频第二层级特征;(2c)每隔2秒从样本集的每个视频中抽取一帧图像,将该视频抽取的所有帧图像输入到训练好的Fast

RCNN网络中,输出该视频F
a
*M
ab
*2048维的高维显著特征,其中,F
a
表示第a个视频抽取的帧的总数,M
ab
表示第a个视频抽取的第b帧提取的显著区域的总数,每帧提取的显著区域的总数相同;(2d)使用全局自适应池化方法AdaptiveAvgPool2d沿帧流动的方向处理每个视频的高维显著特征,将输出的视频降维后保留显著区域及其位置信息的t*2048维空间对象特征作为视频第三层级特征,t为设置的保留显著区域的总数,默认设置为6;步骤3,构建语义角色树提取自然语言文本样本三层级的特征:(3a)将样本集中的所有自然语言文本输入到双向长短期记忆网络Bi

LSTM中,每个单词输出为512维的单词嵌入特征,将自然语言文本所有单词的嵌入特征级联,得到N
c
*512维自然语言文本上下文感知的嵌入特征,其中,N
c
表示第c个自然语言文本中单词的总数;(3b)利用注意力公式,计算每个自然语言文本的显著事件特征;(3c)使用开源的语义角色解析工具,按自然语言文本单词的顺序,标注样本集中每个自然语言文本的所有单词的语义角色和语义关系;(3d)将每个自然语言文本的语义角色为动词的单词和语义角色为名词的单词,分别输入到两个训练好的双向长短期记忆网络Bi

LSTM中,两个网络分别输出该自然语言文本V
s
*300维的动词序列特征和E
s
*300维对象序列特征,其中,V
s
表示第s个自然语言文本中语义角色为动词的单词的总数,E
s
表示第s个自然语言文本中语义角色为名词的单词的总数;(3e)构建每个自然语言文本的语义角色树,其根节点表示自然语言文本的显著事件特征,与根节点相连的第二层动作节点表示自然语言文本的动词序列特征,与动作节点相连的树结构末端的实体结点表示自然语言文本的对象序列特征;(3f)利用训练好的图卷积神经网络GCN,提取语义角色树根节点1024维的自然语言文本全局特征作为自然语言文本第一层级特征,提取语义角色树动作节点V
s
*1024维的自然语言文本动作时序特征作为自然语言文本第二层级特征,提取语义角色树实体节点E
s
*1024维的自然语言文本实体特征作为自然语言文本第三层级特征;步骤4,构建视频文本公共语义嵌入网络:
(4a)搭建一个由卷积层、池化层、第一全连接层和第二全连接层的视频文本公共语义嵌入网络;(4b)将卷积层的卷积核大小设置为2
×
2,个数设置为2048,步长设置为1,池化层采用最大池化方式,池化层的卷积池化核大小设置的为2
×
2,步长设置...

【专利技术属性】
技术研发人员:王笛田玉敏罗雪梅丁子芮万波王义峰赵辉
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1