【技术实现步骤摘要】
利用空间-时间图推理网络解决多形态语句视频定位任务的方法
本专利技术涉及自然语言视觉定位领域,尤其涉及一种利用空间-时间图推理网络解决多形态语句视频定位任务的方法。
技术介绍
自然语言的视觉定位是视觉理解领域中一项基本而至关重要的任务。该任务的目标是将给定自然语言所描述的对象从时间、空间上在视觉内容中进行定位。近些年,研究人开始关注自然语言(语句)在视频中的定位,包括时间定位和空间-时间定位。时间定位可以获得所述物体在视频中出现的时间片段;空间-时间定位在时间定位的基础上还要获得物体出现的区域,这种一系列物体所在区域组成的集合因具有时间和空间上的连续性,因此又被称作空间-时间管道(spatio-temporaltube)。目前人们实现的方法较少而且限制性较强。现有的视频定位方法经常从修剪后的视频中提取一组空间-时间管道,然后识别与句子匹配的目标管道。但是,此框架可能无法完成针对多形态语句的空间-时间视频定位(Spatio-TemporalVideoGroundingforMulti-FormSentences,STVG)。一方面,该框架的性能在很大程度上取决于候选管道的质量,但是很难在没有文本线索的情况下预先生成高质量的管道,因为句子可能会在很小的片段中描述对象的短期状态,但是现有的管道预生成框架只能产生修剪过的视频中的完整对象管道。另一方面,这些方法仅考虑单管道建模,而忽略对象之间的关系,因此无法处理带有位置对象的疑问句,只能处理传统的陈述句。但是,对象关系是STVG任务的重要线索,尤其是对于可能仅 ...
【技术保护点】
1.利用空间-时间图推理网络解决多形态语句视频定位任务的方法,其特征在于,包括如下步骤:/nS1:针对一段视频,利用Faster-RCNN网络提取视频中每一个帧的视觉特征,构成视频帧的视觉特征集合;并从每一个视频帧中提取K个区域,得到区域特征向量及区域边框矢量,构成视频中帧级别的区域集合;/nS2:针对查询语句,首先采用GloVe网络得到查询语句中每个单词的词嵌入向量,然后采用BiGRU网络获得查询语句的单词语义特征集合,最后采用注意力方法进一步得到查询语句的查询特征;/nS3:建立空间-时间图编码器,包括一个视频解析层、一个跨模态融合层和T个空间-时间卷积层,首先通过视频解析层将视频解析为空间-时间区域图,然后通过跨模态融合层对步骤S1获得的区域特征向量、步骤S2获得的单词语义特征进行融合,得到跨模态区域特征;再针对跨模态区域特征,通过T个空间-时间卷积层对所述的空间-时间区域图进行T步卷积操作,最终得到关系敏感区域特征;/nS4:建立空间-时间定位器,包括一个时间定位器和一个空间定位器;针对视频中的关系敏感区域特征,首先通过时间定位器将关系敏感区域特征聚合到帧级别,得到视频中帧级别 ...
【技术特征摘要】
1.利用空间-时间图推理网络解决多形态语句视频定位任务的方法,其特征在于,包括如下步骤:
S1:针对一段视频,利用Faster-RCNN网络提取视频中每一个帧的视觉特征,构成视频帧的视觉特征集合;并从每一个视频帧中提取K个区域,得到区域特征向量及区域边框矢量,构成视频中帧级别的区域集合;
S2:针对查询语句,首先采用GloVe网络得到查询语句中每个单词的词嵌入向量,然后采用BiGRU网络获得查询语句的单词语义特征集合,最后采用注意力方法进一步得到查询语句的查询特征;
S3:建立空间-时间图编码器,包括一个视频解析层、一个跨模态融合层和T个空间-时间卷积层,首先通过视频解析层将视频解析为空间-时间区域图,然后通过跨模态融合层对步骤S1获得的区域特征向量、步骤S2获得的单词语义特征进行融合,得到跨模态区域特征;再针对跨模态区域特征,通过T个空间-时间卷积层对所述的空间-时间区域图进行T步卷积操作,最终得到关系敏感区域特征;
S4:建立空间-时间定位器,包括一个时间定位器和一个空间定位器;针对视频中的关系敏感区域特征,首先通过时间定位器将关系敏感区域特征聚合到帧级别,得到视频中帧级别的关系敏感特征,并与所述的视频帧的视觉特征集合连接起来,获得最终帧特征集合;在每个帧处定义多尺度候选剪辑集合,学习得到最佳的剪辑边界;然后通过空间定位器将查询语句的查询特征和最终帧特征进行积分,得到每个视频帧中的每个区域的匹配分数;
S5:所述的GloVe网络、BiGRU网络、空间-时间图编码器、空间-时间定位器构成STGRN,设计一个多任务损失,以端到端的方式进行训练STGRN;针对经步骤S1处理后的一段视频和待处理的查询语句,通过训练好的STGRN得到每个视频帧中的每个区域的匹配分数;
S6:筛选步骤S5中得到的最高匹配分数对应的帧t和区域i,采用动态选择方法,计算帧t和帧t+1的区域间的链接分数,根据链接分数计算管道的能量,利用Vitervi算法得到能量最大的空间-时间管道,完成视频定位。
2.如权利要求1所述的利用空间-时间图推理网络解决多形态语句视频定位任务的方法,其特征在于所述步骤S1具体为:
针对一段视频,使用预先训练的Faster-RCNN从每一个视频帧中提取K个区域得到视频中帧级别的区域集合每个区域有两个属性:一个是区域特征向量表示视频中第t帧第i个区域的视觉特征向量,dr表示区域特征向量的维度;另一个是区域边框矢量其中和分别表示视频中第t帧第i个区域的边界框中心点的横坐标和纵坐标,和分别表示视频中第t帧第i个区域的边界框的宽度和高度;
此外,还需要用Faster-RCNN提取视频中每一个帧的视觉特征,构成视频帧的视觉特征集合其中ft表示视频中第t帧的视觉特征,N代表视频的帧数。
3.如权利要求1所述的利用空间-时间图推理网络解决多形态语句视频定位任务的方法,其特征在于所述步骤S2具体为:
针对查询语句,首先采用GloVe网络得到查询语句中每个单词的词嵌入向量,然后采用BiGRU网络获得查询语句的单词语义特征,构成单词语义特征集合其中,si是第i个单词的语义特征,L表示查询语句中的单词的数量,ds表示单词语义特征向量的维度;
从单词语义特征集合中选择查询对象的语义特征se,采用注意力方法得到实体敏感特征sa,构成查询特征sq,公式如下:
sq=[se;sa]
其中,和是参数矩阵,sa是实体敏感特征,sq是查询特征,γi表示归一化权重。
4.如权利要求1所述的利用空间-时间图推理网络解决多形态语句视频定位任务的方法,其特征在于所述步骤S3具体为:
建立空间-时间图编码器,包括一个视频解析层、一个跨模态融合层和T个空间-时间卷积层,所述的空间-时间图编码器的工作步骤如下:
3.1)通过视频解析层将视频解析为空间-时间区域图,所述的空间-时间区域图包含三个子图:每个帧中的隐式空间子图每个帧中的显式空间子图和跨帧的时间动态性子图其中是每一个子图的顶点,三个子图均将每一个对应视频帧中的区域视为其顶点v;εimp、εexp、εtem分别表示隐式空间子图、显式空间子图、时间动态性子图的边;
3.2)通过跨模态融合层对步骤S1获得的区域特征向量、步骤S2获得的单词语义特征进行融合,得到跨模态区域特征,具体如下:
对于计算区域敏感文本特征,公式如下:
其中,和是参数矩阵,bm是偏置,是参数行向量,表示和sj的相似度,表示注意力权重,是视频中第t帧第i个区域的区域敏感文本特征;
建立一个以语言信息为引导的文本门,公式如下:
其中,σ是sigmoid函数,表示区域的文本门,dr表示区域特征向量的维度;
将连接起来,获得跨模态区域特征公式如下:
其中,⊙是逐元素相乘,表示视频中第t帧第i个区域的跨模态区域特征;
3.3)每一个空间-时间卷积层包括一层空间图卷积层和一层时间图卷积层;
所述的空间图卷积层的工作步骤如下:
针对跨模态区域特征,首先在隐式空间子图上采用隐式图卷积,公式如下:
其中,是在中与相连的区域,是权重参数,wimp和uimp表示参数矩阵,表示隐式空间图卷积层的输出;
然后在显式空间子图上采用显式图卷积,公式如下:
αexp...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。