当前位置: 首页 > 专利查询>浙江大学专利>正文

一种利用基于图论的多重交互网络机制解决视频问答问题的方法技术

技术编号:23787402 阅读:59 留言:0更新日期:2020-04-15 00:39
本发明专利技术公布了一种利用基于图论的多重交互网络机制解决视频问答问题的方法。步骤:1)针对视频,利用ResNet网络得到帧级别的视频表达。2)利用MaskR‑CNN网络得到物体的存在和位置特征。3)利用GloVe网络提取问题单词级信息。4)利用基于图论的GNN网络构图,引入消息机制对图迭代,最终得到物体存在和物体间联系特征表达。5)引入多重交互,利用前馈神经网络学习得到与问题相关的物体存在和物体间动态联系的特征表达以及视频帧级和片段级表达。6)针对不同类型的问题答案模块会采用不同的策略。本发明专利技术利用上述机制得到物体间的时空依赖关系和动态语义交互信息,在视频理解上达到更深刻的效果,继而给出更精准的答案。

A method to solve video question answering problem by using multiple interactive network mechanism based on graph theory

【技术实现步骤摘要】
一种利用基于图论的多重交互网络机制解决视频问答问题的方法
本专利技术涉及视频问答答案生成,尤其涉及一种利用基于图论的多重交互网络机制解决视频问答问题的方法。
技术介绍
视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。现有的技术主要解决的是关于静态图像相关的问答问题。虽然目前的技术针对于静态图像问答,可以取得很好的表现结果,但是这样的方法缺少对于视频中的时间动态信息的建模,所以不能很好地拓展到视频问答任务上面。针对于视频中经常包含对象物品的外形及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本方法将使用基于图论的多重交互机制来聚焦于视频与所问问题相关的目标帧,并且学习与问题相关的有效的视频表达。同时,使用分段级别的视频特征提取机制提取关于视频帧之中的物体外形及移动信息。本方法将利用残差神经网络得到视频帧级别的表达,同时针对这组视频,用MaskR-CNN神经网络得到物体存在和物体位置的特征表达。另外,用GloVe神经网络得到问题单词级别的特征信息。之后利用图神经网络对这组视频进行构图,并引入消息传输机制迭代更新图的特征表达。之后利用多重交互网络分三个通道分别学习到与问题相关的视频帧级别和段级别的表达以及与问题相关的物体的运动信息。最后利用学习到的这些特征信息,结合不同类型问题的特点,用不同的回归函学习出答案来解决视频问答问题。
技术实现思路
本专利技术的目的在于解决现有技术中的问题,为了克服现有技术中缺少对于视频中的时间动态信息的建模的问题,且针对于视频中经常包含对象物品的外形及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本专利技术提供一种利用基于图论的多重交互网络机制解决视频问答问题的方法,本专利技术所采用的具体技术方案是:1)对于输入的视频及自然语言问题语句,训练出图神经网络和多重交互网络来获取问题相关的物体存在特征表达、物体间动态联系的特征表达、以及与问题相关的帧级和片段级视频表达,得到针对不同问题的预测答案;1.1)针对一段视频,采用残差神经网络提取视频的帧级表达;1.2)采用MaskR-CNN神经网络,提取视频中物体存在特征表达和物体空间位置特征表达;1.3)针对自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达;1.4)利用步骤1.2)得到的物体存在特征表达和物体空间位置特征表达,通过图神经网络进行建图,并引入消息传输机制,对图进行迭代更新,获得最终的物体存在特征表达;1.5)利用步骤1.1)获得的视频的帧级表达、步骤1.2)获得的物体空间位置特征表达、步骤1.3)获得的自然语言问题语句的单词级别的嵌入表达和步骤1.4)获得的最终的物体存在特征表达,引入多重交互网络,利用预训练的交互网络和前馈神经网络,分三个通道得到与问题相关的物体存在特征表达、物体间动态联系的特征表达以及与问题相关的视频帧级和片段级视频表达;1.6)针对不同的问题形式,采用不同的回归函数和损失函数,得到针对问题的预测答案;2)将步骤1)获得的针对不同问题的预测答案与真实的答案进行比较,更新图神经网络和多重交互网络的参数,得到最终的图神经网络和多层注意力网络;3)对于要预测答案的视频和问题,根据生成的最终的图神经网络和多层注意力网络,得到所预测的答案。进一步的,所述的步骤1.1)具体为:对于一段视频,将视频输入到预训练的残差神经网络,输出视频的帧级表达φ={Ii},i=1,2,3,…,,其中Ii表示视频第i帧的特征表达,T表示视频的帧数。进一步的,所述的步骤1.2)具体为:对于一段视频,将视频输入到预训练的MaskR-CNN卷积神经网络,输出视频中的物体存在特征表达和物体空间位置特征表达其中和分别表示视频中第t帧第i个物体的存在特征表达和空间位置特征表达;所述空间位置特征表达是一个四维坐标,表示为其中和分别表示视频中第t帧第i个物体的边界框中心点的横坐标和纵坐标,和分别表示视频中第t帧第i个物体的边界框的宽度和高度。进一步的,所述的步骤1.3)具体为:对于自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达Q={q1,q2,…,q|Q|};其中qi表示自言语言问题语句中的第i个单词的嵌入特征表达,|Q|表示自然语言问题语句中的单词的数量。进一步的,所述的步骤1.4)具体为:1.4.1)对于步骤1.2)获得的视频中物体存在特征表达按照如下公式获得视频中第t帧第i个物体的隐藏状态表达:其中表示第t帧第i个物体的隐藏状态;将不同帧中被检测到的所有物体重新进行排序,不同帧中的同一物体算不同物体,只使用下角标i表示不同帧中被检测到的第i个物体,简称视频中第i个物体;进一步得到视频中物体的隐藏状态表达HV,HV={hv}v∈V={h1,…,hi,…h|V|}其中,hi表示视频中第i个物体的隐藏状态表达,V表示被检测到的所有物体的个数;1.4.2)对于步骤1.2)获得的视频中物体空间位置特征表达,计算两两物体之间的相对位置向量:定义任意视频中两个物体的空间位置特征表达lm和ln,根据如下公式得到四个维度上的物体相对位置向量(Xmn,Ymn,Wmn,Hmn)T:对于上述四个维度相对位置向量(Xmn,Ymn,Wmn,Hmn)T,利用位置编码,将(Xmn,Ymn,Wmn,Hmn)T通过不同频率的正弦、余弦函数嵌入到高维,然后再将四个高维向量拼接成单个向量,得到视频中第m个物体和第n个物体之间的特征向量lrmn;计算视频中第m个物体和第n个物体的空间位置联系LRmn:LRmn=max{0,Wr·lrmn}其中,Wr为参数矩阵,运用线性整流函数作为神经元的激活函数;视频中所有物体之间的空间位置联系两两对应,得到视频中物体空间位置的隐藏状态表达He:其中表示视频中第i个物体和第j个物体空间位置的隐藏状态;1.4.3)步骤1.4.1)和步骤1.4.2)得到的HV、He对应初始化的图,将HV和He输入到图神经网络中,分两步采用消息传输机制对图点和边的隐藏状态进行多次迭代更新:第一步,只考虑连接同一帧图像中物体的交互型边;按照如下公式,计算视频中第i个物体和第j个物体的连接分数:其中Ws,Wt,Wst分别是第i个物体,第j个物体,ij之间交互型边的学习权重,vo是学习向量,σ是一个非线性函数,表示第l-1次迭代第i个物体的隐藏状态,表示第l-1次迭代第i个物体和第j个物体的边的隐藏状态,表示第l次迭代第i个物体和第j个物体之间的连接分数;利用softmax函数,得到连接分数的激活值,即标准值:其中,表示第l次迭代第i个物体和第j个物体的连接分数的标准值,Vs本文档来自技高网...

【技术保护点】
1.一种利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于包括如下步骤:/n1)对于输入的视频及自然语言问题语句,训练出图神经网络和多重交互网络来获取问题相关的物体存在特征表达、物体间动态联系的特征表达、以及与问题相关的帧级和片段级视频表达,得到针对不同问题的预测答案;/n1.1)针对一段视频,采用残差神经网络提取视频的帧级表达;/n1.2)采用Mask R-CNN神经网络,提取视频中物体存在特征表达和物体空间位置特征表达;/n1.3)针对自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达;/n1.4)利用步骤1.2)得到的物体存在特征表达和物体空间位置特征表达,通过图神经网络进行建图,并引入消息传输机制,对图进行迭代更新,获得最终的物体存在特征表达;/n1.5)利用步骤1.1)获得的视频的帧级表达、步骤1.2)获得的物体空间位置特征表达、步骤1.3)获得的自然语言问题语句的单词级别的嵌入表达和步骤1.4)获得的最终的物体存在特征表达,引入多重交互网络,利用预训练的交互网络和前馈神经网络,分三个通道得到与问题相关的物体存在特征表达、物体间动态联系的特征表达以及与问题相关的视频帧级和片段级视频表达;/n1.6)针对不同的问题形式,采用不同的回归函数和损失函数,得到针对问题的预测答案;/n2)将步骤1)获得的针对不同问题的预测答案与真实的答案进行比较,更新图神经网络和多重交互网络的参数,得到最终的图神经网络和多层注意力网络;/n3)对于要预测答案的视频和问题,根据生成的最终的图神经网络和多层注意力网络,得到所预测的答案。/n...

【技术特征摘要】
1.一种利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于包括如下步骤:
1)对于输入的视频及自然语言问题语句,训练出图神经网络和多重交互网络来获取问题相关的物体存在特征表达、物体间动态联系的特征表达、以及与问题相关的帧级和片段级视频表达,得到针对不同问题的预测答案;
1.1)针对一段视频,采用残差神经网络提取视频的帧级表达;
1.2)采用MaskR-CNN神经网络,提取视频中物体存在特征表达和物体空间位置特征表达;
1.3)针对自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达;
1.4)利用步骤1.2)得到的物体存在特征表达和物体空间位置特征表达,通过图神经网络进行建图,并引入消息传输机制,对图进行迭代更新,获得最终的物体存在特征表达;
1.5)利用步骤1.1)获得的视频的帧级表达、步骤1.2)获得的物体空间位置特征表达、步骤1.3)获得的自然语言问题语句的单词级别的嵌入表达和步骤1.4)获得的最终的物体存在特征表达,引入多重交互网络,利用预训练的交互网络和前馈神经网络,分三个通道得到与问题相关的物体存在特征表达、物体间动态联系的特征表达以及与问题相关的视频帧级和片段级视频表达;
1.6)针对不同的问题形式,采用不同的回归函数和损失函数,得到针对问题的预测答案;
2)将步骤1)获得的针对不同问题的预测答案与真实的答案进行比较,更新图神经网络和多重交互网络的参数,得到最终的图神经网络和多层注意力网络;
3)对于要预测答案的视频和问题,根据生成的最终的图神经网络和多层注意力网络,得到所预测的答案。


2.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.1)具体为:
对于一段视频,将视频输入到预训练的残差神经网络,输出视频的帧级表达φ={Ii},i=1,2,3,…,,其中Ii表示视频第i帧的特征表达,T表示视频的帧数。


3.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.2)具体为:
对于一段视频,将视频输入到预训练的MaskR-CNN卷积神经网络,输出视频中的物体存在特征表达和物体空间位置特征表达其中和分别表示视频中第t帧第i个物体的存在特征表达和空间位置特征表达;所述空间位置特征表达是一个四维坐标,表示为其中和分别表示视频中第t帧第i个物体的边界框中心点的横坐标和纵坐标,和分别表示视频中第t帧第i个物体的边界框的宽度和高度。


4.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.3)具体为:
对于自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达Q={q1,q2,…,q|Q|};其中qi表示自言语言问题语句中的第i个单词的嵌入特征表达,|Q|表示自然语言问题语句中的单词的数量。


5.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.4)具体为:
1.4.1)对于步骤1.2)获得的视频中物体存在特征表达按照如下公式获得视频中第t帧第i个物体的隐藏状态表达:



其中表示第t帧第i个物体的隐藏状态;
将不同帧中被检测到的所有物体重新进行排序,不同帧中的同一物体算不同物体,只使用下角标i表示不同帧中被检测到的第i个物体,简称视频中第i个物体;
进一步得到视频中物体的隐藏状态表达HV,
HV={hv}v∈V={h1,…,hi,…h|V|}
其中,hi表示视频中第i个物体的隐藏状态表达,V表示被检测到的所有物体的个数;
1.4.2)对于步骤1.2)获得的视频中物体空间位置特征表达,计算两两物体之间的相对位置向量:定义任意视频中两个物体的空间位置特征表达lm和ln,根据如下公式得到四个维度上的物体相对位置向量(Xmn,Ymn,Wmn,Hmn)T:






对于上述四个维度相对位置向量(Xmn,Ymn,Wmn,Hmn)T,利用位置编码,将(Xmn,Ymn,Wmn,Hmn)T通过不同频率的正弦、余弦函数嵌入到高维,然后再将四个高维向量拼接成单个向量,得到视频中第m个物体和第n个物体之间的特征向量lrmn;
计算视频中第m个物体和第n个物体的空间位置联系LRmn:
LRmn=max{0,Wr·lrmn}
其中,Wr为参数矩阵,运用线性整流函数作为神经元的激活函数;
视频中所有物体之间的空间位置联系两两对应,得到视频中物体空间位置的隐藏状态表达He:



【专利技术属性】
技术研发人员:赵洲卢航顾茅陈默沙
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1