当前位置: 首页 > 专利查询>浙江大学专利>正文

利用多重交互注意力机制解决视频中对象关系问答任务的方法技术

技术编号:23191032 阅读:70 留言:0更新日期:2020-01-24 16:18
本发明专利技术公开了一种利用多重交互注意力机制解决视频中对象关系问答任务的方法,包括如下步骤:针对于一段视频,获得帧级别视频特征;获得视频中对象的位置特征和外观特征;使用多重交互注意力机制,学习得到输入问题的表达;计算时空关系矩阵;使用多重交互注意力机制,学习得到针对问题的帧级别视频表达;使用多重交互注意力机制,学习得到与问题相关的对象关系表达;在之前得到的帧级别视频表达和对象关系表达基础上,获取问题的答案。相比于一般视频问答解决方案,本发明专利技术利用新型注意力机制,能够更准确地反映视频中对象的关系,产生更加贴切的答案。本发明专利技术在视频问答中所取得的效果相比于传统方法更好。

Using multiple interactive attention mechanism to solve the question and answer task of object relationship in video

【技术实现步骤摘要】
利用多重交互注意力机制解决视频中对象关系问答任务的方法
本专利技术涉及视频问答答案生成领域,尤其涉及一种利用多重交互注意力机制解决视频中对象关系问答任务的方法。
技术介绍
视觉问答是一项利用计算机视觉和自然语言处理技术的重要任务。给定自然语言问题和参考视觉对象(例如图像或视频),视觉问答的目标是自动地根据视觉内容回答问题。在视频问答发展前,深度神经网络已经在图像问答领域取得了很大的成功,并且有了相对成熟的模型。视频问答可视为图像问答的延伸。然而,由于时间结构带来的复杂性,使视频问答变得更具挑战性,与图像问答相比,视频问答的研究专利技术相对较少。如何对视频的时间结构建模、如何处理视频信息的冗余以及如何获得多帧带来的信息,是目前视频问答领域面临的几大挑战。现有方法主要关注时间注意力机制和记忆机制。Jang等人(YunseokJang,YaleSong,YoungjaeYu,YoungjinKim,andGunheeKim.2017.Tgif-qa:Towardspatio-temporalreasoninginvisualquestionanswering.InIEEEConferenceonComputerVisionandPatternRecognition.2680-8.)提出了一种基于dual-LSTM的方法,同时应用空间注意力机制和时间注意力机制。Yu等人(YoungjaeYu,HyungjinKo,JongwookChoi,andGunheeKim.2017.End-to-endconceptworddetectionforvideocaptioning,retrieval,andquestionanswering.InIEEEConferenceonComputerVisionandPatternRecognition.3261-3269.)提出了一种高级别概念词检测器,它将视频作为输入,并生成一个概念词列表作为答案生成的有用语义先验。但是,上述大多数方法都依赖于RNN而不考虑对象之间的关系,无法有效过滤长视频中大量存在的冗余帧。本专利技术的目的在于解决现有技术中的问题,为了更好地获取视频中对象的关系,来对对象关系相关的问题做出回答。
技术实现思路
本专利技术提出了一种用于视频问答的新模型,称为多重交互网络(Multi-interactionnetwork)。本专利技术所采用的具体技术方案是:利用多重交互注意力机制解决视频中对象关系问答任务的方法,包括如下步骤:S1:针对一段视频,利用残差神经网络,获得帧级别视频特征;S2:利用Mask-RCNN,获得视频中对象的位置特征和外观特征;S3:使用多重交互注意力机制,得到输入问题表达;S4:根据步骤S2得到的视频中对象的位置特征,计算出视频中对象之间的相对关系向量,得到时空关系权重,进一步构建时空关系矩阵;S5:在步骤S1得到的帧级别视频特征和步骤S3得到的输入问题表达的基础上,使用多重交互注意力机制,学习得到针对问题的帧级别视频表达;S6:根据步骤S2得到的视频中对象的外观特征、步骤S3得到的输入问题表达和步骤S4得到的时空关系矩阵的基础上,使用多重交互注意力机制,得到与问题相关的对象关系表达;S7:根据步骤S5得到的针对问题的帧级别视频表达和步骤S6得到的与问题相关的对象关系表达,获取针对视频所问问题的答案。进一步的,所述步骤S1具体为:针对一段视频,将该视频输入训练好的残差神经网络,输出帧级别视频特征其中M(f)代表视频的帧数,代表视频第j帧的特征向量。进一步的,所述步骤S2具体为:针对一段视频,将该视频输入Mask-RCNN,输出视频中对象的位置特征和外观特征其中fil和fia分别表示视频中第i个对象的位置特征向量和外观特征向量,N是视频中检测到的对象数量;所述位置特征向量fil是一个五维坐标,表示为(xi,yi,wi,hi,ti),其中xi和yi分别表示视频中第i个对象边界框中心点的横坐标和纵坐标,wi和hi分别表示视频中第i个对象边界框的宽度和高度,ti表示视频中第i个对象所属帧的序号。进一步的,所述步骤S3具体为:使用预训练的GloVe模型,得到问题的词嵌入w=(w1,w2,...,wn),其中n是问题的单词数,wj是第j个单词对应的词向量;再将词嵌入中的每一个词向量wj与对应的位置编码PEj相加得到单词级别输入问题表达W=(w1+PE1,w2+PE2,...wn+PEn);所述位置编码计算方法如下:其中PEpos,i是位置编码PEpos的第i个元素;pos是位置编码的位置信息,这里是词向量wj的下标j;dmodel是位置编码的维度,这里与词向量的维度相等;将单词级别输入问题表达W同时作为问题通道中交互单元的Q和V输入,在交互单元中使用多重交互注意力机制,学习输入问题的表示;在进入前馈单元之前,交互单元的多头输出序列将被连接并被线性单元变换,再经过残差连接和层标准化后输入前馈单元;然后前馈单元通过ReLU激活函数将输入序列转换为两个线性投影,分别作为帧通道第二个交互单元的V输入和对象通道第二个交互单元的Q输入;在问题通道中经过前述处理后,得到输入问题表达;所述多重交互注意力机制具体步骤如下,假设多头线性层的头数是1:第一步,确定两个输入矩阵Q=(q1,q2,…,qi)和V=(v1,v2,…,vj),其中且第二步,创建张量来表示两个输入矩阵的每列之间的相互作用,张量K的每列计算方式如下:其中表示逐元素乘法,第三步,在张量K上使用卷积层,内核大小为sq×sv;在卷积运算期间,张量K将被分成不同的子张量随着内核窗口的移动,得到不同的分段交互表示,形成张量P;第四步,利用去卷积层将张量P恢复到原始大小(lq×lv×dk),因此,获得一个新的张量M,其中包含分段交互信息;第五步,在张量K和M上使用与缩放点积注意力机制类似的求和方法对张量大小为dk的维度进行压缩,分别得到逐元素权重矩阵和逐段权重矩阵第六步,忽略多头步骤和比例因子,多重交互注意力机制的最终输出由下式给出:其中W是可选的外部权重矩阵。进一步的,所述步骤S4具体为:根据视频中对象的位置特征,计算两两对象之间的相对关系向量;定义视频中第m个对象和第n个对象之间的相对关系向量(Xmn,Ymn,Wmn,Hmn,Tmn)T计算公式如下:为使相对关系向量具有平移不变性和尺度变换不变性,分别计算相对关系向量中每个元素的位置编码,得到五个高维向量,再将这五个高维向量拼接成单个特征向量,得到视频中第m个对象和第n个对象之间的特征向量计算视频中第m个对象和第n个对象的时空关系权重其中Wr是一个学习得到的参数向量;根据视频中所有对象之间的时空关系权重两两对应,得到时空关系矩阵其中为时空关系矩阵WR中第m行第n列的元素。进本文档来自技高网
...

【技术保护点】
1.利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于,包括如下步骤:/nS1:针对一段视频,利用残差神经网络,获得帧级别视频特征;/nS2:利用Mask-RCNN,获得视频中对象的位置特征和外观特征;/nS3:使用多重交互注意力机制,得到输入问题表达;/nS4:根据步骤S2得到的视频中对象的位置特征,计算出视频中对象之间的相对关系向量,得到时空关系权重,进一步构建时空关系矩阵;/nS5:在步骤S1得到的帧级别视频特征和步骤S3得到的输入问题表达的基础上,使用多重交互注意力机制,学习得到针对问题的帧级别视频表达;/nS6:根据步骤S2得到的视频中对象的外观特征、步骤S3得到的输入问题表达和步骤S4得到的时空关系矩阵的基础上,使用多重交互注意力机制,得到与问题相关的对象关系表达;/nS7:根据步骤S5得到的针对问题的帧级别视频表达和步骤S6得到的与问题相关的对象关系表达,获取针对视频所问问题的答案。/n

【技术特征摘要】
1.利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于,包括如下步骤:
S1:针对一段视频,利用残差神经网络,获得帧级别视频特征;
S2:利用Mask-RCNN,获得视频中对象的位置特征和外观特征;
S3:使用多重交互注意力机制,得到输入问题表达;
S4:根据步骤S2得到的视频中对象的位置特征,计算出视频中对象之间的相对关系向量,得到时空关系权重,进一步构建时空关系矩阵;
S5:在步骤S1得到的帧级别视频特征和步骤S3得到的输入问题表达的基础上,使用多重交互注意力机制,学习得到针对问题的帧级别视频表达;
S6:根据步骤S2得到的视频中对象的外观特征、步骤S3得到的输入问题表达和步骤S4得到的时空关系矩阵的基础上,使用多重交互注意力机制,得到与问题相关的对象关系表达;
S7:根据步骤S5得到的针对问题的帧级别视频表达和步骤S6得到的与问题相关的对象关系表达,获取针对视频所问问题的答案。


2.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S1具体为:
针对一段视频,将该视频输入训练好的残差神经网络,输出帧级别视频特征其中M(f)代表视频的帧数,代表视频第j帧的特征向量。


3.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S2具体为:
针对一段视频,将该视频输入Mask-RCNN,输出视频中对象的位置特征和外观特征其中fil和fia分别表示视频中第i个对象的位置特征向量和外观特征向量,N是视频中检测到的对象数量;所述位置特征向量fil是一个五维坐标,表示为(xi,yi,wi,hi,ti),其中xi和yi分别表示视频中第i个对象边界框中心点的横坐标和纵坐标,wi和hi分别表示视频中第i个对象边界框的宽度和高度,ti表示视频中第i个对象所属帧的序号。


4.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S3具体为:
使用预训练的GloVe模型,得到问题的词嵌入w=(w1,w2,...,wn),其中n是问题的单词数,wj是第j个单词对应的词向量;再将词嵌入中的每一个词向量wj与对应的位置编码PEj相加得到单词级别输入问题表达W=(w1+PE1,w2+PE2,...wn+PEn);所述位置编码计算方法如下:



其中PEpos,i是位置编码PEpos的第i个元素;pos是位置编码的位置信息,这里是词向量wj的下标j;dmodel是位置编码的维度,这里与词向量的维度相等;
将单词级别输入问题表达W同时作为问题通道中交互单元的Q和V输入,在交互单元中使用多重交互注意力机制,学习输入问题的表示;在进入前馈单元之前,交互单元的多头输出序列将被连接并被线性单元变换,再经过残差连接和层标准化后输入前馈单元;然后前馈单元通过ReLU激活函数将输入序列转换为两个线性投影,分别作为帧通道第二个交互单元的V输入和对象通道第二个交互单元的Q输入;在问题通道中经过前述处理后,得到输入问题表达;
所述多重交互注意力机制具体步骤如下,假设多头线性层的头数是1:
第一步,确定两个输入矩阵Q=(q1,q2,…,qi)和V=(v1,v2,…,vj),其中且
第二步,创建张量来表示两个输入矩阵的每列之间的相互作用,张量K的每列计算方式如下:



其中表示逐元素乘法,qi,
第三步,在张量K上使用卷积层,内核大小为sq×sv;在卷积运算期间,张量K将被分成不同的子张量随着内核窗口的移动,得到不同的分段交互表示,形成张量P;
第四步,利用去卷积层将张量P恢复到原始大小(lq×lv×dk),因此,获得一个新的张量M,其中包含分段交互信息;
第五步,在张量K和M上使用与缩放点积注意力机制类似的求和方法对张量大小为...

【专利技术属性】
技术研发人员:赵洲张品涵金韦克陈默沙
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1