【技术实现步骤摘要】
利用多重交互注意力机制解决视频中对象关系问答任务的方法
本专利技术涉及视频问答答案生成领域,尤其涉及一种利用多重交互注意力机制解决视频中对象关系问答任务的方法。
技术介绍
视觉问答是一项利用计算机视觉和自然语言处理技术的重要任务。给定自然语言问题和参考视觉对象(例如图像或视频),视觉问答的目标是自动地根据视觉内容回答问题。在视频问答发展前,深度神经网络已经在图像问答领域取得了很大的成功,并且有了相对成熟的模型。视频问答可视为图像问答的延伸。然而,由于时间结构带来的复杂性,使视频问答变得更具挑战性,与图像问答相比,视频问答的研究专利技术相对较少。如何对视频的时间结构建模、如何处理视频信息的冗余以及如何获得多帧带来的信息,是目前视频问答领域面临的几大挑战。现有方法主要关注时间注意力机制和记忆机制。Jang等人(YunseokJang,YaleSong,YoungjaeYu,YoungjinKim,andGunheeKim.2017.Tgif-qa:Towardspatio-temporalreasoninginvisualquestionanswering.InIEEEConferenceonComputerVisionandPatternRecognition.2680-8.)提出了一种基于dual-LSTM的方法,同时应用空间注意力机制和时间注意力机制。Yu等人(YoungjaeYu,HyungjinKo,JongwookChoi,andGunheeKim.2017.End-to-endcon ...
【技术保护点】
1.利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于,包括如下步骤:/nS1:针对一段视频,利用残差神经网络,获得帧级别视频特征;/nS2:利用Mask-RCNN,获得视频中对象的位置特征和外观特征;/nS3:使用多重交互注意力机制,得到输入问题表达;/nS4:根据步骤S2得到的视频中对象的位置特征,计算出视频中对象之间的相对关系向量,得到时空关系权重,进一步构建时空关系矩阵;/nS5:在步骤S1得到的帧级别视频特征和步骤S3得到的输入问题表达的基础上,使用多重交互注意力机制,学习得到针对问题的帧级别视频表达;/nS6:根据步骤S2得到的视频中对象的外观特征、步骤S3得到的输入问题表达和步骤S4得到的时空关系矩阵的基础上,使用多重交互注意力机制,得到与问题相关的对象关系表达;/nS7:根据步骤S5得到的针对问题的帧级别视频表达和步骤S6得到的与问题相关的对象关系表达,获取针对视频所问问题的答案。/n
【技术特征摘要】
1.利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于,包括如下步骤:
S1:针对一段视频,利用残差神经网络,获得帧级别视频特征;
S2:利用Mask-RCNN,获得视频中对象的位置特征和外观特征;
S3:使用多重交互注意力机制,得到输入问题表达;
S4:根据步骤S2得到的视频中对象的位置特征,计算出视频中对象之间的相对关系向量,得到时空关系权重,进一步构建时空关系矩阵;
S5:在步骤S1得到的帧级别视频特征和步骤S3得到的输入问题表达的基础上,使用多重交互注意力机制,学习得到针对问题的帧级别视频表达;
S6:根据步骤S2得到的视频中对象的外观特征、步骤S3得到的输入问题表达和步骤S4得到的时空关系矩阵的基础上,使用多重交互注意力机制,得到与问题相关的对象关系表达;
S7:根据步骤S5得到的针对问题的帧级别视频表达和步骤S6得到的与问题相关的对象关系表达,获取针对视频所问问题的答案。
2.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S1具体为:
针对一段视频,将该视频输入训练好的残差神经网络,输出帧级别视频特征其中M(f)代表视频的帧数,代表视频第j帧的特征向量。
3.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S2具体为:
针对一段视频,将该视频输入Mask-RCNN,输出视频中对象的位置特征和外观特征其中fil和fia分别表示视频中第i个对象的位置特征向量和外观特征向量,N是视频中检测到的对象数量;所述位置特征向量fil是一个五维坐标,表示为(xi,yi,wi,hi,ti),其中xi和yi分别表示视频中第i个对象边界框中心点的横坐标和纵坐标,wi和hi分别表示视频中第i个对象边界框的宽度和高度,ti表示视频中第i个对象所属帧的序号。
4.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法,其特征在于所述步骤S3具体为:
使用预训练的GloVe模型,得到问题的词嵌入w=(w1,w2,...,wn),其中n是问题的单词数,wj是第j个单词对应的词向量;再将词嵌入中的每一个词向量wj与对应的位置编码PEj相加得到单词级别输入问题表达W=(w1+PE1,w2+PE2,...wn+PEn);所述位置编码计算方法如下:
其中PEpos,i是位置编码PEpos的第i个元素;pos是位置编码的位置信息,这里是词向量wj的下标j;dmodel是位置编码的维度,这里与词向量的维度相等;
将单词级别输入问题表达W同时作为问题通道中交互单元的Q和V输入,在交互单元中使用多重交互注意力机制,学习输入问题的表示;在进入前馈单元之前,交互单元的多头输出序列将被连接并被线性单元变换,再经过残差连接和层标准化后输入前馈单元;然后前馈单元通过ReLU激活函数将输入序列转换为两个线性投影,分别作为帧通道第二个交互单元的V输入和对象通道第二个交互单元的Q输入;在问题通道中经过前述处理后,得到输入问题表达;
所述多重交互注意力机制具体步骤如下,假设多头线性层的头数是1:
第一步,确定两个输入矩阵Q=(q1,q2,…,qi)和V=(v1,v2,…,vj),其中且
第二步,创建张量来表示两个输入矩阵的每列之间的相互作用,张量K的每列计算方式如下:
其中表示逐元素乘法,qi,
第三步,在张量K上使用卷积层,内核大小为sq×sv;在卷积运算期间,张量K将被分成不同的子张量随着内核窗口的移动,得到不同的分段交互表示,形成张量P;
第四步,利用去卷积层将张量P恢复到原始大小(lq×lv×dk),因此,获得一个新的张量M,其中包含分段交互信息;
第五步,在张量K和M上使用与缩放点积注意力机制类似的求和方法对张量大小为...
【专利技术属性】
技术研发人员:赵洲,张品涵,金韦克,陈默沙,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。