一种基于多粒度的跨模态交互框架解决视频问答的方法及系统技术方案

技术编号：38125783 阅读：6 留言：0更新日期：2023-07-08 09:29

本发明专利技术公开了一种基于多粒度的跨模态交互框架解决视频问答的方法及系统，涉及计算机视觉和自然语言处理领域。本发明专利技术的技术要点包括：对视频提取帧级与目标级特征，并提取描述文本的语义词性和问题的词嵌入向量，利用对视频和描述文本的图神经网络获取多粒度的视频和文本表示，利用图神经网络集成不同粒度的表示，并利用注意力来捕获同模态的视频、同模态的文本，以及跨模态视频和文本之间的交互信息，生成基于问题的视觉表示和基于视频的文本表示，进而自适应地融合基于问题的视觉表示和基于视频的文本表示，生成答案。本发明专利技术通过整合不同表示形式提高了回答的准确性。本发明专利技术在视频问答中取得的效果相比于传统方法更好。视频问答中取得的效果相比于传统方法更好。视频问答中取得的效果相比于传统方法更好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

[0001]本专利技术涉及计算机视觉和自然语言处理领域，具体涉及一种基于多粒度的跨模态交互框架解决视频问答的方法及系统。

技术介绍

[0002]多模态开放式的视频问答任务是一种结合计算机视觉和自然语言处理领域的多模态任务，该任务通过给定一个包含描述信息的视频和一个自然语言描述的问题，在理解视频内容和问题的基础上，自动地预测出问题的答案。
[0003]视频问答的目的是在理解多模态视频内容的基础上正确回答给定的问题。现有的解决视频问答任务的核心技术涉及图神经网络和注意力机制，图神经网络的思想是通过注意力机制来整合图结构中的邻域结点信息，实现对不同邻域结点权重的分配，获取视频信息来预测答案。注意力机制的思想是计算问题与视频信息之间的相似度，为与问题相关的视频信息分配较高的权重值，并基于此生成答案。
[0004]但是，现有的图神经网络仅关注视觉或语言的整体内容，有意义和细粒度的视觉或语言内容常常被忽略，这会导致视频问答模型遗漏了回答问题所需要的细节信息，从而影响了对于视频信息的理解，降低了答案预测的准确性。其次，目前的注意力模型难以有效整合同模态的视频、同模态的文本、以及跨模态视频和文本之间的信息。这会导致视频问答模型很难从大量的视频信息中找到正确答案的证据。因此，解决视频问答任务需要具有两个关键的功能：理解不同语义层次上的视频内容；灵活地整合不同模态的视频内容，来提取与问题相关的内容。

技术实现思路

[0005]为此，本专利技术提出一种...

【技术保护点】

【技术特征摘要】
1.一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，包括以下步骤：S1、对于输入的视频，提取视频帧特征，所述视频携带对应的描述文本；同时对于视频帧中的目标，提取目标级特征，所述目标级特征包括目标特征、目标位置和类别标签；S2、对于所述视频对应的描述文本，提取描述文本的词性分析结果；所述描述文本包括一个或多个；S3、对于输入的有关视频内容的问题，提取所述问题的特征，即提取问题的词嵌入向量，获得问题中每个单词的语义信息；S4、将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中，获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示；S5、将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中，获得基于问题的视觉表示和基于视频的文本表示；S6、根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。2.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S1中利用预训练的ResNet模型提取视频帧特征，利用预训练的FasterR
‑
CNN模型提取视频帧的目标特征。3.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S2中利用SRL工具包分析描述文本的词性，获取词性分析结果，所述词性分析结果包括每个描述文本对应的动词和实体。4.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S3中利用预训练的wordembedding模型提取问题的特征。5.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S4中获得视频帧的全局表示和细粒度表示的具体过程包括：将提取的视频帧特征使用全连接层进行映射，得到视频帧的全局表示；将视频帧中目标作为图结点，构建基于图神经网络的空间图G
p
＝(V
p
,E
p
,R
p
)和语义图G
e
＝(V
e
,E
e
)；其中，V
p
和V
e
代表目标结点，E
p
代表空间图的边，E
e
代表语义图的边，R
p
代表视频帧中目标边框的相对位置；所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值；利用视频帧中目标位置和目标特征初始化空间图的结点；利用视频帧中目标类别标签和目标特征初始化语义图的结点；利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新，计算公式如下：其中，表示空间图第i个结点在图神经网络第l层的更新；W
p
表示图神经网络的结点转换矩阵；b
p
(r
i,j
)表示目标边框的相对位置r
i,j
的学习向量；N
i
表示空间图中结点i的邻域；对语义图的多个初始结点加权获得邻接矩阵，所述邻接矩阵包括每个结点的邻接点集
合；根据邻接矩阵和ReLU激活函数对语义图结点进行更新，计算公式如下：其中，表示语义图第i个结点在图神经网络第l层的更新；A
e,i
表示第i个结点的邻接矩阵；表示利用邻接矩阵A
e,i
得到的与第i个结点相邻的结点；W
e
表示变换矩阵；表示注意力系数；利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化，分别获取帧级嵌入，并对多个视频帧的帧级嵌入进行堆叠，获得视频帧的细粒度表示。6.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S4中获得描述文本的全局表示和细粒度表示的具体过程包括：根据每个描述文本的词性分析结果构建角色图G
r
＝(V
r
,E
r
,T
r
)，描述文本即句子，其本身作为全局结点，动词和实体分别作为动作结点和实体结点，每个动作结点直接连接全局结点，每个实体结点与不同的动作结点连接；其中，V
r
代表动词、实体、句子组成的结点，E
r
代表角色图的边，T
r
代表每个结点的类型，类型包括动词、实体或句子；对每个描述文本利用BERT模型提取句子特征和词级特征，句子特征是将每个单词的语义信息按文本顺序拼接，得到有上下文的句子语义信息；词级特征是每个单词的语义信息；对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入，对词级特征利用非线性投影初始化动词和实体结点；基于描述文本的词性分析结果和ReLU激活函数更新角色图结点，计算公式如下：其中，表示角色图中第i个结点在图神经网络第l层的更新；W
r1
为嵌入矩阵，t
r,i
为T
r
中第i个结点的类型；N
i
表示角色图中第i个结点的邻域；W
r2
为变换矩阵；为注意力系数；表示角色图中第i个结点的邻域点在图神经网络第l层的更新；在更新后，对多个描述文本的句子结点进行堆叠，得到描述文本的全局表示；使用图池对动作结点和实体结点进行平均池化，得到细粒度语言嵌入；将多个描述文本的细粒度语言嵌入进行堆叠，得到描述文本的细粒度表示。7.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S5中获得基于问题的视觉表示和基于视频的文本表示的具体过程包括：将视频帧的全局表示和细粒度表示作为结点构造基于图神经网络的视觉图，将描述文本的全局表示和细粒度表示作为结点构造基于图神经网络的语言图，并对视觉图的结点进行编码，得到视觉图编码V
′
；对语言图的结点进行编码，得到语言图编码L
′
；利用单层前馈网络将视觉图编码V
′
和问题的词嵌入向量Q分别与语言图编码L
′
合并编码，得到编码后的视频表示V1和问题表示Q1；利用softmax函数对视频表示V1应用同模态注意力机制得到同模态下的...

【专利技术属性】
技术研发人员：孙广路，邱瑾，梁丽丽，王艺达，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人