当前位置: 首页 > 专利查询>茅台学院专利>正文

一种基于跨模态异质图神经网络的视频问答方法技术

技术编号:34736891 阅读:43 留言:0更新日期:2022-08-31 18:27
本发明专利技术公开了一种基于跨模态异质图神经网络的视频问答方法,该方法为:将视频问答任务中的信息分为视频帧、视频剪辑和问题语句,分别将它们提取为对应特征,利用多头多跳注意力对三种类型的特征进行跨模态交互;基于跨模态特征构建多流时空语义图,图中的每个节点对应于一个视频帧、剪辑或问题单词;在异质图上利用图神经网络执行模态内和模态间的同步推理,生成局部推理向量;基于多模态双线性池化模型融合视频和问题信息,实现整体的特征关联并生成全局向量;将局部和全局向量集成为一个多模态的联合特征向量,用于答案推导。本发明专利技术利用细粒度的关联信息,并根据问题类型利用分类或回归技术实现答案预测,显著提高了视频问答的准确性。答的准确性。答的准确性。

【技术实现步骤摘要】
一种基于跨模态异质图神经网络的视频问答方法


[0001]本专利技术涉及一种基于跨模态异质图神经网络的视频问答方法,属于人机交互和自助服务


技术介绍

[0002]由于信息技术的迅速发展和移动智能终端的广泛普及,大量的社交网络平台井喷式地涌现,每天都有庞大的用户在不同的社交平台上分享图片、视频、文字等信息以展示他们的个人经历或生活态度等。这其中,视频成了一种重要的信息载体,而处理海量视频数据工作量极大,远超人脑信息处理的能力。因此,利用人工智能技术自动分析并理解视频信息成为了必然的趋势。视频问答是目前视频内容理解较好的切入点,它需要根据问题的语义对视频进行针对性的理解,并根据视频内容推导出问题的答案。由于视频问答涉及视觉和自然语言两种模态的信息处理,且视频具有空间和时序两方面的复杂特征,使得视频问答技术的发展面临重大挑战。然而,突破视频问答技术不仅能促进视频内容理解的发展,还能广泛应用于人机交互、自动客户服务、早期教育等场景,对相关领域的发展具有重要贡献。
[0003]当前占主导位置的视频问答方法主要致力于探索视频内容与问题语义之间的潜在关联。这类方法利用各种不同的视觉和语言注意力机制建模跨模态关系。其他一些方法将视频帧/剪辑和问题句内部的依赖关系融入到模型中,强化了多模态的表示学习能力。尽管现有方法在挖掘答案相关的多模态特征方面做出了巨大的努力,但它们无法同时进行模态间和模态内相关性的同步推理,难以有效捕捉跨模态数据间细粒度的关联信息,直接影响了跨模态交互的有效性。因此,视频问答方法中跨模态的特征关联与答案推理方式亟待改善,将模态内和模态间的关系整合到一个异构空间并进行同步推理更符合数据的逻辑,这也是目前亟需解决的问题。

技术实现思路

[0004]本专利技术要解决的技术问题是:提供一种基于跨模态异质图神经网络的视频问答方法,以多头多跳注意力的方式探索不同模态间的细粒度交互,利用交互后的多模态数据构建多流时空语义图,并通过图神经网络在异质图上执行跨模态的关系推理,提高视频问答的准确率,以解决现有技术中存在的技术问题。
[0005]本专利技术采取的技术方案为:一种基于跨模态异质图神经网络的视频问答方法,它包括跨模态特征提取及交互、多流时空语义图推理、视频和问题信息集成、特征融合及答案预测等四个部分,跨模态特征提取及交互部分将视频帧、剪辑和问题单词分别表示为视频的外观、运动及问题的语义特征,利用多头多跳注意力捕捉跨模态特征间的细粒度交互,多流时空语义图推理部分是在交互后的跨模态特征上构建异质图,利用图神经网络执行跨模态的关系推理,生成局部推理向量,视频和问题信息集成部分利用双线程池化模型从整体上融合视频和问题特征,生成全局向量,特征融合及答案预测部分将全局和局部向量进行特征融合并利用分类和回归技术进行问题答案的预测。
[0006]一种基于跨模态异质图神经网络的视频问答方法,其具体步骤如下:
[0007]步骤一:对视频帧序列进行均匀采样,并将视频均匀地切分成一系列的剪辑。利用残差神经网络和3D卷积神经网络分别将视频帧和剪辑提取为视频的外观和运动特征。对问题语句,利用训练好的词向量将其表示为问题语义特征。通过多头多跳注意力建模三种类型的特征间细粒度的特征交互;
[0008]步骤二:利用步骤一中交互后的跨模态特征构建多流时空语义图,图节点为视频帧、剪辑或问题单词,图边表示节点间的关系。为每个节点拼接该节点在原视频或问题中的位置嵌入。采用图卷积神经网络对异质图进行模态内和模态间关系的同步推理,生成局部推理向量;
[0009]步骤三:在步骤一产生的视频外观、运动和问题语义特征的基础上,利用双线性池化模型对三种类型的特征进行整体的关联和集成,从宏观上挖掘视频和问题之间全局的关联信息,生成全局向量;
[0010]步骤四:将步骤二生成的局部向量和步骤三生成的全局向量融合为一个跨模态联合特征向量。联合特征向量输入到根据问题类型设计的分类或回归模块中,实现问题答案的预测。
[0011]其中,步骤一中特征交互采用的多头多跳注意力是包含多头的多跳记忆内存网络。在计算注意力时,通过计算问题词和记忆内存之间的相似性来获取注意力权重。多头的方式可以促使注意力的多样性,而注意力从单步扩展到多跳可以实现细粒度的关系建模,生成更清晰、更准确的注意力分布。
[0012]其中,步骤二中多流时空语义图的构建数据源于多头多跳注意力进行特征交互后的跨模态信息。异构图上每个节点对应于一个视频帧、剪辑和问题单词,而节点之间的边代表两个节点之间的关联关系。图节点的位置嵌入是利用不同频率的正弦和余弦函数进行编码的。通过双层的图卷积神经网络对构造的异构图执行模态间和模态内相关性的同步推理,并将多流图的推理结果融合在一起生成局部推理向量。
[0013]其中,步骤三中特征关联和集成是对视频的整体特征表示和问题的特征表示进行多模态分解双线性池化融合,生成全局向量。由于步骤二中采用的图神经网络主要致力于局部因素的互动,缺乏全局信息的把握,对视频和问题进行整体的关联和集成而生成的全局向量能有效弥补局部向量的不足。
[0014]其中,步骤四中跨模态联合特征向量是视频和问题特征交互及推理的结果,融合了根据问题进行视频局部推理和全局推理的特征,能有效反应问题的答案。跨模态联合特征向量作为分类或回归模块的输入进行答案预测。
[0015]本专利技术的有益效果:与现有技术相比,本专利技术提出的基于跨模态异质图神经网络的视频问答方法具有三方面的优点:首先,本专利技术在视频帧、剪辑和问题词三种类型的多模态特征上建立了完整的异构图,使其能够建模更丰富、更有效的模态间和模态内的关联信息;其次,本专利技术设计了交叉关注的多跳注意力模型来建模视频和问题之间的关系,能捕捉细粒度的跨模态特征交互;另外,本专利技术将基于单路径的跨模态注意力和异质图扩展到多路径结构。这种策略明确地鼓励多样性学习,有利于捕捉不同的、互补的和有信息量的特征,从而提高视频问答的准确率,有效解决现有技术中的模态间和模态内的相关性不能有效地整合到一个统一的框架中的问题。
附图说明
[0016]图1是一种基于跨模态异质图神经网络的视频问答方法的流程示意图。
具体实施方式
[0017]下面结合附图及具体的实施例对本专利技术进行进一步介绍。
[0018]实施例1:如图1所示,本专利技术一种基于跨模态异质图神经网络的视频问答方法,具体实现步骤如下:
[0019]步骤一:跨模态特征提取及交互
[0020]针对视频信息,本专利技术对视频帧序列进行均匀采样,利用RestNet网络将视频帧提取为外观特征取为外观特征表示第i个视频帧对应的特征;将视频内容均匀地切分为一系列的剪辑,利用预先训练的C3D网络提取为视频运动特征匀地切分为一系列的剪辑,利用预先训练的C3D网络提取为视频运动特征表示第i个视频剪辑对应的特征。针对问题句,用预先训练好的Glove词嵌入将每个问题单词编码为一个固定长度的向量,则可将问题语义表示为Q={q1,...,q
i
,..本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态异质图神经网络的视频问答方法,其特征在于:该方法包括以下步骤:A、跨模态特征提取及交互:对于视频信息,利用不同的深度卷积神经网络分别将视频帧和剪辑提取为视频的外观和运动特征;对于问题语句,利用预先训练的词向量将其表示为问题语义特征;在特征提取的基础上,利用多头多跳注意力模型对三种类型的特征进行跨模态交互,以捕捉不同特征间的细粒度关系;B、多流时空语义图推理:基于跨模态特征构建多流时空语义图,在异质图内,进行模态间的关系捕捉以实现模态对齐,模态内的关系挖掘以学习视频及问题的空间、时序和语义信息,利用图神经网络在多流异质图上对模态内和模态间的关系进行同步推理,生成局部推理向量;C、视频和问题信息集成:在视频的外观、运动特征,以及问题语义特征的基础上,利用双线性池化模型对三种类型的特征进行整体的特征关联与集成,并生成全局向量,全局向量是对视频和问题之间特征关联与交互的全局把握;D、特征融合及答案预测:融合局部推理向量和全局向量生成跨模态的联合特征向量,将联合特征向量输入到根据问题类型设计的分类或回归模块中,实现问题答案的预测。2.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法,其特征在于:在步骤A中跨模态特征提取时,对视频帧序列进行均匀采样,利用残差神经网络提取帧级的视频外观特征;将视频均匀地切分成一系列的剪辑,利用3D卷积神经网络提取视频的运动特征;另外,利用预先训练好的词向量模型将问题句表示为问题语义特征。3.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法,其特征在于:步骤A中跨模态特征交互计算时,对于三种类型特征中的任意一种,分别计算它与另外两种特征间的交互,计算过程采用多跳的记忆内存网络进行细粒度的、渐进式的特征关联建模。4.根据权利要求3所述的一种基于跨模态异质图神经网络的视频问答方法,其特征在于:步骤A中多头多跳注意力模型...

【专利技术属性】
技术研发人员:刘赟田鹏李浪沈仕巡周克冯华仲
申请(专利权)人:茅台学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1