一种基于跨模态异质图神经网络的视频问答方法技术

技术编号：34736891 阅读：43 留言：0更新日期：2022-08-31 18:27

本发明专利技术公开了一种基于跨模态异质图神经网络的视频问答方法，该方法为：将视频问答任务中的信息分为视频帧、视频剪辑和问题语句，分别将它们提取为对应特征，利用多头多跳注意力对三种类型的特征进行跨模态交互；基于跨模态特征构建多流时空语义图，图中的每个节点对应于一个视频帧、剪辑或问题单词；在异质图上利用图神经网络执行模态内和模态间的同步推理，生成局部推理向量；基于多模态双线性池化模型融合视频和问题信息，实现整体的特征关联并生成全局向量；将局部和全局向量集成为一个多模态的联合特征向量，用于答案推导。本发明专利技术利用细粒度的关联信息，并根据问题类型利用分类或回归技术实现答案预测，显著提高了视频问答的准确性。答的准确性。答的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于跨模态异质图神经网络的视频问答方法

[0001]本专利技术涉及一种基于跨模态异质图神经网络的视频问答方法，属于人机交互和自助服务

技术介绍

[0002]由于信息技术的迅速发展和移动智能终端的广泛普及，大量的社交网络平台井喷式地涌现，每天都有庞大的用户在不同的社交平台上分享图片、视频、文字等信息以展示他们的个人经历或生活态度等。这其中，视频成了一种重要的信息载体，而处理海量视频数据工作量极大，远超人脑信息处理的能力。因此，利用人工智能技术自动分析并理解视频信息成为了必然的趋势。视频问答是目前视频内容理解较好的切入点，它需要根据问题的语义对视频进行针对性的理解，并根据视频内容推导出问题的答案。由于视频问答涉及视觉和自然语言两种模态的信息处理，且视频具有空间和时序两方面的复杂特征，使得视频问答技术的发展面临重大挑战。然而，突破视频问答技术不仅能促进视频内容理解的发展，还能广泛应用于人机交互、自动客户服务、早期教育等场景，对相关领域的发展具有重要贡献。
[0003]当前占主导位置的视频问答方法主要致力于探索视频内容与问题语义之间的潜在关联。这类方法利用各种不同的视觉和语言注意力机制建模跨模态关系。其他一些方法将视频帧/剪辑和问题句内部的依赖关系融入到模型中，强化了多模态的表示学习能力。尽管现有方法在挖掘答案相关的多模态特征方面做出了巨大的努力，但它们无法同时进行模态间和模态内相关性的同步推理，难以有效捕捉跨模态数据间细粒度的关联信息，直接影响了跨模态交互的有效性。因此，视频问答方法中跨模态的特征关联...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态异质图神经网络的视频问答方法，其特征在于：该方法包括以下步骤：A、跨模态特征提取及交互：对于视频信息，利用不同的深度卷积神经网络分别将视频帧和剪辑提取为视频的外观和运动特征；对于问题语句，利用预先训练的词向量将其表示为问题语义特征；在特征提取的基础上，利用多头多跳注意力模型对三种类型的特征进行跨模态交互，以捕捉不同特征间的细粒度关系；B、多流时空语义图推理：基于跨模态特征构建多流时空语义图，在异质图内，进行模态间的关系捕捉以实现模态对齐，模态内的关系挖掘以学习视频及问题的空间、时序和语义信息，利用图神经网络在多流异质图上对模态内和模态间的关系进行同步推理，生成局部推理向量；C、视频和问题信息集成：在视频的外观、运动特征，以及问题语义特征的基础上，利用双线性池化模型对三种类型的特征进行整体的特征关联与集成，并生成全局向量，全局向量是对视频和问题之间特征关联与交互的全局把握；D、特征融合及答案预测：融合局部推理向量和全局向量生成跨模态的联合特征向量，将联合特征向量输入到根据问题类型设计的分类或回归模块中，实现问题答案的预测。2.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法，其特征在于：在步骤A中跨模态特征提取时，对视频帧序列进行均匀采样，利用残差神经网络提取帧级的视频外观特征；将视频均匀地切分成一系列的剪辑，利用3D卷积神经网络提取视频的运动特征；另外，利用预先训练好的词向量模型将问题句表示为问题语义特征。3.根据权利要求1所述的一种基于跨模态异质图神经网络的视频问答方法，其特征在于：步骤A中跨模态特征交互计算时，对于三种类型特征中的任意一种，分别计算它与另外两种特征间的交互，计算过程采用多跳的记忆内存网络进行细粒度的、渐进式的特征关联建模。4.根据权利要求3所述的一种基于跨模态异质图神经网络的视频问答方法，其特征在于：步骤A中多头多跳注意力模型...

【专利技术属性】
技术研发人员：刘赟，田鹏，李浪，沈仕巡，周克，冯华仲，
申请(专利权)人：茅台学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人