一种基于分层与整体多模态特征结合的视频问答方法技术

技术编号：40811587 阅读：3 留言：0更新日期：2024-03-28 19:33

本发明专利技术公开了一种基于分层与整体多模态特征结合的视频问答方法，先提取视频中的外观特征、运动特征和空间特征，由外观特征、运动特征和空间特征获取视频的全局特征；再提取问答语句中的特征，获得文本特征；构建深度学习分层模型，所述深度学习分层模型具有多层条件双向注意图卷积模块和预测模块；将空间特征与文本特征输入至深度学习分层模型中得到第一最终特征与第二最终特征，将第一最终特征与第二最终特征作为输入，由预测模块中进行最终的答案输出。本发明专利技术可以集成多个方面的特征，从而正确分析问题并提供准确的答案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频问答，特别涉及一种基于分层与整体多模态特征结合的视频问答方法。

技术介绍

1、对于视频问答这个任务来说，尽管越来越多的研究者开始探讨这个研究，但是现有的模型依旧不能达到令人满意的水平。现有的模型主要分为早期基于注意力的模型、基于记忆网络的模型、基于transformer的模型、基于图神经网络的模型和其他模型。有学者提出了一种基于双向lstm的方法，该方法具有空间和时间注意力机制，可以更好地关注视频中的关键帧和帧中的关键区域。有学者首先将记忆网络纳入并修改到视频问答中，以将视频和字幕特征存储在记忆库中。有学者首次将transformer的架构在没有预训练的情况下引入视频问答，该架构由两个位置自注意块和一个视频问题共注意块组成，前者用于取代lstm，后者用于同时处理视觉和文本信息。有学者使用的图结构技术被证明更倾向于提高视频问答模型的推理能力。然而将视频和问题整体编码，不仅失去了视频中所包含的不同种类的信息，同时减少了视频中不同层次的内容和问题的交互，而如果仅仅使用层次信息，则会使模型更加离散化，无法完整的理解视频信息。

技术实现思路

1、本专利技术的目的在于，提供一种基于分层与整体多模态特征结合的视频问答方法。本专利技术可以集成多个方面的特征，从而正确分析问题并提供准确的答案。

2、本专利技术的技术方案：一种基于分层与整体多模态特征结合的视频问答方法，包括如下步骤：

3、步骤1、提取视频中的外观特征、运动特征和空间特征，由外观特征、运动特征和

4、步骤2、提取问答语句中的特征，获得文本特征；

5、步骤3、构建深度学习分层模型，所述深度学习分层模型具有多层条件双向注意图卷积模块和预测模块；

6、步骤4、将空间特征与文本特征输入至深度学习分层模型的第一层条件双向注意图卷积模块中，得到第一输出特征，将第一输出特征与外观特征进行串联结合然后输出入到第二层条件双向注意图卷积模块中，得到第二输出特征，将第二输出特征与运动特征结合，再输入到第三层条件双向注意图卷积模块中，得到第三输出特征；

7、步骤5、将第三输出特征与全局特征进行串联结合，得到第一图数据，然后使用随机mask掩码的方法进行图数据增强，得到第二图数据，再将第一图数据和第二图数据分别通过图卷积得到第一最终特征与第二最终特征；

8、步骤6、将第一最终特征与第二最终特征作为输入，由预测模块中进行最终的答案输出。

9、上述的基于分层与整体多模态特征结合的视频问答方法，步骤1中，首先将视频切分为k个片段，每个片段中包含l帧，然后使用resnet-101来提取视频帧中的外观特征fa，使用resnext-101来提取视频的运动特征fm，使用预训练的对象检测器来提取视频帧中的n个感兴趣空间，作为视频的空间特征fi。

10、前述的基于分层与整体多模态特征结合的视频问答方法，步骤1中，在提取完三种特征之后，将三种特征通过一维卷积层沿着时间维度投影到d维空间；其中，对于空间特征中的每个对象，分别添加了边界框位置fs和时间位置ft来强化空间特征表示，把三个分量连接起来并通过线性变换使其投影到d维空间，接着使用elu进行激活；对于外观特征和运动特征，沿着时间维度应用两个一维卷积来实现投影，滑动窗口大小设置为3，接着使用elu进行激活；然后将d维空间的三种特征串联起来并用elu进行激活，由此获得视频的全局特征faim。

11、前述的基于分层与整体多模态特征结合的视频问答方法，步骤2中，使用bi-gru将问答语句中的词语投影到d维空间作为部分视觉输入，表示为语言查询q，语言查询q由句中每个词语前向隐藏状态和后向隐藏状态连接表示，将最后一个隐藏状态作为文本全局向量，表示文本特征fq。

12、前述的基于分层与整体多模态特征结合的视频问答方法，所述条件双向注意图卷积模块首先将一组输入视频节点xin通过用语言查询q扩充，表示来实现：

13、

14、式中，σ为softmax归一化函数；t表示转置矩阵；αm为第m个归一化函数；qm为第m个语言查询q，m为所有的语言查询数量；

15、再通过动态计算节点对之间的相似性并用邻接矩阵a来表示边：

16、

17、式中：表示可学习参数wav和wak的线性变换；

18、然后，应用具有跳跃连接的h层图注意力聚合，以基于邻接矩阵a来细化与其邻居相关的节点：

19、

20、式中：qh和为第h层注意力的参数和输出；i为跳跃连接的单位矩阵；

21、输出节点通过最后一个跳跃连接获得：

22、

23、在输出节点中应用自注意池来得到最终聚合，表示xf：

24、

25、式中：wf为可学习的线性映射权重。

26、前述的基于分层与整体多模态特征结合的视频问答方法，步骤4中，首先将空间特征fi作为输入，并与文本特征一起输入到条件双向注意图卷积模块，得到第一输出特征：

27、foi＝cbagc(fi)；

28、式中，cbagc表示条件双向注意图卷积模块的计算过程；

29、得到输出特征与外观特征fa串联结合：

30、

31、式中：wai为线性层的参数；t为当前帧；

32、然后将输入到第二层条件双向注意图卷积模块中，得到第二输出特征fs：

33、

34、再将第二输出特征fs与运动特征fm串联结合结合获得特征fms，再输入到第三层条件双向注意图卷积模块，得到第三输出特征fl：

35、fl＝cbagc(fms)。

36、前述的基于分层与整体多模态特征结合的视频问答方法，步骤5中，将第三输出特征fl与全局特征faim串联结合得到第一图数据fla，使用了随机mask与邻接矩阵a相乘进行图数据增强，得到第二图数据fmask，然后将fla与fmask分别通过图卷积得到第一最终特征fv与第二最终特征

37、前述的基于分层与整体多模态特征结合的视频问答方法，步骤6中，对于多选类问题，预测模型将第一最终特征fv与文本特征fq进行点积并用具有softmax的全连接层作为分类器:

38、

39、式中，s为预测得分；wa、wb和b为可学习的参数，其中wa、wb分别为权重参数，b为偏差；

40、对于开放式问题，预测模型将文本特征fq和第一最终特征fv连接起来并进行分类:

41、

42、式中：wqv、wqvm、wa和wb为可学习的权重参数；

43、在训练过程中，通过最小化交叉熵损失来实现优化

44、

45、式中：si是第i个样本的预测分数；aoe为预定义答案集大小；

46、如果答案索引对应的第i个样本的答案符合，则yi为1，否则为0。

47、与现有技术本文档来自技高网...

【技术保护点】

1.一种基于分层与整体多模态特征结合的视频问答方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤1中，首先将视频切分为k个片段，每个片段中包含L帧，然后使用ResNet-101来提取视频帧中的外观特征Fa，使用ResNeXt-101来提取视频的运动特征Fm，使用预训练的对象检测器来提取视频帧中的n个感兴趣空间，作为视频的空间特征Fi。

3.根据权利要求2所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤1中，在提取完三种特征之后，将三种特征通过一维卷积层沿着时间维度投影到d维空间；其中，对于空间特征中的每个对象，分别添加了边界框位置fs和时间位置ft来强化空间特征表示，把三个分量连接起来并通过线性变换使其投影到d维空间，接着使用ELU进行激活；对于外观特征和运动特征，沿着时间维度应用两个一维卷积来实现投影，滑动窗口大小设置为3，接着使用ELU进行激活；然后将d维空间的三种特征串联起来并用ELU进行激活，由此获得视频的全局特征faim。

4.根据权利要求1所述的基

5.根据权利要求4所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：所述条件双向注意图卷积模块首先将一组输入视频节点Xin通过用语言查询Q扩充，表示为：

6.根据权利要求5所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤4中，首先将空间特征Fi作为输入，并与文本特征一起输入到条件双向注意图卷积模块，得到第一输出特征：

7.根据权利要求5所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤5中，将第三输出特征Fl与全局特征faim串联结合得到第一图数据fla，使用了随机mask与邻接矩阵A相乘进行图数据增强，得到第二图数据fmask，然后将fla与fmask分别通过图卷积得到第一最终特征fV与第二最终特征

8.根据权利要求1所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤6中，对于多选类问题，预测模型将第一最终特征fV与文本特征fQ进行点积并用具有softmax的全连接层作为分类器：

...

【技术特征摘要】

1.一种基于分层与整体多模态特征结合的视频问答方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤1中，首先将视频切分为k个片段，每个片段中包含l帧，然后使用resnet-101来提取视频帧中的外观特征fa，使用resnext-101来提取视频的运动特征fm，使用预训练的对象检测器来提取视频帧中的n个感兴趣空间，作为视频的空间特征fi。

3.根据权利要求2所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤1中，在提取完三种特征之后，将三种特征通过一维卷积层沿着时间维度投影到d维空间；其中，对于空间特征中的每个对象，分别添加了边界框位置fs和时间位置ft来强化空间特征表示，把三个分量连接起来并通过线性变换使其投影到d维空间，接着使用elu进行激活；对于外观特征和运动特征，沿着时间维度应用两个一维卷积来实现投影，滑动窗口大小设置为3，接着使用elu进行激活；然后将d维空间的三种特征串联起来并用elu进行激活，由此获得视频的全局特征faim。

4.根据权利要求1所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤2中，使用bi-gru将问答...

【专利技术属性】
技术研发人员：孙晓勇，戴煜，马伟锋，王雨晨，林雪芬，
申请(专利权)人：浙江科技学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人