基于关键词感知的多模态注意力视频问答方法与系统技术方案

技术编号：31790632 阅读：9 留言：0更新日期：2022-01-08 10:48

本发明专利技术公开了一种基于关键词感知的多模态注意力视频问答方法与系统。包括：运用多模态特征提取和预训练模型KeyBert关键词提取算法，提取输入视频的各个多模态特征；运用关键词感知的多模态注意力算法，处理提取的各多模态特征，输出经有效关联和融合后的多模态特征；将已融合的多模态特征经过多层感知机MLP，输出预测的答案。本发明专利技术还公开了一种基于关键词感知的多模态注意力视频问答计算机设备及计算机可读存储介质。本发明专利技术在提取视频特征时，结合更为隐式的关键词特征，提取更为丰富的视频特征；在特征融合时，结合自注意力机制捕获特征的时序性，应用双向注意力机制强调模态间互相关联的信息，更有效地融合多模态特征，显著提高视频问答的准确率。显著提高视频问答的准确率。显著提高视频问答的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于关键词感知的多模态注意力视频问答方法与系统

[0001]本专利技术涉及计算机视觉
，具体涉及一种基于关键词感知的多模态注意力视频问答方法、基于关键词感知的多模态注意力视频问答系统、计算机设备及计算机可读存储介质。

技术介绍

[0002]近年来，随着人工智能技术的发展，视频问答技术应运而生。视频问答技术能够根据所提出的问题，快速有效地根据视频的内容预测相应的答案，从而帮助用户迅速地理解视频内容，获取想要的视频信息，减少人们在冗长的视频中筛选信息的时间。传统的视觉问答技术主要针对单个的静态图像，而视频是由大量的视频帧组成的，视频在语义上包含了视觉、文本和音频信息，且具有非结构化、多模态、时间性和空间性等特点。因此，视频问答技术必须处理更多的输入数据，同时需要具体的方法提取视觉内容和文本内容，并进行有效的融合。
[0003]目前大多数视频问答技术模型直接利用全部的视频信息来回答问题，难以精确提取核心的、有效的特征信息，通常受无效的、多余的信息影响而存在视频问答准确率低的劣势，难以广泛应用。
[0004]目前的现有技术之一，专利“一种基于动作的关系网络视频问答系统及方法”，使用时序动作检测网络的结果辅助视频特征的编码，强调了视频的动作因素，而后将动作概率分布与初始的视频特征被一起输入到神经网络的编码器中，以学习视频特征使最终的视频特征能够包含动作信息，最后，将输出的视频特征与问题特征输入一个多头的关系转换器网络中，通过此网络输出最后的结果进行视频问答。该技术的缺点在于，没有强调多模态特征中互相关联的...

【技术保护点】

【技术特征摘要】
1.一种基于关键词感知的多模态注意力视频问答方法，其特征在于，所述方法包括：输入视频帧、字幕文本和问题文本信息，利用多模态特征提取算法和关键词提取算法，提取输入视频的多模态特征；利用关键词感知的多模态注意力算法，对所述视频的多模态特征进行处理，经有效关联和融合后，输出已融合的多模态特征；利用多层感知机MLP，对所述已融合的多模态特征进行处理后，输出预测的答案。2.如权利要求1所述的基于关键词感知的多模态注意力视频问答方法，其特征在于，将所述输入的视频帧、字幕文本和问题文本信息，利用多模态特征提取算法和关键词提取算法，提取输入视频的多模态特征，具体为：利用卷积网络C3D提取所述视频帧的动作标签，利用对象检测算法Yolo提取所述视频帧的视觉标签，并将所述动作标签和视觉标签合为一个视觉标签集合；将所述视觉标签集合、问题文本和字幕文本整合为一个长句子，利用预训练模型KeyBert进行关键词提取，输出提取的关键词集合；利用预训练模型BERT和双向神经网络LSTM编码器，对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理，得到所述文本特征的编码；将所述视频帧输入神经网络ResNet，直接提取所述视频帧对应图片的视觉特征，并输入双向LSTM获得视觉特征表示；结合所述文本特征和所述视觉特征，得到多模态特征。3.如权利要求1所述的基于关键词感知的多模态注意力视频问答方法，其特征在于，所述利用关键词感知的多模态注意力算法，对所述视频的多模态特征进行处理，经有效关联和融合后，输出已融合的多模态特征，具体为：利用软注意力机制，对所述多模态特征中的关键词特征和字幕文本特征进行关联，筛选出与所述关键词特征更相关的字幕文本，并将所述两个特征合为一个关键字幕文本特征；相似地，对所述多模态特征中的关键词特征和问题文本特征进行关联，筛选出与所述关键词特征更相关的问题文本，并将所述两个特征合为一个关键问题文本特征；对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制，增强所述特征的时序性，并分别输出各模态的特征表示；对所述各模态特征两两之间应用双向注意力机制，关联不同模态特征中的相关信息，以提高特征融合的效果。4.如权利要求1所述的基于关键词感知的多模态注意力视频问答方法，其特征在于，利用MLP，对所述已融合的多模态特征进行处理后，输出预测的答案，具体为：定义一个两层MLP作为分类器，所述分类器的结构如下：FC(2048)
‑
ReLU
‑
FC(n)其中，FC为神经网络的全连接层，2048为神经元的个数；ReLU为神经网络的激活函数，n为全连接层其输出维度，由候选答案的个数决定；经过MLP后，输出对每个候选答案的预测得分，具体如下：
其中，为所述已融合的多模态特征，x为每个候选答案的预测得分，x＝x1,x2,
…
,x
n
；使用softmax函数对所述预测得分进行归一化，得到每个候选答案的预测概率；使用argmax函数选取所有所述候选答案中预测概率的最大值，具体如下：y＝atgmax(softmax(x))其中，y为所述预测概率的最大值；在训练时，使用交叉熵损失函数来衡量模型的输出与真实的输出之间的差距，具体公式如下：其中，x为样本，概率分布p为真实答案的期望输出，概率分布q为实...

【专利技术属性】
技术研发人员：王若梅，陈铎，周凡，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人