【技术实现步骤摘要】
基于稀疏采样进行端到端训练的视频问答方法与系统
[0001]本专利技术涉及计算机视觉,自然语言处理
,具体涉及一种基于稀疏采样进行端到端训练的视频问答的方法、计算机设备及计算机可读存储介质。
技术介绍
[0002]近年来,视觉和语言理解任务因其包含了真实世界的动态场景信息而受到越来越多的关注。它有助于有效聚合海量数据,为在线学习提供教育资源。视频问答在深度视觉和语言理解方面起着至关重要的作用。视频问答的主要目标是学习一个模型,该模型需要理解视频和问题中的语义信息,以及它们的语义关联,以预测给定问题的正确答案。在视频问答中应用了多种人工智能技术,包括对象检测和分割、特征提取、内容理解、分类等。综合表现的评估指标是答对问题的百分比。视频问答可以应用于许多实际应用中,如用户自由提问的视频内容检索,视障人士的视频内容理解等。视频问答打破了视觉和语言的语义鸿沟,从而促进了视觉理解和人机交互。
[0003]视频问答的研究是推动计算机视觉和自然语言处理研究领域发展的一项重要而具有挑战性的任务。目前,视频问答仍有大量的空间进行 ...
【技术保护点】
【技术特征摘要】
1.一种基于稀疏采样进行端到端训练的视频问答方法与系统,其特征在于,所述方法包括:收集视频片段数据集,将完整视频进行稀疏采样,选取其中注意力权重高的N个视频片段;利用所述采样得到的每一个视频片段进行预处理,对其视觉编码、时间融合、位置嵌入等,生成该视频片段的视频特征序列;利用可训练的词嵌入网络对问题文本信息进行编码,进行位置嵌入操作,得到文本词向量序列;将所述N个视频片段得到的N个视频特征序列分别与所述文本词向量序列进行交叉模型融合和预测,得到N个预测结果,再将N个预测结果进行融合得到最终预测答案;初始化神经网络模型结构中的权重参数,进行端到端训练,至损失函数的结果收敛到合适阈值,训练完成后得到视频问答模型;输入待处理问题和对应的视频到所述训练后的视频问答模型中,利用其生成预测答案。2.如权利要求1所述的基于稀疏采样进行端到端训练的视频问答方法与系统,其特征在于,所述将完整视频稀疏采样进行预处理,具体为:对完整视频进行稀疏采样处理,将视频切分成时长适当且相同的多个视频片段,利用时间注意力模型得到每个视频片段的注意力权重,选取注意力权重高的若干个视频片段进行训练。3.如权利要求1所述的基于稀疏采样进行端到端训练的视频问答方法与系统,其特征在于,将所述采样得到的视频片段进行视觉编码、时间融合、位置嵌入等,生成视频特征序列,构造视频特征序列数据集,具体为:在视频片段中均匀采样T个帧,使用卷积神经网络对每一帧进行视觉编码,利用卷积层减小特征长度,利用最大池化层进行空间下采样,使用平均池化将帧层次的特征图按时间顺序聚合成一张视频片段层次的特征图,再基于特征图中的特征向量的2维位置,添加行位置嵌入向量和列位置嵌入向量,对所述特征图进行位置嵌入。4.如权利要求1所述的基于稀疏采样进行端到端训练的视频问答方法与系统,其特征在于,所利用可训练的词嵌入网络对问题文本信息进行编码,进行位置嵌入操作,得到文本词向量序列,构造文本词向量数据集,具体为:利用词嵌入网络中可训练的神经网络将问题文本中的词转换成向量,将所有词向量结合得到一个词向量序列,再根据词的位置信息,添加可训练的位置嵌入向量到每个词向量中,对所述词向量序列进行位置嵌入。5.如权利要求1所述的基于稀疏采样进行端到端训练的视频问答的方法,其特征在于,所述将所述预处理后的N个视频特征序列与所述文本词向量序列进行交叉模型融合和预测,并将每个视频片段的预测结果融合得到最终预测答案,具体为:将所述每一个视频特征序列与文本词向量序列连接起来输入12层的Transformer模型进行交叉融合和预测,共得到N个预测预测结果,P
i
为预测结果:P
i
=Trans(F
v
(c
i
),F
l
(S))其中,Trans表示12层Transformer模型,F
v
表示视觉编码器,F
l
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。