当前位置: 首页 > 专利查询>中山大学专利>正文

基于稀疏采样进行端到端训练的视频问答方法与系统技术方案

技术编号:31487732 阅读:11 留言:0更新日期:2021-12-18 12:23
本发明专利技术公开了一种基于稀疏采样进行端到端训练的视频问答方法。包括:对输入的视频进行稀疏采样得到相同时长的N个视频片段;将采样得到的每一个视频片段进行视觉编码、时间融合、位置嵌入,生成该视频片段的视频特征序列;对文本信息编码得到词向量序列,并对其进行位置嵌入;将N个视频片段特征序列和词向量序列进行交叉模型融合和预测,得到N个预测结果,最后再将N个预测结果融合得到最终答案;输入视频和问题到模型中预测问题答案。本发明专利技术也公开了一种基于稀疏采样进行端到端训练的视频问答的系统、设备及存储介质。本发明专利技术通过稀疏采样解决视频问答任务的方法,相对于基于注意力模型视频问答方法,本发明专利技术模型收敛更快,预测准确性更高。准确性更高。准确性更高。

【技术实现步骤摘要】
基于稀疏采样进行端到端训练的视频问答方法与系统


[0001]本专利技术涉及计算机视觉,自然语言处理
,具体涉及一种基于稀疏采样进行端到端训练的视频问答的方法、计算机设备及计算机可读存储介质。

技术介绍

[0002]近年来,视觉和语言理解任务因其包含了真实世界的动态场景信息而受到越来越多的关注。它有助于有效聚合海量数据,为在线学习提供教育资源。视频问答在深度视觉和语言理解方面起着至关重要的作用。视频问答的主要目标是学习一个模型,该模型需要理解视频和问题中的语义信息,以及它们的语义关联,以预测给定问题的正确答案。在视频问答中应用了多种人工智能技术,包括对象检测和分割、特征提取、内容理解、分类等。综合表现的评估指标是答对问题的百分比。视频问答可以应用于许多实际应用中,如用户自由提问的视频内容检索,视障人士的视频内容理解等。视频问答打破了视觉和语言的语义鸿沟,从而促进了视觉理解和人机交互。
[0003]视频问答的研究是推动计算机视觉和自然语言处理研究领域发展的一项重要而具有挑战性的任务。目前,视频问答仍有大量的空间进行进一步的研究和性能改进。现有的解决方法主要是利用其他任务中已训练好的视觉和语言模型来从视频和问答对中提取密集特征,然后用这些特征去训练神经网络模型。但由于其他任务中已训练好的模型往往是次优的,提取出的特征可能缺失了回答问题所需的信息,并不能完全契合视频问答任务的要求。而且存在一个突出的性能问题是视频包含的数据量大,从完整视频中提取出的特征多,进行模型训练时需要大量的资源设备支持,耗费的时间长,更无法支持端到端的模型训练。
[0004]目前的现有技术之一,一种基于注意力模型的视频问答方法。该方法基于编码解码的框架进行设计,采用端到端的方式学习视频的视觉信息和语义信息。该专利技术自主设计帧模型来提取视频的特征向量。在编码阶段,通过长短期记忆网络学习视频的场景特征表示,并将其作为解码阶段文本模型的初始状态输入,同时,在文本模型中加入的注意力机制能够有效的增强视频帧和问题之间的联系,更好的解析出视频的语义信息。该方法的缺点是从视频中提取的特征向量数据量大,当数据集非常大时难以进行端到端训练。
[0005]目前的现有技术之二,利用结合关系互动的视频转换器解决视频问答任务的方法。该方法设计一种利用结合关系互动的视频转换器模型完成对于视频问答任务的答案获取。通过训练得到最终的视频转换器模型,利用该模型生成视频问答任务的答案。该方法的缺点是提出的视频转换器模型无法准确提取到回答问题所需要的信息,导致生成问题的答案准确率较低。
[0006]目前的现有技术之三,利用自适应的时空图模型通过提升视频

语言表征学习来解决视频问答问题的方法及其系统。该方案首先针对一组视频、问题、答案训练集,使用目标检测器获取每个视频帧的目标级别的信息。其次,对于目标级别的信息,使用自适应的时空图模型学到目标的动态表达。最后,使用Transformer模型学习视觉和文本信息之间的联
系,增强视觉问答的性能。该方案的缺点是其使用预训练好的目标检测器来提取视频的信息和特征,因为目标检测器是使用其他任务的数据集进行训练的,提取出的特征可能缺失了回答问题所需的信息,导致最终生成的答案不准确,不完整。

技术实现思路

[0007]本专利技术的目的是克服现有方法的不足,提出了基于稀疏采样进行端到端训练的视频问答方法、系统、设备及存储介质。本专利技术解决的主要问题,一是现有利用预训练好的模型提取视觉特征以及文本特征,不能完整地提取出视频问答任务的特征表示,导致最终生成的答案不准确,不完整,本专利技术通过分析与问题注意力较高的视频片段,进行端到端训练使得所得到的答案准确度更高;二是视频包含的数据量大,训练模型需要大量的资源设备支持,耗时耗力,本专利技术通过稀疏采样,筛选掉大量与问答无关片段训练,节约了大量训练资源。
[0008]为了解决上述问题,本专利技术提出了一种基于稀疏采样进行端到端训练的视频问答方法,所述方法包括:
[0009]收集视频片段数据集,将完整视频进行稀疏采样,选取其中注意力权重高的N个视频片段进行训练;
[0010]利用所述采样得到的每一个视频片段进行预处理,对其视觉编码、时间融合、位置嵌入等,生成该视频片段的视频特征序列,构造视频数据集;
[0011]利用可训练的词嵌入网络对问题文本信息进行编码,进行位置嵌入操作,得到文本词向量序列,构造问题文本词向量数据集;
[0012]将所述预处理后的N个视频特征序列与所述文本词向量序列进行交叉模型融合和预测,得到N个预测结果,将N个预测结果融合得到最终预测答案;
[0013]初始化神经网络模型结构中的权重参数,使用所述收集的视频和问答数据集,进行端到端训练,直到损失函数的结果收敛到合适阈值。
[0014]输入待处理问题和对应的视频到所述训练后的模型中,利用其生成预测答案,并使用测试集对模型的准确性进行测试,得出模型在测试集上的准确率。
[0015]优选地,所述收集视频片段数据集,将完整视频进行稀疏采样,选取其中注意力权重高的若干视频片段进行训练,具体为:
[0016]对完整视频进行稀疏采样处理;
[0017]将视频切分成时长适当且相同的多个视频片段,利用时间注意力模型得到每个视频片段的注意力权重,选取注意力权重高的N个视频片段进行训练。
[0018]优选地,所述采样得到的视频片段进行预处理,对其视觉编码、时间融合、位置嵌入等,生成视频特征序列,构造视频数据集,具体为:
[0019]在每一个视频片段中均匀采样适当帧,对于每一帧,使用卷积神经网络进行视觉编码,利用额外的卷积层以减小输出的特征长度,利用最大池化层进行空间下采样,每一帧得到对应的特征图。
[0020]将所述特征图进行时间融合,使用平均池化将帧层次的特征图按时间顺序聚合成一张视频片段层次的特征图,再对所述特征图进行位置嵌入,基于特征图中的特征向量的2维位置,添加行位置嵌入向量和列位置嵌入向量,得到该视频片段的视频特征序列。
[0021]优选地,所述在利用可训练的词嵌入网络对问题文本信息进行编码,进行位置嵌入操作,得到文本词向量序列,构造问题文本词向量数据集,具体为:
[0022]利用词嵌入网络中可训练的神经网络将问题文本中的词转换成向量,将所有词向量结合得到一个词向量序列;再对所述词向量序列进行位置嵌入,根据词的位置信息,添加一个可训练的位置嵌入向量到每个词向量中。
[0023]优选地,所述将所述预处理后的N个视频特征序列与所述文本词向量序列进行交叉模型融合和预测,并将每个视频片段的预测结果融合得到最终预测答案,具体为:
[0024]将所述每一个视频特征序列与文本词向量序列连接起来输入12层的Transformer模型进行交叉模型融合和预测,得到预测结果P
i

[0025]P
i
=Trans(F
v
(c
i
),F
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于稀疏采样进行端到端训练的视频问答方法与系统,其特征在于,所述方法包括:收集视频片段数据集,将完整视频进行稀疏采样,选取其中注意力权重高的N个视频片段;利用所述采样得到的每一个视频片段进行预处理,对其视觉编码、时间融合、位置嵌入等,生成该视频片段的视频特征序列;利用可训练的词嵌入网络对问题文本信息进行编码,进行位置嵌入操作,得到文本词向量序列;将所述N个视频片段得到的N个视频特征序列分别与所述文本词向量序列进行交叉模型融合和预测,得到N个预测结果,再将N个预测结果进行融合得到最终预测答案;初始化神经网络模型结构中的权重参数,进行端到端训练,至损失函数的结果收敛到合适阈值,训练完成后得到视频问答模型;输入待处理问题和对应的视频到所述训练后的视频问答模型中,利用其生成预测答案。2.如权利要求1所述的基于稀疏采样进行端到端训练的视频问答方法与系统,其特征在于,所述将完整视频稀疏采样进行预处理,具体为:对完整视频进行稀疏采样处理,将视频切分成时长适当且相同的多个视频片段,利用时间注意力模型得到每个视频片段的注意力权重,选取注意力权重高的若干个视频片段进行训练。3.如权利要求1所述的基于稀疏采样进行端到端训练的视频问答方法与系统,其特征在于,将所述采样得到的视频片段进行视觉编码、时间融合、位置嵌入等,生成视频特征序列,构造视频特征序列数据集,具体为:在视频片段中均匀采样T个帧,使用卷积神经网络对每一帧进行视觉编码,利用卷积层减小特征长度,利用最大池化层进行空间下采样,使用平均池化将帧层次的特征图按时间顺序聚合成一张视频片段层次的特征图,再基于特征图中的特征向量的2维位置,添加行位置嵌入向量和列位置嵌入向量,对所述特征图进行位置嵌入。4.如权利要求1所述的基于稀疏采样进行端到端训练的视频问答方法与系统,其特征在于,所利用可训练的词嵌入网络对问题文本信息进行编码,进行位置嵌入操作,得到文本词向量序列,构造文本词向量数据集,具体为:利用词嵌入网络中可训练的神经网络将问题文本中的词转换成向量,将所有词向量结合得到一个词向量序列,再根据词的位置信息,添加可训练的位置嵌入向量到每个词向量中,对所述词向量序列进行位置嵌入。5.如权利要求1所述的基于稀疏采样进行端到端训练的视频问答的方法,其特征在于,所述将所述预处理后的N个视频特征序列与所述文本词向量序列进行交叉模型融合和预测,并将每个视频片段的预测结果融合得到最终预测答案,具体为:将所述每一个视频特征序列与文本词向量序列连接起来输入12层的Transformer模型进行交叉融合和预测,共得到N个预测预测结果,P
i
为预测结果:P
i
=Trans(F
v
(c
i
),F
l
(S))其中,Trans表示12层Transformer模型,F
v
表示视觉编码器,F
l

【专利技术属性】
技术研发人员:王若梅欧锐植周凡
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1