【技术实现步骤摘要】
视频问答方法、装置、系统及存储介质
[0001]本公开实施例涉及但不限于自然语言处理
,尤指一种视频问答方法、装置、系统及存储介质。
技术介绍
[0002]在当前的移动互联网、大数据时代,网络上的视频数据呈现爆发式增长,作为日益丰富的信息承载媒介,对视频的语义进行理解是诸多视频智能应用的技术,具有重要的研究意义和实际应用价值。视频问答(Video QA)是给定一个视频片段和问题,从候选集合中推断出正确答案的任务,随着计算机视觉和自然语言处理的进步,视频问答在视频检索、智能问答系统、辅助驾驶系统和自动驾驶等方面的广泛应用受到越来越广泛的关注。
技术实现思路
[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]本公开实施例提供了一种视频问答方法,包括:
[0005]针对输入的视频提取视频特征向量,针对问题文本与候选答案文本提取文本特征向量,其中,所述问题文本用于描述问题,所述候选答案文本用于提供多个候选答案;将所述视频特征向量与所述文本特征向量进行拼接,得到拼接特征向量,将所述拼接特征向量输入第一预训练模型,所述第一预训练模型通过自注意力机制,学习所述视频特征向量和所述文本特征向量之间的跨模态信息,得到编码后的第二拼接特征向量;
[0006]将所述第二拼接特征向量分成第二视频特征向量和第二文本特征向量;将所述第二视频特征向量和第二文本特征向量输入模态融合模型,所述模态融合模型通过互注意力机制,对所述第二视频特征向量和第二文本特征 ...
【技术保护点】
【技术特征摘要】
1.一种视频问答方法,其特征在于,包括:针对输入的视频提取视频特征向量,针对问题文本与候选答案文本提取文本特征向量,其中,所述问题文本用于描述问题,所述候选答案文本用于提供多个候选答案;将所述视频特征向量与所述文本特征向量进行拼接,得到拼接特征向量,将所述拼接特征向量输入第一预训练模型,所述第一预训练模型通过自注意力机制,学习所述视频特征向量和所述文本特征向量之间的跨模态信息,得到编码后的第二拼接特征向量;将所述第二拼接特征向量分成第二视频特征向量和第二文本特征向量;将所述第二视频特征向量和第二文本特征向量输入模态融合模型,所述模态融合模型通过互注意力机制,对所述第二视频特征向量和第二文本特征向量进行处理,得到视频表达式和文本表达式,并对视频表达式和文本表达式分别进行池化并融合,得到融合特征向量;将所述融合特征向量输入解码层,以预测正确的候选答案。2.根据权利要求1所述的视频问答方法,其特征在于,所述针对输入的视频提取视频特征向量,包括:以预设速度对输入的视频进行抽帧,采用第二预训练模型对抽取出的帧提取视频特征向量。3.根据权利要求1所述的视频问答方法,其特征在于,所述针对问题文本与候选答案文本提取文本特征向量,包括:根据所述问题文本与候选答案文本生成序列串,所述序列串包括多个序列,所述问题文本与候选答案文本中的每个单词或字符对应一个或多个序列;将所述序列串输入所述第一预训练模型,得到文本特征向量。4.根据权利要求1所述的视频问答方法,其特征在于,所述方法之前还包括:构建所述第一预训练模型并进行初始化;通过多个自监督任务对所述第一预训练模型进行预训练,多个所述自监督任务包括标签分类任务、掩码语言模任务和掩码帧模任务,所述标签分类任务用于对视频进行多标签分类,所述掩码语言模任务用于对文本进行随机屏蔽并预测屏蔽词,所述掩码帧模任务用于对视频帧进行随机屏蔽并预测屏蔽帧;通过多个所述自监督任务的损失加权和,计算所述第一预训练模型的损失。5.根据权利要求4所述的视频问答方法,其特征在于,基于二元交叉熵计算所述标签分类任务和掩码语言模任务的损失,基于噪声对比估计计算所述掩码帧模任务的损失。6.根据权利要求1所述的视频问答方法,其特征在于,所述第一预训练模型为24层的深度Transformer编码器级联神经网络,隐藏层维度为1024,注意力头数为16,通过来自Transformers的双向编码器表示BERT预训练出的参数对所述第一预训练模型进行初始化。7.根据权利要求1所述的视频问答方法,其特征在于,所述通过互注意力机制,对所述第二视频特征向量和第二文本特征向量进行处理,包括:将所述第二视频特征向量作为查询向量,将所述第二文本特征向量作为键向量和值向量,进行多头注意力;将所述第二文本特征向量作为查询向量,将所述第二视频特征向量作为键向量和值向量,进行多头注意力。...
【专利技术属性】
技术研发人员:王炳乾,
申请(专利权)人:京东方科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。