视频问答方法、装置、系统及存储介质制造方法及图纸

技术编号:35750938 阅读:18 留言:0更新日期:2022-11-26 18:56
一种视频问答方法、装置、系统及存储介质,包括:针对输入的视频提取视频特征向量,针对问题文本与候选答案文本提取文本特征向量;将视频特征向量与文本特征向量进行拼接,得到拼接特征向量,将拼接特征向量输入第一预训练模型,第一预训练模型通过自注意力机制学习视频特征向量和文本特征向量之间的跨模态信息,得到第二拼接特征向量;将第二拼接特征向量分成第二视频特征向量和第二文本特征向量,并输入模态融合模型,模态融合模型通过互注意力机制对第二视频特征向量和第二文本特征向量进行处理,得到视频表达式和文本表达式,并对视频表达式和文本表达式分别进行池化并融合,得到融合特征向量;根据融合特征向量预测正确的候选答案。选答案。选答案。

【技术实现步骤摘要】
视频问答方法、装置、系统及存储介质


[0001]本公开实施例涉及但不限于自然语言处理
,尤指一种视频问答方法、装置、系统及存储介质。

技术介绍

[0002]在当前的移动互联网、大数据时代,网络上的视频数据呈现爆发式增长,作为日益丰富的信息承载媒介,对视频的语义进行理解是诸多视频智能应用的技术,具有重要的研究意义和实际应用价值。视频问答(Video QA)是给定一个视频片段和问题,从候选集合中推断出正确答案的任务,随着计算机视觉和自然语言处理的进步,视频问答在视频检索、智能问答系统、辅助驾驶系统和自动驾驶等方面的广泛应用受到越来越广泛的关注。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]本公开实施例提供了一种视频问答方法,包括:
[0005]针对输入的视频提取视频特征向量,针对问题文本与候选答案文本提取文本特征向量,其中,所述问题文本用于描述问题,所述候选答案文本用于提供多个候选答案;将所述视频特征向量与所述文本特征向量进行拼接,得到拼接特征向量,将所述拼接特征向量输入第一预训练模型,所述第一预训练模型通过自注意力机制,学习所述视频特征向量和所述文本特征向量之间的跨模态信息,得到编码后的第二拼接特征向量;
[0006]将所述第二拼接特征向量分成第二视频特征向量和第二文本特征向量;将所述第二视频特征向量和第二文本特征向量输入模态融合模型,所述模态融合模型通过互注意力机制,对所述第二视频特征向量和第二文本特征向量进行处理,得到视频表达式和文本表达式,并对视频表达式和文本表达式分别进行池化并融合,得到融合特征向量;
[0007]将所述融合特征向量输入解码层,以预测正确的候选答案。
[0008]在示例性实施例中,所述针对输入的视频提取视频特征向量,包括:
[0009]以预设速度对输入的视频进行抽帧,采用第二预训练模型对抽取出的帧提取视频特征向量。
[0010]在示例性实施例中,所述针对问题文本与候选答案文本提取文本特征向量,包括:
[0011]根据所述问题文本与候选答案文本生成序列串,所述序列串包括多个序列,所述问题文本与候选答案文本中的每个单词或字符对应一个或多个序列;
[0012]将所述序列串输入所述第一预训练模型,得到文本特征向量。
[0013]在示例性实施例中,所述方法之前还包括:
[0014]构建所述第一预训练模型并进行初始化;
[0015]通过多个自监督任务对所述第一预训练模型进行预训练,多个所述自监督任务包括标签分类任务、掩码语言模任务和掩码帧模任务,所述标签分类任务用于对视频进行多
标签分类,所述掩码语言模任务用于对文本进行随机屏蔽并预测屏蔽词,所述掩码帧模任务用于对视频帧进行随机屏蔽并预测屏蔽帧;
[0016]通过多个所述自监督任务的损失加权和,计算所述第一预训练模型的损失。
[0017]在示例性实施例中,基于二元交叉熵计算所述标签分类任务和掩码语言模任务的损失,基于噪声对比估计计算所述掩码帧模任务的损失。
[0018]在示例性实施例中,所述第一预训练模型为24层的深度Transformer编码器级联神经网络,隐藏层维度为1024,注意力头数为16,通过来自Transformers的双向编码器表示BERT预训练出的参数对所述第一预训练模型进行初始化。
[0019]在示例性实施例中,所述通过互注意力机制,对所述第二视频特征向量和第二文本特征向量进行处理,包括:
[0020]将所述第二视频特征向量作为查询向量,将所述第二文本特征向量作为键向量和值向量,进行多头注意力;
[0021]将所述第二文本特征向量作为查询向量,将所述第二视频特征向量作为键向量和值向量,进行多头注意力。
[0022]在示例性实施例中,所述方法之前还包括:
[0023]接收用户的语音输入;
[0024]通过语音识别,将所述语音输入转换为所述问题文本。
[0025]在示例性实施例中,所述方法之前还包括:
[0026]获取所述问题文本;
[0027]根据所述问题文本,生成与所述问题文本对应的所述候选答案文本。
[0028]在示例性实施例中,所述根据所述问题文本,生成与所述问题文本对应的所述候选答案文本,包括:
[0029]通过关键词匹配或注意力机制模型,从常识知识图谱中查询与所述问题文本匹配的三元组;
[0030]根据匹配的所述三元组,生成与所述问题文本对应的所述候选答案文本。
[0031]在示例性实施例中,所述方法还包括:
[0032]对所述视频特征向量和/或所述文本特征向量进行处理,以使得在将所述视频特征向量与所述文本特征向量进行拼接时,所述视频特征向量的维度和所述文本特征向量的维度相同。
[0033]本公开实施例还提供了一种视频问答装置,包括存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如本公开任一实施例所述的视频问答方法的步骤。
[0034]本公开实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开任一实施例所述的视频问答方法。
[0035]本公开实施例还提供了一种视频问答系统,包括视频问答装置、监控系统、语音识别装置、语音输入装置和知识库,其中:
[0036]所述监控系统,被配置为获取一个或多个监控视频,根据指令文本对所述监控视频进行处理,并将所述监控视频输出至所述视频问答装置;
[0037]所述语音输入装置,被配置为接收语音输入,并输出至语音识别装置;
[0038]所述语音识别装置,被配置为通过语音识别,将语音输入转换为指令文本或问题文本,将所述指令文本输入所述监控系统,将所述问题文本输入所述视频问答装置;
[0039]所述知识库,被配置为存储常识知识图谱;
[0040]所述视频问答装置,被配置为接收问题文本和监控视频,根据所述问题文本生成候选答案文本,其中,所述问题文本用于描述问题,所述候选答案文本用于提供多个候选答案;还被配置为对接收的监控视频提取视频特征向量,针对所述问题文本与候选答案文本提取文本特征向量,将所述视频特征向量与文本特征向量进行拼接,得到拼接特征向量,将所述拼接特征向量输入第一预训练模型,所述第一预训练模型通过自注意力机制,学习所述视频特征向量和所述文本特征向量之间的跨模态信息,得到编码后的第二拼接特征向量;将所述第二拼接特征向量分成第二视频特征向量和第二文本特征向量;将所述第二视频特征向量和第二文本特征向量输入模态融合模型,所述模态融合模型采用互注意力机制,对第二视频特征向量和第二文本特征向量进行处理,得到视频表达式和文本表达式,并对视频表达式和文本表达式分别进行池化并融合,得到融合特征向量;将所述融合特征向量输入解码层,以预测正确的候选答案。
[0041]在阅读理解了附图和详细本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频问答方法,其特征在于,包括:针对输入的视频提取视频特征向量,针对问题文本与候选答案文本提取文本特征向量,其中,所述问题文本用于描述问题,所述候选答案文本用于提供多个候选答案;将所述视频特征向量与所述文本特征向量进行拼接,得到拼接特征向量,将所述拼接特征向量输入第一预训练模型,所述第一预训练模型通过自注意力机制,学习所述视频特征向量和所述文本特征向量之间的跨模态信息,得到编码后的第二拼接特征向量;将所述第二拼接特征向量分成第二视频特征向量和第二文本特征向量;将所述第二视频特征向量和第二文本特征向量输入模态融合模型,所述模态融合模型通过互注意力机制,对所述第二视频特征向量和第二文本特征向量进行处理,得到视频表达式和文本表达式,并对视频表达式和文本表达式分别进行池化并融合,得到融合特征向量;将所述融合特征向量输入解码层,以预测正确的候选答案。2.根据权利要求1所述的视频问答方法,其特征在于,所述针对输入的视频提取视频特征向量,包括:以预设速度对输入的视频进行抽帧,采用第二预训练模型对抽取出的帧提取视频特征向量。3.根据权利要求1所述的视频问答方法,其特征在于,所述针对问题文本与候选答案文本提取文本特征向量,包括:根据所述问题文本与候选答案文本生成序列串,所述序列串包括多个序列,所述问题文本与候选答案文本中的每个单词或字符对应一个或多个序列;将所述序列串输入所述第一预训练模型,得到文本特征向量。4.根据权利要求1所述的视频问答方法,其特征在于,所述方法之前还包括:构建所述第一预训练模型并进行初始化;通过多个自监督任务对所述第一预训练模型进行预训练,多个所述自监督任务包括标签分类任务、掩码语言模任务和掩码帧模任务,所述标签分类任务用于对视频进行多标签分类,所述掩码语言模任务用于对文本进行随机屏蔽并预测屏蔽词,所述掩码帧模任务用于对视频帧进行随机屏蔽并预测屏蔽帧;通过多个所述自监督任务的损失加权和,计算所述第一预训练模型的损失。5.根据权利要求4所述的视频问答方法,其特征在于,基于二元交叉熵计算所述标签分类任务和掩码语言模任务的损失,基于噪声对比估计计算所述掩码帧模任务的损失。6.根据权利要求1所述的视频问答方法,其特征在于,所述第一预训练模型为24层的深度Transformer编码器级联神经网络,隐藏层维度为1024,注意力头数为16,通过来自Transformers的双向编码器表示BERT预训练出的参数对所述第一预训练模型进行初始化。7.根据权利要求1所述的视频问答方法,其特征在于,所述通过互注意力机制,对所述第二视频特征向量和第二文本特征向量进行处理,包括:将所述第二视频特征向量作为查询向量,将所述第二文本特征向量作为键向量和值向量,进行多头注意力;将所述第二文本特征向量作为查询向量,将所述第二视频特征向量作为键向量和值向量,进行多头注意力。...

【专利技术属性】
技术研发人员:王炳乾
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1