视频问答处理方法技术

技术编号:39587663 阅读:6 留言:0更新日期:2023-12-03 19:39
本发明专利技术提供一种视频问答处理方法

【技术实现步骤摘要】
视频问答处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种视频问答处理方法

装置

电子设备及存储介质


技术介绍

[0002]视频问答
(
又称
VideoQA)
作为一个典型的跨模态任务,需要根据给定视频回答自然语言问题

为了能够更加准确

高效的基于视频进行自然语言问题回答,需要全面理解视频和问题的语义信息

[0003]然而,当前根据视频进行自然语音问题回答的过程中,往往基于视频中的表象画面进行回答,从而无法深入理解视频画面背后所承载的用户意图,从而使得自然语言问题回答的准确性相对较低

[0004]因此,当前寻找一种能够提高基于视频进行自然语音问题回答的回答准确性的处理方法成为研究热点


技术实现思路

[0005]本专利技术提供一种视频问答处理方法

装置

电子设备及存储介质,提高了基于视频进行自然语音问题回答的回答准确性,确保在多个候选答案中确定的目标答案与待回答问题更加匹配

[0006]本专利技术提供一种视频问答处理方法,所述方法包括:获取目标视频

与所述目标视频对应的待回答问题,以及与所述待回答问题对应的答案集,其中,所述答案集中包括多个候选答案;将所述目标视频

所述待回答问题,以及所述答案集输入至预先训练好的视频意图推理模型,得到所述视频意图推理模型输出的在意图推理维度内各所述候选答案与所述待回答问题的第一匹配置信度;获取在先验常识维度内各所述候选答案与所述待回答问题的第二匹配置信度;基于所述第一匹配置信度和所述第二匹配置信度,在多个所述候选答案中确定与所述待回答问题匹配的目标答案

[0007]根据本专利技术提供的一种视频问答处理方法,所述视频意图推理模型采用以下方式训练得到:获取样本集,并将所述样本集内的各样本作为锚样本,其中,所述锚样本包括锚样本视频

锚样本待回答问题,以及锚样本答案集;为各所述锚样本匹配正样本和负样本,其中,所述正样本包括正样本视频

正样本待回答问题,以及正样本答案集;所述负样本包括负样本视频

负样本待回答问题,以及负样本答案集;基于所述锚样本,确定与所述锚样本对应的锚样本特征,其中,所述锚样本特征为在考虑所述锚样本视频的视频上下文意图的情况下得到的特征;基于所述正样本,确定与所述正样本对应的正样本特征,其中,所述正样本特征为在考虑所述正样本视频的视频上下文意图的情况下得到的特征;基于所述负样本,确定与所述负样本对应的负样本特征,其中,所述负样本特征为在考虑所述负样本视频的视频上下文意图的情况下得到的特征;基于所述锚样本特征

所述正样本特征,以及所述负样本特征,确定目标损失函数;基于所述目标损失函数,对视频意图推理模型进行训练
直至所述视频意图推理模型收敛,得到训练好的视频意图推理模型

[0008]根据本专利技术提供的一种视频问答处理方法,所述基于所述锚样本特征

所述正样本特征,以及所述负样本特征,确定目标损失函数,具体包括:将所述正样本特征对齐至所述锚样本特征,得到对齐后正样本特征;将所述负样本特征对齐至所述锚样本特征,得到对齐后负样本特征;基于所述锚样本特征和所述对齐后正样本特征,得到第一特征距离,其中,所述第一特征距离用于表征所述锚样本特征和所述对齐后正样本特征的差异度;基于所述锚样本特征和所述对齐后负样本特征,得到第二特征距离,其中,所述第二特征距离用于表征所述锚样本特征和所述对齐后负样本特征的差异度;基于所述第一特征距离和所述第二特征距离,得到三元组损失函数,其中,所述三元组损失函数用于表征所述锚样本

所述正样本和所述负样本的损失函数;基于所述三元组损失函数,确定所述目标损失函数

[0009]根据本专利技术提供的一种视频问答处理方法,在所述基于所述三元组损失函数,确定所述目标损失函数之前,所述方法还包括:分别获取所述锚样本的锚样本交叉熵损失函数

所述正样本的正样本交叉熵损失函数,以及所述负样本的负样本交叉熵损失函数;所述基于所述三元组损失函数,确定所述目标损失函数,具体包括:基于所述锚样本交叉熵损失函数

所述正样本交叉熵损失函数

所述负样本交叉熵损失函数,以及所述三元组损失函数,确定所述目标损失函数

[0010]根据本专利技术提供的一种视频问答处理方法,所述基于所述锚样本,确定与所述锚样本对应的锚样本特征,具体包括:基于所述锚样本,获取所述锚样本中的所述锚样本视频的锚样本视频帧特征以及锚样本目标区域特征,其中,所述锚样本目标区域为所述锚样本视频中存在目标对象的区域;将所述锚样本中的所述锚样本待回答问题以及所述锚样本答案集进行连接,得到锚样本拼接语言,并提取得到所述锚样本拼接语言的锚样本语言特征;基于所述锚样本目标区域特征,得到锚样本区域图;基于所述锚样本区域图和所述锚样本语言特征,得到所述锚样本相似性矩阵;基于所述锚样本区域图和所述锚样本相似性矩阵,得到所述锚样本的锚样本跨模态图,其中,所述锚样本跨模态图用于表征所述锚样本待回答问题对应的锚样本视频的视频上下文;基于所述锚样本跨模态图,得到与所述锚样本对应的锚样本特征

[0011]根据本专利技术提供的一种视频问答处理方法,所述基于所述正样本,确定与所述正样本对应的正样本特征,具体包括:基于所述正样本,获取所述正样本中的所述正样本视频的正样本视频帧特征以及正样本目标区域特征,其中,所述正样本目标区域为所述正样本视频中存在目标对象的区域;将所述正样本中的所述正样本待回答问题以及所述正样本答案集进行连接,得到正样本拼接语言,并提取得到所述正样本拼接语言的正样本语言特征;基于所述正样本目标区域特征,得到正样本区域图;基于所述正样本区域图和所述正样本语言特征,得到所述正样本相似性矩阵;基于所述正样本区域图和所述正样本相似性矩阵,得到所述正样本的正样本跨模态图,其中,所述正样本跨模态图用于表征所述正样本待回答问题对应的正样本视频的视频上下文;基于所述正样本跨模态图,得到与所述正样本对应的正样本特征

[0012]根据本专利技术提供的一种视频问答处理方法,所述基于所述负样本,确定与所述负样本对应的负样本特征,具体包括:基于所述负样本,获取所述负样本中的所述负样本视频的负样本视频帧特征以及负样本目标区域特征,其中,所述负样本目标区域为所述负样本
视频中存在目标对象的区域;将所述负样本中的所述负样本待回答问题以及所述负样本答案集进行连接,得到负样本拼接语言,并提取得到所述负样本拼接语言的负样本语言特征;基于所述负样本目标区域特征,得到负样本区域图;基于所述负样本区域图和所述负样本语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种视频问答处理方法,其特征在于,所述方法包括:获取目标视频

与所述目标视频对应的待回答问题,以及与所述待回答问题对应的答案集,其中,所述答案集中包括多个候选答案;将所述目标视频

所述待回答问题,以及所述答案集输入至预先训练好的视频意图推理模型,得到所述视频意图推理模型输出的在意图推理维度内各所述候选答案与所述待回答问题的第一匹配置信度;获取在先验常识维度内各所述候选答案与所述待回答问题的第二匹配置信度;基于所述第一匹配置信度和所述第二匹配置信度,在多个所述候选答案中确定与所述待回答问题匹配的目标答案
。2.
根据权利要求1所述的视频问答处理方法,其特征在于,所述视频意图推理模型采用以下方式训练得到:获取样本集,并将所述样本集内的各样本作为锚样本,其中,所述锚样本包括锚样本视频

锚样本待回答问题,以及锚样本答案集;为各所述锚样本匹配正样本和负样本,其中,所述正样本包括正样本视频

正样本待回答问题,以及正样本答案集;所述负样本包括负样本视频

负样本待回答问题,以及负样本答案集;基于所述锚样本,确定与所述锚样本对应的锚样本特征,其中,所述锚样本特征为在考虑所述锚样本视频的视频上下文意图的情况下得到的特征;基于所述正样本,确定与所述正样本对应的正样本特征,其中,所述正样本特征为在考虑所述正样本视频的视频上下文意图的情况下得到的特征;基于所述负样本,确定与所述负样本对应的负样本特征,其中,所述负样本特征为在考虑所述负样本视频的视频上下文意图的情况下得到的特征;基于所述锚样本特征

所述正样本特征,以及所述负样本特征,确定目标损失函数;基于所述目标损失函数,对视频意图推理模型进行训练直至所述视频意图推理模型收敛,得到训练好的视频意图推理模型
。3.
根据权利要求2所述的视频问答处理方法,其特征在于,所述基于所述锚样本特征

所述正样本特征,以及所述负样本特征,确定目标损失函数,具体包括:将所述正样本特征对齐至所述锚样本特征,得到对齐后正样本特征;将所述负样本特征对齐至所述锚样本特征,得到对齐后负样本特征;基于所述锚样本特征和所述对齐后正样本特征,得到第一特征距离,其中,所述第一特征距离用于表征所述锚样本特征和所述对齐后正样本特征的差异度;基于所述锚样本特征和所述对齐后负样本特征,得到第二特征距离,其中,所述第二特征距离用于表征所述锚样本特征和所述对齐后负样本特征的差异度;基于所述第一特征距离和所述第二特征距离,得到三元组损失函数,其中,所述三元组损失函数用于表征所述锚样本

所述正样本和所述负样本的损失函数;基于所述三元组损失函数,确定所述目标损失函数
。4.
根据权利要求3所述的视频问答处理方法,其特征在于,在所述基于所述三元组损失函数,确定所述目标损失函数之前,所述方法还包括:分别获取所述锚样本的锚样本交叉熵损失函数

所述正样本的正样本交叉熵损失函
数,以及所述负样本的负样本交叉熵损失函数;所述基于所述三元组损失函数,确定所述目标损失函数,具体包括:基于所述锚样本交叉熵损失函数

所述正样本交叉熵损失函数

所述负样本交叉熵损失函数,以及所述三元组损失函数,确定所述目标损失函数
。5.
根据权利要求2‑4中任意一项所述的视频问答处理方法,其特征在于,所述基于所述锚样本,确定与所述锚样本对应的锚样本特征,具体包括:基于所述锚样本,获取所述锚样本中的所述锚样本视频的锚样本视频帧特征以及锚样本目标区域特征,其中,所述锚样本目标区域为所述锚样本视频中存在目标对象的区域;将所述锚样本中的所述锚样本待回答问题以及所述锚样本答案集进行连接,得到锚样本拼接语言,并提取得到所述锚样本拼接语言的锚样本语言特征;基于所述锚...

【专利技术属性】
技术研发人员:李嘉鹏魏平韩文娟范丽凤
申请(专利权)人:北京通用人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1