基于深度因果图学习的视觉问答方法技术

技术编号:40598418 阅读:15 留言:0更新日期:2024-03-12 22:01
本发明专利技术涉及一种基于深度因果图学习的视觉问答方法,属于视觉问答领域。首先,对视觉问答中存在的两种语言偏见进行分析建模,建立基础模型。其次,训练阶段,使用集成方法生成一个去除问题类型偏见模型和建立问题‑答案模型;将无问题类型偏见模型与问题‑答案模型相结合进行训练;得到训练好的问题‑答案模型与视觉问答模型;最后,测试阶段,将两个模型的结果进行融合得到总的影响,问题‑答案模型的结果作为直接影响,根据因果图反事实推断原理,使用总的影响减去直接影响,去除问题造成的语言偏见,得出无偏结果。本发明专利技术方法由于去除了问题类型偏见,计数类问题的准确率大幅提升;由于去除了问题偏见,Y/N类问题准确率大幅提升。

【技术实现步骤摘要】

本专利技术属于视觉问答领域,具体涉及一种基于深度因果图学习的视觉问答方法


技术介绍

1、视觉问答任务作为多模态领域的经典任务,依赖计算机视觉技术与自然语言处理技术的结合,是一项具有挑战性的任务。视觉问答任务的主要形式为:给定一幅图像,再给定一个与该图像相关的问题,视觉问答模型能够根据图像准确的推理出问题的答案。

2、一个完整的vqa模型应该包括四个部分,图像特征提取模块、文本特征提取模块、跨模态特征融合模块和答案分类模块。当前的视觉问答模型存在一个突出的问题,即大部分视觉问答模型因为数据集的分布差异或多或少都会存在语言偏见问题。由于语言偏见的存在,很多模型在原来的数据集上预测的很好,而当数据集的分布发生变化时,模型准确率就会大幅降低。由于模型学到的是特征与答案之间的相关性,并非因果性,模型的泛化能力不够强,被称为ood(out of distribution)泛化问题。视觉问答中的语言偏见问题往往是由于模型学习问题与答案之间的相关性造成的,因此从建模语言偏见角度来去除问题偏见是一个非常有前景的角度。rubi,cfvqa,lmh等模型均引入了q本文档来自技高网...

【技术保护点】

1.一种基于深度因果图学习的视觉问答方法,其特征在于包括,

2.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,所述的问题类型模型Q-typeA model使用文本特征提取器skipthoughts生成文本特征,输入为问题类型,输出为答案;或者更直观准确的方法为统计每种问题类型对应各个答案的分布情况,根据分布情况统计答案概率进行预测。

3.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,所述视觉问答模型VQA model使用经典视觉问答网络UpDn模型,全称为自下而上与由上而下的注意力模型,用于完成视觉问答任务;图片输入...

【技术特征摘要】

1.一种基于深度因果图学习的视觉问答方法,其特征在于包括,

2.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,所述的问题类型模型q-typea model使用文本特征提取器skipthoughts生成文本特征,输入为问题类型,输出为答案;或者更直观准确的方法为统计每种问题类型对应各个答案的分布情况,根据分布情况统计答案概率进行预测。

3.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,所述视觉问答模型vqa model使用经典视觉问答网络updn模型,全称为自下而上与由上而下的注意力模型,用于完成视觉问答任务;图片输入faster r-cnn网络生成视觉特征,文本输入skipthoughts生成文本特征;根据问题与图片对每个区域生成对应的注意力权重,之后进行加权求和得出注意力视觉特征;注意力视觉特征与文本特征融合得到多模态融合特征;

4.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,所述问题-答案模型qa model使用文本特征提取器skipthoughts生成特征,输入为问题,输出为答案。

5.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,将所述问题-答案模型qa model和所述基础视觉问答模型vqa m...

【专利技术属性】
技术研发人员:杨程坤宋凌云尚学群
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1