【技术实现步骤摘要】
本专利技术属于视觉问答领域,具体涉及一种基于深度因果图学习的视觉问答方法。
技术介绍
1、视觉问答任务作为多模态领域的经典任务,依赖计算机视觉技术与自然语言处理技术的结合,是一项具有挑战性的任务。视觉问答任务的主要形式为:给定一幅图像,再给定一个与该图像相关的问题,视觉问答模型能够根据图像准确的推理出问题的答案。
2、一个完整的vqa模型应该包括四个部分,图像特征提取模块、文本特征提取模块、跨模态特征融合模块和答案分类模块。当前的视觉问答模型存在一个突出的问题,即大部分视觉问答模型因为数据集的分布差异或多或少都会存在语言偏见问题。由于语言偏见的存在,很多模型在原来的数据集上预测的很好,而当数据集的分布发生变化时,模型准确率就会大幅降低。由于模型学到的是特征与答案之间的相关性,并非因果性,模型的泛化能力不够强,被称为ood(out of distribution)泛化问题。视觉问答中的语言偏见问题往往是由于模型学习问题与答案之间的相关性造成的,因此从建模语言偏见角度来去除问题偏见是一个非常有前景的角度。rubi,cfvqa,l
...【技术保护点】
1.一种基于深度因果图学习的视觉问答方法,其特征在于包括,
2.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,所述的问题类型模型Q-typeA model使用文本特征提取器skipthoughts生成文本特征,输入为问题类型,输出为答案;或者更直观准确的方法为统计每种问题类型对应各个答案的分布情况,根据分布情况统计答案概率进行预测。
3.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,所述视觉问答模型VQA model使用经典视觉问答网络UpDn模型,全称为自下而上与由上而下的注意力模型,用于完成视
...【技术特征摘要】
1.一种基于深度因果图学习的视觉问答方法,其特征在于包括,
2.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,所述的问题类型模型q-typea model使用文本特征提取器skipthoughts生成文本特征,输入为问题类型,输出为答案;或者更直观准确的方法为统计每种问题类型对应各个答案的分布情况,根据分布情况统计答案概率进行预测。
3.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,所述视觉问答模型vqa model使用经典视觉问答网络updn模型,全称为自下而上与由上而下的注意力模型,用于完成视觉问答任务;图片输入faster r-cnn网络生成视觉特征,文本输入skipthoughts生成文本特征;根据问题与图片对每个区域生成对应的注意力权重,之后进行加权求和得出注意力视觉特征;注意力视觉特征与文本特征融合得到多模态融合特征;
4.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,所述问题-答案模型qa model使用文本特征提取器skipthoughts生成特征,输入为问题,输出为答案。
5.根据权利要求1所述的一种基于深度因果图学习的视觉问答方法,其特征在于,将所述问题-答案模型qa model和所述基础视觉问答模型vqa m...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。