一种基于对偶反事实的视觉问答去偏方法技术

技术编号：43835510 阅读：20 留言：0更新日期：2024-12-31 18:33

本发明专利技术公开了一种基于对偶反事实的视觉问答去偏方法，涉及计算机视觉领域，分别用遮盖关键视觉区域的视觉反事实样本和遮盖关键词的问题反事实样本作为共享同一组参数的偏见模型的输入，同时从两个角度捕捉语言偏见本发明专利技术利用偏见模型的偏见预测生成伪标签，结合边际损失分离不同答案样本的特征空间，最大程度降低语言偏见对目标视觉问答模型的影响。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，具体是一种基于对偶反事实的视觉问答去偏方法。

技术介绍

1、视觉问答（visual question answering，vqa）作为人工智能、计算机视觉领域的热门研究方向，近几年取得了跨越性的进展。然而，视觉问答模型中的语言偏见问题依然存在。aishwarya agrawal等人于2016年首次提出语言偏见问题，指训练数据分布不均导致模型在回答问题时过分依赖于问题中的语言线索，忽视了图像内容的重要性。这种偏见会导致模型在处理与训练数据分布不一致的新场景时表现不佳。例如，对于“香蕉是什么颜色？”这个问题，训练样本中80%的答案是“黄色”，其余20%是其它颜色，这时如果测试样本给定一张其它颜色香蕉的图片，模型仍然会回答“黄色”。当训练集和测试集的每个问题类型的答案分布不同时，语言偏差所导致的负面影响便会暴露出来，这导致模型无法应用于现实场景。

2、为了评估模型受语言偏见的影响程度，研究者们提出了vqa-cp v2数据集，其重组vqa v2数据集使测试集中的问题在类型和分布上与训练集存在明显的差异。...

【技术保护点】

1.一种基于对偶反事实的视觉问答去偏方法，其特征在于，包括以下步骤：

【技术特征摘要】

1.一种基于对偶反事实的视觉问答去...

【专利技术属性】
技术研发人员：王博岳，句晓千，吴博文，刘恒，史瑞泽，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人