【技术实现步骤摘要】
本专利技术涉及计算机视觉领域,具体是一种基于对偶反事实的视觉问答去偏方法。
技术介绍
1、视觉问答(visual question answering,vqa)作为人工智能、计算机视觉领域的热门研究方向,近几年取得了跨越性的进展。然而,视觉问答模型中的语言偏见问题依然存在。aishwarya agrawal等人于2016年首次提出语言偏见问题,指训练数据分布不均导致模型在回答问题时过分依赖于问题中的语言线索,忽视了图像内容的重要性。这种偏见会导致模型在处理与训练数据分布不一致的新场景时表现不佳。例如,对于“香蕉是什么颜色?”这个问题,训练样本中80%的答案是“黄色”,其余20%是其它颜色,这时如果测试样本给定一张其它颜色香蕉的图片,模型仍然会回答“黄色”。当训练集和测试集的每个问题类型的答案分布不同时,语言偏差所导致的负面影响便会暴露出来,这导致模型无法应用于现实场景。
2、为了评估模型受语言偏见的影响程度,研究者们提出了vqa-cp v2数据集,其重组vqa v2数据集使测试集中的问题在类型和分布上与训练集存在明显的差异。
...【技术保护点】
1.一种基于对偶反事实的视觉问答去偏方法,其特征在于,包括以下步骤:
【技术特征摘要】
1.一种基于对偶反事实的视觉问答去...
【专利技术属性】
技术研发人员:王博岳,句晓千,吴博文,刘恒,史瑞泽,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。