一种基于模态内外交互和问题转换的鲁棒视觉问答方法技术

技术编号:40310066 阅读:22 留言:0更新日期:2024-02-07 20:53
本发明专利技术公开了一种基于模态内外交互和问题转换的鲁棒视觉问答方法,包括如下步骤:1)预处理视觉问答数据集;2)编码器:采用深度神经网络作为图片编码器E<subgt;v</subgt;提取视觉特征以及文本编码器E<subgt;q</subgt;提取文本特征;3)模态内外交互模块:模态内外交互模块包括通用神经网络、视觉模态外部交互模块、视觉模态内部交互模块、集成模块;4)语言先验捕获分支:语言先验捕获分支包括转换器模块、偏见答案生成分支,通过转换器模块进一步捕获了语言先验来提升模型生成的答案的准确率;5)集成训练。这种方法节省了数据增强所需要的资源,性能更优。

【技术实现步骤摘要】

本专利技术涉及机器学习中的计算机视觉和自然语言处理领域,具体是一种基于模态内外交互和问题转换的鲁棒视觉问答方法


技术介绍

1、视觉问答vqa(visual question answering,简称vqa)是一项涉及计算机视觉、自然语言处理领域的多模态任务。vqa系统的目标是根据给定的图片回答问题。以coco和vqa数据集为代表的大规模数据集的可用性对于vqa系统的发展至关重要,它提供了必要的资源来推动这一领域的进步。随着计算机硬件设备以及神经网络技术的发展,一些vqa系统在特定的视觉问答任务中取得了显着的进步。早期的vqa方法通常需要人工设计和选择来获取适当的特征,以便将图片和问题映射到相应的答案。同时,它们也需要依赖预先定义的规则来生成答案。最近vqa方法开始转向自动化特征学习和端到端的训练。这使得vqa系统能够利用神经网络技术直接从原始图片和问题中学习有用的表示,而无需手动设计和选择特征。vqa技术的应用范围非常广泛,包括智能客服、智能教育和无人驾驶技术等一些领域。

2、然而,语言先验问题一直影响着大多数现有的vqa模型。这意味着模型在本文档来自技高网...

【技术保护点】

1.一种基于模态内外交互和问题转换的鲁棒视觉问答方法,其特征在于,包括如下步骤:

【技术特征摘要】

1.一种基于模态内外交互和问题转换的鲁棒...

【专利技术属性】
技术研发人员:李志欣彭大贺
申请(专利权)人:广西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1