基于动态双级视觉信息融合的接地视觉问答方法技术

技术编号：40182211 阅读：28 留言：0更新日期：2024-01-26 23:47

本发明专利技术提供一种基于动态双级视觉信息融合的接地视觉问答方法，通过一个双级多尺度网络构建了接地视觉问答系统，即分为语言引导的像素级特征和区域级特征，两种尺度分支结合起来进行最终文本答案和接地答案预测；并提出了一个问题引导的动态区域级特征定位网络，通过问题引导视觉信息定位并自适应的为接地答案分配不同尺寸的掩码，提升对小目标的定位和分割的准确性；还设计了一个跨模态聚合模块来融合两种级别的特征，可增强像素级和区域级特征之间的特征融合，以提升对接地答案掩码边缘的分割效果。本发明专利技术通过语言引导的自适应双级特征融合网络搭建的接地视觉问答系统，可以在回答提问的同时生成答案接地掩码，有效地提高了整个模型的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉及自然语言处理，具体涉及一种基于动态双级视觉信息融合的接地视觉问答方法。

技术介绍

1、近年来vqa(视觉问答)技术发展迅速，实际应用场景也越来越多，例如回答视障患者的提问或帮助放射科医生早期诊断致命疾病，以及人机交互。随着这些系统的日益成熟，一个只产生良好回答的系统准确性将是不够的，其答案具有根据性对于各种研究和应用也很重要。通过考虑模型的推理机制，可以在一定程度上为答案提供可解释的支持。用于此类目的的理想vqa系统不仅应该生成准确的答案，还应该提供一种验证答案的机制。

2、但传统的vqa通常只输出最终的文本答案缺少对视觉证据的验证，因此近年来有工作试图解决这个问题，如mac-caps方法(基于胶囊的弱监督接地视觉问答)提出在得到文本答案的同时给出视觉注意力图，为了更好的评估系统定位答案的准确性。类似的方法还有lxmert(基于transformer的跨模态编码器)，dcamn(用于视觉问答的具有相互学习功能的双胶囊注意力掩模网络)等也在生成文本答案的同时输出其对应图片中的接地答案区域。但这些方法通...

【技术保护点】

1.一种基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，步骤1所述问题引导区域级动态多尺度的方法，具体包括：

3.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，步骤2所述采用动态方法自适应地为每个定位对象分配适当分辨率大小的掩码，具体包括：

4.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，所述步骤3具体包括：

5.根据权利要求4所述的基于动态双级视觉信息融合的接地视觉问答...

【技术特征摘要】

1.一种基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，步骤1所述问题引导区域级动态多尺度的方法，具体包括：

4.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，所述步骤3具体包括：

5.根据权利要求4所述的基于动态双级视觉信息融合的接地视觉问答方法，其特征在于，步骤4所述掩码损失具体为：给定一个vqa实例，首先用qgdr预测...

【专利技术属性】
技术研发人员：周东生，张悦，樊万姝，车超，
申请(专利权)人：大连大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人