【技术实现步骤摘要】
本专利技术属于计算机视觉及自然语言处理,具体涉及一种基于动态双级视觉信息融合的接地视觉问答方法。
技术介绍
1、近年来vqa(视觉问答)技术发展迅速,实际应用场景也越来越多,例如回答视障患者的提问或帮助放射科医生早期诊断致命疾病,以及人机交互。随着这些系统的日益成熟,一个只产生良好回答的系统准确性将是不够的,其答案具有根据性对于各种研究和应用也很重要。通过考虑模型的推理机制,可以在一定程度上为答案提供可解释的支持。用于此类目的的理想vqa系统不仅应该生成准确的答案,还应该提供一种验证答案的机制。
2、但传统的vqa通常只输出最终的文本答案缺少对视觉证据的验证,因此近年来有工作试图解决这个问题,如mac-caps方法(基于胶囊的弱监督接地视觉问答)提出在得到文本答案的同时给出视觉注意力图,为了更好的评估系统定位答案的准确性。类似的方法还有lxmert(基于transformer的跨模态编码器),dcamn(用于视觉问答的具有相互学习功能的双胶囊注意力掩模网络)等也在生成文本答案的同时输出其对应图片中的接地答案区域。但这些方法通
...【技术保护点】
1.一种基于动态双级视觉信息融合的接地视觉问答方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法,其特征在于,步骤1所述问题引导区域级动态多尺度的方法,具体包括:
3.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法,其特征在于,步骤2所述采用动态方法自适应地为每个定位对象分配适当分辨率大小的掩码,具体包括:
4.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法,其特征在于,所述步骤3具体包括:
5.根据权利要求4所述的基于动态双级视觉信
...【技术特征摘要】
1.一种基于动态双级视觉信息融合的接地视觉问答方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法,其特征在于,步骤1所述问题引导区域级动态多尺度的方法,具体包括:
3.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法,其特征在于,步骤2所述采用动态方法自适应地为每个定位对象分配适当分辨率大小的掩码,具体包括:
4.根据权利要求1所述的基于动态双级视觉信息融合的接地视觉问答方法,其特征在于,所述步骤3具体包括:
5.根据权利要求4所述的基于动态双级视觉信息融合的接地视觉问答方法,其特征在于,步骤4所述掩码损失具体为:给定一个vqa实例,首先用qgdr预测...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。