【技术实现步骤摘要】
本专利技术涉及人工智能技术,尤其涉及一种基于目标检测的中间过程监督策略的视觉问答方法。
技术介绍
1、神经模块网络(neural modular network,nmn)在回答组合视觉问题方面取得了持续的成功,特别是涉及多跳视觉和逻辑推理的问题。nmns使用问题的推理路径上的实例模块将复杂问题分解为多个相应子任务,然后利用中间过程监督的方式来指导答案预测,从而提高推理的可解释性。然而,由于中间过程监督建模方式较为模糊,使得以往方案在回答涉及复杂的视觉和逻辑推理的组合问题时的性能表现一般,分析原因如下:(1)这些解决方案通常都假设每个实例模块只涉及一个关联目标,而忽略了其他潜在的关联目标,从而阻碍了完整的跨模态对齐学习;(2)其中基于交并比(iou)的中间监督方法可能会引入噪声信号,因为边界框重叠问题可能会将模型聚焦的焦点引导到实际上不相关的目标上。
技术实现思路
1、本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种基于目标检测的中间过程监督策略的视觉问答方法。
2、
...【技术保护点】
1.一种基于目标检测的中间过程监督策略的视觉问答方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于目标检测的中间过程监督策略的视觉问答方法,其特征在于,所述步骤1)具体如下:
3.根据权利要求1所述的基于目标检测的中间过程监督策略的视觉问答方法,其特征在于,所述步骤2)如下:
4.根据权利要求1所述的基于目标检测的中间过程监督策略的视觉问答方法,其特征在于,所述步骤3)程序执行从第1层到第L层进行逐步推理的过程中,采用中间监督方法来限制推理过程,提高答案预测性能;
5.一种计算机设备,包括存储器和处理器,所述
...【技术特征摘要】
1.一种基于目标检测的中间过程监督策略的视觉问答方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于目标检测的中间过程监督策略的视觉问答方法,其特征在于,所述步骤1)具体如下:
3.根据权利要求1所述的基于目标检测的中间过程监督策略的视觉问答方法,其特征在于,所述步骤2)如下:
4.根据权利要求1所述的基于目标检测的中间过程监督策略的视觉问答方法,其特征在于,...
【专利技术属性】
技术研发人员:魏巍,彭道万,刘宇航,曹国坤,廖心瑶,谢文峰,陈当阳,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。