视觉问答方法、装置、电子设备、存储介质和计算机程序产品制造方法及图纸

技术编号:45534443 阅读:22 留言:0更新日期:2025-06-13 17:34
本公开关于视觉问答方法、装置、电子设备、存储介质和计算机程序产品,该方法包括:获取目标图像以及针对目标图像的目标问题;基于目标问题,生成初始程序;向初始程序添加用于记录程序执行过程的目标代码;将目标图像输入扩展程序,获得针对目标问题的预测答案、扩展程序的执行过程信息以及截图图像;基于执行过程信息和截图图像,生成针对预测答案的多模态形式的解释。这样,可以在输出预测答案的同时同步生成决策依据图片以及语义关联分析,即可以增加输出对预测答案的推理过程的解释,使用户能够直观地了解图像特征与语义推理的对应关系,进而可以提升推理透明度和决策可信度,从而有利于视觉问答技术的推广应用。

【技术实现步骤摘要】

本公开涉及计算机,更具体地说,涉及视觉问答方法、装置、电子设备、存储介质和计算机程序产品


技术介绍

1、视觉问答(visual question answering,vqa)结合了计算机视觉技术和自然语言处理技术,能够为用户提供更智能的图像理解和交互体验。具体地说,它使计算机能够“看”图像并回答关于图像的问题,即只要给定一张图像以及针对该图像的问题,视觉问答软件就可以基于输入图像输出针对给定问题的答案。这需要视觉问答软件具备多模态理解的能力,目前主流的方法大多是基于多模态预训练来实现。vqa技术可以被应用于多个领域,包括但不限于:医学、教育、监控、娱乐等领域。

2、但是,相关技术中的视觉问答系统通常仅仅能够提供最终的答案,而缺乏对内部推理过程的解释,即模型透明度较低,这会导致用户信任度降低,不利于视觉问答技术的推广应用。


技术实现思路

1、本公开提供视觉问答方法、装置、电子设备、存储介质和计算机程序产品,以至少解决上述相关技术中,视觉问答系统通常仅仅能够提供最终的答案,而缺乏对内部推理过程的解释本文档来自技高网...

【技术保护点】

1.一种视觉问答方法,其特征在于,包括:

2.如权利要求1所述的视觉问答方法,其特征在于,所述基于所述目标问题,生成初始程序,包括:

3.如权利要求2所述的视觉问答方法,其特征在于,所述预设的程序提示还包含应用程序编程接口说明,其中,所述应用程序编程接口说明用于指示如何使用程序调用开放世界工具;

4.如权利要求3所述的视觉问答方法,其特征在于,所述开放世界工具包含以下项:

5.如权利要求1所述的视觉问答方法,其特征在于,所述基于所述执行过程信息和所述截图图像,生成针对所述预测答案的多模态形式的解释,包括:

6.如权利要求5所述的...

【技术特征摘要】

1.一种视觉问答方法,其特征在于,包括:

2.如权利要求1所述的视觉问答方法,其特征在于,所述基于所述目标问题,生成初始程序,包括:

3.如权利要求2所述的视觉问答方法,其特征在于,所述预设的程序提示还包含应用程序编程接口说明,其中,所述应用程序编程接口说明用于指示如何使用程序调用开放世界工具;

4.如权利要求3所述的视觉问答方法,其特征在于,所述开放世界工具包含以下项:

5.如权利要求1所述的视觉问答方法,其特征在于,所述基于所述执行过程信息和所述截图图像,生成针对所述预测答案的多模态形式的解释,包括:

6...

【专利技术属性】
技术研发人员:徐常胜钱胜胜周祖漪
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1