【技术实现步骤摘要】
本公开涉及计算机,更具体地说,涉及视觉问答方法、装置、电子设备、存储介质和计算机程序产品。
技术介绍
1、视觉问答(visual question answering,vqa)结合了计算机视觉技术和自然语言处理技术,能够为用户提供更智能的图像理解和交互体验。具体地说,它使计算机能够“看”图像并回答关于图像的问题,即只要给定一张图像以及针对该图像的问题,视觉问答软件就可以基于输入图像输出针对给定问题的答案。这需要视觉问答软件具备多模态理解的能力,目前主流的方法大多是基于多模态预训练来实现。vqa技术可以被应用于多个领域,包括但不限于:医学、教育、监控、娱乐等领域。
2、但是,相关技术中的视觉问答系统通常仅仅能够提供最终的答案,而缺乏对内部推理过程的解释,即模型透明度较低,这会导致用户信任度降低,不利于视觉问答技术的推广应用。
技术实现思路
1、本公开提供视觉问答方法、装置、电子设备、存储介质和计算机程序产品,以至少解决上述相关技术中,视觉问答系统通常仅仅能够提供最终的答案,而缺乏
...【技术保护点】
1.一种视觉问答方法,其特征在于,包括:
2.如权利要求1所述的视觉问答方法,其特征在于,所述基于所述目标问题,生成初始程序,包括:
3.如权利要求2所述的视觉问答方法,其特征在于,所述预设的程序提示还包含应用程序编程接口说明,其中,所述应用程序编程接口说明用于指示如何使用程序调用开放世界工具;
4.如权利要求3所述的视觉问答方法,其特征在于,所述开放世界工具包含以下项:
5.如权利要求1所述的视觉问答方法,其特征在于,所述基于所述执行过程信息和所述截图图像,生成针对所述预测答案的多模态形式的解释,包括:
6
...【技术特征摘要】
1.一种视觉问答方法,其特征在于,包括:
2.如权利要求1所述的视觉问答方法,其特征在于,所述基于所述目标问题,生成初始程序,包括:
3.如权利要求2所述的视觉问答方法,其特征在于,所述预设的程序提示还包含应用程序编程接口说明,其中,所述应用程序编程接口说明用于指示如何使用程序调用开放世界工具;
4.如权利要求3所述的视觉问答方法,其特征在于,所述开放世界工具包含以下项:
5.如权利要求1所述的视觉问答方法,其特征在于,所述基于所述执行过程信息和所述截图图像,生成针对所述预测答案的多模态形式的解释,包括:
6...
【专利技术属性】
技术研发人员:徐常胜,钱胜胜,周祖漪,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。