视觉问答方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:43288545 阅读:17 留言:0更新日期:2024-11-12 16:09
本申请涉及视觉问答技术领域,公开了视觉问答方法、装置、设备、存储介质及产品,包括:对视觉问题数据进行特征提取,生成视觉问题数据对应的多模态特征数据;根据多模态特征数据在预设模板库中进行查找,获得与多模态特征数据相匹配的目标示例问答数据;根据目标示例问答数据构建模型提示词;将模型提示词及视觉问题数据输入至大语言模型,以使大语言模型在模型提示词的指导下,根据视觉问题数据生成视觉问答结果。由于可根据视觉问题数据对应的多模态特征数据查找数据构建模型提示词,通过模型提示词对大语言模型进行指导,保证即使输入视觉类文档等包含图像的数据,大语言模型仍旧可以正常进行问答。

【技术实现步骤摘要】

本申请涉及视觉问答,尤其涉及视觉问答方法、装置、设备、存储介质及产品


技术介绍

1、大语言模型(large language model,llm,大型语言模型)是一种基于深度学习的模型,能够理解和生成人类语言,通常用于自然语言处理任务,如文本生成、翻译、问答等。

2、基于大模型的文档理解系统常用于各类文档场景,可以对输入的文档进行相应的理解,基于理解执行用户提出的任务,如基于输入的文档对用户提出的问题给出对应的答案,或是根据用户提出的需求,对输入的文档进行理解,输出用户需求的关键字段信息等。

3、但是,此类应用一般仅能应用于文本类文档,而现实应用中的文档并不都是文本类文档,也存在大量的视觉类文档,如包含扫描件的文档或包含手持拍摄图片的文档,此外,实际应用中的文档理解任务多种多样,包括各类信息抽取类的抽取式问题,和涵盖逻辑计算推理类的生成式问题。


技术实现思路

1、本申请的主要目的在于提供一种视觉问答方法、装置、设备、存储介质及产品,旨在解决相关技术大语言模型在使用时无法支持输入视觉类本文档来自技高网...

【技术保护点】

1.一种视觉问答方法,其特征在于,所述方法包括:

2.如权利要求1所述的视觉问答方法,其特征在于,所述视觉问题数据包括图像数据以及问题数据;

3.如权利要求2所述的视觉问答方法,其特征在于,所述对所述图像数据进行文字识别,获得所述图像数据对应的图像文本数据,包括:

4.如权利要求2所述的视觉问答方法,其特征在于,所述将所述视觉特征数据、所述文本特征数据及所述问题特征数据融合,生成所述视觉问题数据对应的多模态特征数据,包括:

5.如权利要求4所述的视觉问答方法,其特征在于,所述预设比例系数包括视觉比例系数、文本比例系数以及问题比例系数;...

【技术特征摘要】

1.一种视觉问答方法,其特征在于,所述方法包括:

2.如权利要求1所述的视觉问答方法,其特征在于,所述视觉问题数据包括图像数据以及问题数据;

3.如权利要求2所述的视觉问答方法,其特征在于,所述对所述图像数据进行文字识别,获得所述图像数据对应的图像文本数据,包括:

4.如权利要求2所述的视觉问答方法,其特征在于,所述将所述视觉特征数据、所述文本特征数据及所述问题特征数据融合,生成所述视觉问题数据对应的多模态特征数据,包括:

5.如权利要求4所述的视觉问答方法,其特征在于,所述预设比例系数包括视觉比例系数、文本比例系数以及问题比例系数;

6.如权利要求1-5任一项所述的视觉问答方法,其特征在于,所述根据所述多模态特征数据在预设模板库中进行查找,获得与所述多模态特征数据相匹配的至少一个目标示例问答数据,包括:

【专利技术属性】
技术研发人员:李灿乔梁
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1