System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视觉问答方法、装置、设备、存储介质及产品制造方法及图纸_技高网

视觉问答方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:43288545 阅读:12 留言:0更新日期:2024-11-12 16:09
本申请涉及视觉问答技术领域,公开了视觉问答方法、装置、设备、存储介质及产品,包括:对视觉问题数据进行特征提取,生成视觉问题数据对应的多模态特征数据;根据多模态特征数据在预设模板库中进行查找,获得与多模态特征数据相匹配的目标示例问答数据;根据目标示例问答数据构建模型提示词;将模型提示词及视觉问题数据输入至大语言模型,以使大语言模型在模型提示词的指导下,根据视觉问题数据生成视觉问答结果。由于可根据视觉问题数据对应的多模态特征数据查找数据构建模型提示词,通过模型提示词对大语言模型进行指导,保证即使输入视觉类文档等包含图像的数据,大语言模型仍旧可以正常进行问答。

【技术实现步骤摘要】

本申请涉及视觉问答,尤其涉及视觉问答方法、装置、设备、存储介质及产品


技术介绍

1、大语言模型(large language model,llm,大型语言模型)是一种基于深度学习的模型,能够理解和生成人类语言,通常用于自然语言处理任务,如文本生成、翻译、问答等。

2、基于大模型的文档理解系统常用于各类文档场景,可以对输入的文档进行相应的理解,基于理解执行用户提出的任务,如基于输入的文档对用户提出的问题给出对应的答案,或是根据用户提出的需求,对输入的文档进行理解,输出用户需求的关键字段信息等。

3、但是,此类应用一般仅能应用于文本类文档,而现实应用中的文档并不都是文本类文档,也存在大量的视觉类文档,如包含扫描件的文档或包含手持拍摄图片的文档,此外,实际应用中的文档理解任务多种多样,包括各类信息抽取类的抽取式问题,和涵盖逻辑计算推理类的生成式问题。


技术实现思路

1、本申请的主要目的在于提供一种视觉问答方法、装置、设备、存储介质及产品,旨在解决相关技术大语言模型在使用时无法支持输入视觉类文档的技术问题。

2、为实现上述目的,本申请提出一种视觉问答方法,所述的方法包括:

3、对视觉问题数据进行特征提取,生成所述视觉问题数据对应的多模态特征数据;

4、根据所述多模态特征数据在预设模板库中进行查找,获得与所述多模态特征数据相匹配的至少一个目标示例问答数据,所述预设模板库包括多个示例问答数据以及各示例问答数据对应的标准多模态特征数据

5、根据所述至少一个目标示例问答数据构建模型提示词;

6、将所述模型提示词及所述视觉问题数据输入至大语言模型,以使所述大语言模型在所述模型提示词的指导下,根据所述视觉问题数据生成视觉问答结果。

7、在本申请一种可能的实现方式中,所述视觉问题数据包括图像数据以及问题数据;

8、所述对视觉问题数据进行特征提取,生成所述视觉问题数据对应的多模态特征数据,包括:

9、对所述图像数据进行文字识别,获得所述图像数据对应的图像文本数据;

10、对所述图像数据进行特征提取,生成视觉特征数据,对所述图像文本数据进行特征提取,生成文本特征数据,并对所述问题数据进行特征提取,生成问题特征数据;

11、将所述视觉特征数据、所述文本特征数据及所述问题特征数据融合,生成所述视觉问题数据对应的多模态特征数据。

12、在本申请一种可能的实现方式中,所述对所述图像数据进行文字识别,获得所述图像数据对应的图像文本数据,包括:

13、获取所述图像数据中的至少一个文本区域;

14、对各文本区域分别进行文字识别,获得各文本区域对应的区域文本数据;

15、基于预设顺序以及各文本区域的区域位置,将各文本区域对应的区域文本数据进行组装,生成所述图像数据对应的图像文本数据,所述图像文本数据中不同文本区域的区域文本数据之间设置有预设分割符。

16、在本申请一种可能的实现方式中,所述将所述视觉特征数据、所述文本特征数据及所述问题特征数据融合,生成所述视觉问题数据对应的多模态特征数据,包括:

17、获取预设比例系数,所述预设比例系数用于表征各类特征数据在多模态特征数据中的权重比例;

18、基于所述预设比例系数,将所述视觉特征数据、所述文本特征数据及所述问题特征数据融合,生成所述视觉问题数据对应的多模态特征数据。

19、在本申请一种可能的实现方式中,所述预设比例系数包括视觉比例系数、文本比例系数以及问题比例系数;

20、所述基于所述预设比例系数,将所述视觉特征数据、所述文本特征数据及所述问题特征数据融合,生成所述视觉问题数据对应的多模态特征数据,包括:

21、获取所述图像数据的图像尺寸以及文本区域大小;

22、根据所述文本区域大小以及所述图像尺寸计算文本占比系数;

23、根据所述文本占比系数对所述预设比例系数中的视觉比例系数以及文本比例系数进行调整;

24、基于调整后的预设比例系数,将所述视觉特征数据、所述文本特征数据及所述问题特征数据融合,生成所述视觉问题数据对应的多模态特征数据。

25、在本申请一种可能的实现方式中,所述根据所述多模态特征数据在预设模板库中进行查找,获得与所述多模态特征数据相匹配的至少一个目标示例问答数据,包括:

26、将所述多模态特征数据分别与预设模板库中各示例问答数据对应的标准多模态特征数据进行比对,获得各示例问答数据对应的特征相似度;

27、基于所述特征相似度在所述预设模板库中选取与所述多模态特征数据相匹配的至少一个目标示例问答数据。

28、在本申请一种可能的实现方式中,所述基于所述特征相似度在所述预设模板库中选取与所述多模态特征数据相匹配的至少一个目标示例问答数据,包括:

29、基于对应的特征相似度从大到小对所述预设模板库中各示例问答数据进行排序,生成排序结果;

30、将所述排序结果中排序前n的示例问答数据选取为与所述多模态特征数据相匹配的目标示例问答数据,n为正整数。

31、此外,为实现上述目的,本申请还提出一种视觉问答装置,所述装置包括:

32、提取模块,用于对视觉问题数据进行特征提取,生成所述视觉问题数据对应的多模态特征数据;

33、查找模块,用于根据所述多模态特征数据在预设模板库中进行查找,获得与所述多模态特征数据相匹配的至少一个目标示例问答数据,所述预设模板库包括多个示例问答数据以及各示例问答数据对应的标准多模态特征数据;

34、构建模块,用于根据所述至少一个目标示例问答数据构建模型提示词;

35、生成模块,用于将所述模型提示词及所述视觉问题数据输入至大语言模型,以使所述大语言模型在所述模型提示词的指导下,根据所述视觉问题数据生成视觉问答结果。

36、此外,为实现上述目的,本申请还提出一种视觉问答设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上所述的视觉问答方法的步骤。

37、此外,为实现上述目的,本申请还提出一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的视觉问答方法的步骤。

38、此外,为实现上述目的,本申请还提出一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上所述的视觉问答方法的步骤。

39、本申请提出的一个或多个技术方案,至少具有以下技术效果:

40、由于可根据视觉问题数据对应的多模态特征数据查找数据构建模型提示词,通过模型提示词对大语言模型进行指导,令其快速确定问题与答案之间的关联关系,从而正确生成视觉问答结果,保证即使输入视觉类文本文档来自技高网...

【技术保护点】

1.一种视觉问答方法,其特征在于,所述方法包括:

2.如权利要求1所述的视觉问答方法,其特征在于,所述视觉问题数据包括图像数据以及问题数据;

3.如权利要求2所述的视觉问答方法,其特征在于,所述对所述图像数据进行文字识别,获得所述图像数据对应的图像文本数据,包括:

4.如权利要求2所述的视觉问答方法,其特征在于,所述将所述视觉特征数据、所述文本特征数据及所述问题特征数据融合,生成所述视觉问题数据对应的多模态特征数据,包括:

5.如权利要求4所述的视觉问答方法,其特征在于,所述预设比例系数包括视觉比例系数、文本比例系数以及问题比例系数;

6.如权利要求1-5任一项所述的视觉问答方法,其特征在于,所述根据所述多模态特征数据在预设模板库中进行查找,获得与所述多模态特征数据相匹配的至少一个目标示例问答数据,包括:

7.如权利要求6所述的视觉问答方法,其特征在于,所述基于所述特征相似度在所述预设模板库中选取与所述多模态特征数据相匹配的至少一个目标示例问答数据,包括:

8.一种视觉问答装置,其特征在于,所述装置包括:

9.一种视觉问答设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至7中任一项所述的视觉问答方法的步骤。

10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的视觉问答方法的步骤。

11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的视觉问答方法的步骤。

...

【技术特征摘要】

1.一种视觉问答方法,其特征在于,所述方法包括:

2.如权利要求1所述的视觉问答方法,其特征在于,所述视觉问题数据包括图像数据以及问题数据;

3.如权利要求2所述的视觉问答方法,其特征在于,所述对所述图像数据进行文字识别,获得所述图像数据对应的图像文本数据,包括:

4.如权利要求2所述的视觉问答方法,其特征在于,所述将所述视觉特征数据、所述文本特征数据及所述问题特征数据融合,生成所述视觉问题数据对应的多模态特征数据,包括:

5.如权利要求4所述的视觉问答方法,其特征在于,所述预设比例系数包括视觉比例系数、文本比例系数以及问题比例系数;

6.如权利要求1-5任一项所述的视觉问答方法,其特征在于,所述根据所述多模态特征数据在预设模板库中进行查找,获得与所述多模态特征数据相匹配的至少一个目标示例问答数据,包括:

【专利技术属性】
技术研发人员:李灿乔梁
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1