当前位置: 首页 > 专利查询>哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院专利>正文

基于多模态自适应检索式增强大模型的问答方法及系统技术方案

技术编号：40577737 阅读：6 留言：0更新日期：2024-03-06 17:19

本发明专利技术属于问答模型技术领域，为解决现有生成答案的准确率低的问题，提供一种基于多模态自适应检索式增强大模型的问答方法及系统。其中，基于多模态自适应检索式增强大模型的问答方法包括接收待回答的问题；基于多模态自适应检索式增强大模型及多模态知识库，生成预测答案；多模态自适应检索式增强大模型包括检索器、检索排序器和生成器；检索器提取问题及多模态知识库中的每个知识对应的多模态融合特征，计算每个知识和问题的相似度，选取TOP‑K知识；根据问题及知识标签，利用检索排序器从TOP‑K知识中判定出与问题相关的知识，得到检索的相关知识；生成器生成预测答案，其能够大大提高了模态问答的检索和生成答案的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于问答模型，尤其涉及一种基于多模态自适应检索式增强大模型的问答方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、随着互联网的诞生，信息迅速暴增。根据问题从大量信息中有效地找到答案已成为一项重大挑战。开放式多模态问答可以基于问题去检索外部知识库并生成正确答案来帮助缓解信息过载问题。近年来，人们对一些先进的多模态大语言模型，例如blip-2和gpt-4等，都进行了深入探索，通过在模型参数中隐式存储大量外部知识来提高其性能，这些参数现在已扩展到数千亿。虽然这些模型在各种任务上取得了令人兴奋的结果，但它们存储方式不仅可解释性差，计算成本高昂，而且存储的信息量固定，如果下游任务推理的知识依赖超出当前知识范畴，大模型很难给出正确答案。

3、为了缓解这一挑战，许多研究人员提出了检索式增强技术，将模型分为两个关键部分：检索器和生成器。检索器根据问题从多模态知识库中检索相关知识，而生成器则利用这些知识来生成文本输出答案。文本单模态检索式增强大模型，例如，realm已经被提出用来解决文本模态检索式问答任务。这些模型从维基百科等广泛的文本知识库构建密集索引作为非参数文档存储器，以进行有效的知识检索。然后，再用预训练的生成器根据检索到的知识生成文本答案。murag、solar和 skurg多模态检索式增强大模型相继出现，这些大模型将知识库扩展到文本视觉等多模态，采用预训练视觉语言大模型根据问题去检索相关的多模态知识库来生成答案。

4、尽管上述方法

5、（1）现有方法对视觉和语言模态之间的信息融合和交互不足。一方面，现有方法缺乏对多模态信息的显式融合，阻碍了语义空间中问题文本和多模态知识的对齐。以前的方法采用单独的视觉编码器和文本编码器对不同模态单独编码，并采用对比学习来对齐多个模态，这可能会导致针对特定模态的不平衡和多模态检索和推理过程存在偏见。另一方面，现有方法没有利用问题作为提示来指示视觉编码器选择性提取视觉特征，导致此类方法缺乏相互指导，并且无法对多个模态之间的关系进行建模。此外，图像中的冗余信息会产生干扰和噪声，影响检索和推理结果。

6、（2）现有方法在生成阶段没有检查检索知识的相关性。检索的知识包含了错误的内容和大量噪声，导致模型推理阶段抗干扰性和鲁棒性较差。现有方法假设检索的多模态知识全部是相关的，然后直接将问题和检索的知识一起输入到生成器中进行推理。生成器没有仔细检查检索到的知识，导致生成器使用了不正确、混乱或不相关的信息进行推理生成，降低了准确率。

技术实现思路

1、为了解决上述
技术介绍
中存在的技术问题，本专利技术提供一种基于多模态自适应检索式增强大模型的问答方法及系统，其能够大大提高了模态问答的检索和生成答案的准确率。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、本专利技术的第一个方面提供一种基于多模态自适应检索式增强大模型的问答方法。

4、一种基于多模态自适应检索式增强大模型的问答方法，包括：

5、接收待回答的问题；

6、基于多模态自适应检索式增强大模型及多模态知识库，生成所述问题的预测答案；

7、其中，多模态自适应检索式增强大模型包括检索器、检索排序器和生成器；

8、生成所述问题的预测答案的过程包括：

9、利用检索器提取问题及多模态知识库中的每个知识对应的特征，并映射到统一的多模态语义空间中，计算多模态知识库中的每个知识和问题的相似度，选取相似度排名前k名的知识作为top-k知识；其中，k为大于或等于2的正整数；

10、根据问题及知识标签，利用检索排序器从检索器检索的top-k知识中判定出与问题相关的知识，得到检索的相关知识；

11、根据问题和检索排序器检索的相关知识，利用生成器生成预测答案。

12、作为本专利技术第一个方面的一种实施方式，所述检索器的训练过程为：

13、以问题和多模态知识库为输入，相关知识为正样本，一个批次内的不相关知识为负样本，计算对比学习损失，拉进问题和相关知识的距离，远离不相关知识，训练得到检索器。

14、作为本专利技术第一个方面的一种实施方式，所述检索排序器的训练过程为：

15、以问题、知识正负例标签和检索器检索的top-k知识为输入，计算交叉熵损失，排除掉干扰知识，训练得到检索排序器。

16、作为本专利技术第一个方面的一种实施方式，所述生成器的训练过程为：

17、以问题、答案和检索排序器检索的相关知识为输入，再采用自适应知识选择策略对数据进行扩充，基于原始问答数据和扩充数据计算生成损失，训练得到生成器。

18、作为本专利技术第一个方面的一种实施方式，所述相似度采用最大内积相似度来表征。

19、作为本专利技术第一个方面的一种实施方式，所述多模态知识库中的知识包括文本、图像和图文。

20、作为本专利技术第一个方面的一种实施方式，所述检索器包括视觉编码器、q-former结构及多模态自适应融合模块；所述视觉编码器用于提取多模态知识库中图像的图像特征；所述q-former结构用于提取多模态知识库中图像的文本特征，并将其与图像特征对齐后再传送至多模态自适应融合模块，以进行特征融合，得到多模态融合特征；所述q-former结构还用于提取问题及多模态知识库中文本的文本特征。

21、本专利技术的第二个方面提供一种基于多模态自适应检索式增强大模型的问答系统。

22、一种基于多模态自适应检索式增强大模型的问答系统，其包括：

23、问题接收模块，其用于接收待回答的问题；

24、答案生成模块，其基于多模态自适应检索式增强大模型及多模态知识库，生成所述问题的预测答案；

25、其中，多模态自适应检索式增强大模型包括检索器、检索排序器和生成器；

26、生成所述问题的预测答案的过程包括：

27、利用检索器提取问题及多模态知识库中的每个知识对应的特征，并映射到统一的多模态语义空间中，计算多模态知识库中的每个知识和问题的相似度，选取相似度排名前k名的知识作为top-k知识；其中，k为大于或等于2的正整数；

28、根据问题及知识标签，利用检索排序器从检索器检索的top-k知识中判定出与问题相关的知识，得到检索的相关知识；

29、根据问题和检索排序器检索的相关知识，利用生成器生成预测答案。

30、作为本专利技术第二个方面的一种实施方式，所述检索器的训练过程为：

31、以问题和多模态知识库为输入，相关知识为正样本，一个批次内的不相关知识为负样本，计算对比学习损失，拉进问题和相关知识的距离，远离不相关知识，训练得到检索器。

32、作为本专利技术第二个方面的一种实施方式，所述检索排序器的训练过程为：

33、以问题、知识正负例标签和检索器本文档来自技高网...

【技术保护点】

1.一种基于多模态自适应检索式增强大模型的问答方法，其特征在于，包括：

2.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述检索器的训练过程为：

3.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述检索排序器的训练过程为：

4.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述生成器的训练过程为：

5.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述相似度采用最大内积相似度来表征。

6.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述多模态知识库中的知识包括文本、图像和图文。

7.如权利要求6所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述检索器包括视觉编码器、Q-Former结构及多模态自适应融合模块；所述视觉编码器用于提取多模态知识库中图像的图像特征；所述Q-Former结构用于提取多模态知识库中图像的文本特征，并将其与图像特征对齐后再传送至

8.一种基于多模态自适应检索式增强大模型的问答系统，其特征在于，包括：

9.如权利要求8所述的基于多模态自适应检索式增强大模型的问答系统，所述检索器的训练过程为：

10.如权利要求8所述的基于多模态自适应检索式增强大模型的问答系统，所述检索排序器的训练过程为：

...

【技术特征摘要】

1.一种基于多模态自适应检索式增强大模型的问答方法，其特征在于，包括：

2.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述检索器的训练过程为：

3.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述检索排序器的训练过程为：

4.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述生成器的训练过程为：

5.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述相似度采用最大内积相似度来表征。

6.如权利要求1所述的基于多模态自适应检索式增强大模型的问答方法，其特征在于，所述多模态知识库中的知识包括文本、图像和图文。

7.如权...

【专利技术属性】
技术研发人员：吴建龙，丁沐河，张贤，聂礼强，宋雪萌，甘甜，
申请(专利权)人：哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人