基于大语言模型的智能问答方法、装置、设备和存储介质制造方法及图纸

技术编号：40418894 阅读：5 留言：0更新日期：2024-02-20 22:37

本公开的实施方式提供了一种基于大语言模型的智能问答方法、装置、设备和存储介质。该方法可以包括：获取输入的问题，并根据所述问题在数据库中进行检索，所述数据库包含对原始文档进行切分得到的长切片内容，以及对所述长切片内容进行切分得到的短切片内容；根据检索结果确定目标切片内容；将所述目标切片内容、所述问题以及提示指令输入大语言模型，以得到所述大语言模型输出的目标答案，所述提示指令用于指示所述大语言模型根据所述目标切片内容和所述问题生成所述目标答案。根据本公开的技术方案，可以实现灵活、低成本地在各个场景中落地问答系统，同时有效提升了问答系统输出的答案的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的实施方式涉及人工智能，更具体地，本公开的实施方式涉及一种基于大语言模型的智能问答方法、装置、设备和存储介质。

技术介绍

1、本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、问答系统因其能够为用户提供自动、快速的答疑服务而被广泛应用到多个场景。相关技术中，使用问答系统需要先人工构建数据库，即人工将大量的原始文档整理成问答对的形式，并根据整理出的问答对构建数据库，然后根据用户的问题在数据库中检索与问题相匹配的问答对，以将问答对中包含的答案返回至用户。

3、上述方式中，由于原始文档大都为没有明确定义结构、格式和语义的非结构化文档，且原始文档的数量非常庞大，因此人工构建数据库需要耗费大量的人力成本和时间成本。此外，由于场景的不同，每个场景有自己的专业知识文档，这就意味着每个新的场景都需要花费人力整理问答对，以构建数据库，导致在新场景中难以快速实现问答系统的落地。

技术实现思路

1、在本公开实施方式的第一方面中，提供了一种基于大语言模型的智能问答方法，该方法包括：

2、获取输入的问题，并根据所述问题在数据库中进行检索，所述数据库包含对原始文档进行切分得到的长切片内容，以及对所述长切片内容进行切分得到的短切片内容；

3、根据检索结果确定目标切片内容；

4、将所述目标切片内容、所述问题以及提示指令输入大语言模型，以得到所述大语言模型输出的目标答案，所述提示指令

5、可选的，对所述长切片内容进行切分得到短切片内容，包括：在任一长切片内容的切片长度大于第一长度阈值的情况下，对所述任一长切片内容进行切分，得到至少两个短切片内容，所述至少两个短切片内容中的每一短切片内容均对应于所述任一长切片内容且所述每一短切片内容的切片长度小于第二长度阈值，所述第二长度阈值小于所述第一长度阈值。

6、可选的，所述根据所述问题在数据库中进行检索，包括：在所述数据库中检索与所述问题相匹配的目标短切片内容；基于短切片内容与长切片内容的对应关系，在所述数据库中查询对应于所述目标短切片内容的目标长切片内容；将所述目标短切片内容和所述目标长切片内容作为所述检索结果。

7、可选的，所述在所述数据库中检索与所述问题相匹配的目标短切片内容，包括：采用es检索和/或向量检索在所述数据库中检索与所述问题相匹配的所述目标短切片内容。

8、可选的，所述根据检索结果确定目标切片内容，包括：根据检索结果确定目标切片内容组的数量，所述目标切片内容组包括一个目标短切片内容以及该目标短切片内容对应的目标长切片内容；在所述目标切片内容组的数量为多个的情况下，分别计算每个目标切片内容组与所述问题的相似度；将所述相似度大于相似度阈值的目标切片内容组所包含的目标短切片内容或目标长切片内容确定为所述目标切片内容。

9、可选的，所述分别计算每个目标切片内容组与所述问题的相似度，包括：分别计算所述每个目标切片内容组所含的目标短切片内容与所述问题的第一相似度，以及分别计算所述每个目标切片内容组所含的目标长切片内容与所述问题的第二相似度；根据所述第一相似度和所述第二相似度计算所述每个目标切片内容组与所述问题的相似度。

10、可选的，所述方法还包括：确定所述问题针对的场景，所述场景包括总结场景或排序场景，所述总结场景表征对所述目标切片内容进行总结，所述排序场景表征对所述目标切片内容进行排序；所述根据检索结果确定目标切片内容，包括：在所述问题针对的场景为所述总结场景的情况下，将所述目标长切片内容确定为所述目标切片内容；以及，在所述问题针对的场景为所述排序场景的情况下，将所述目标短切片内容确定为所述目标切片内容。

11、可选的，所述提示指令包括总结指令或排序指令；所述将所述目标切片内容、所述问题以及提示指令输入大语言模型，包括：在所述问题针对的场景为所述总结场景的情况下，将所述目标切片内容、所述问题以及所述总结指令输入所述大语言模型，所述总结指令用于指示所述大语言模型对所述目标长切片内容进行总结，以生成所述目标答案；在所述问题针对的场景为所述排序场景的情况下，将所述目标切片内容、所述问题以及所述排序指令输入所述大语言模型，所述排序指令用于指示所述大语言模型对所述目标短切片内容进行排序，并输出排序结果。

12、在本公开实施方式的第二方面中，提供了一种基于大语言模型的智能问答装置，该装置包括：

13、问题获取模块，用于获取输入的问题，并根据所述问题在数据库中进行检索，所述数据库包含对原始文档进行切分得到的长切片内容，以及对所述长切片内容进行切分得到的短切片内容；

14、确定模块，用于根据检索结果确定目标切片内容；

15、答案生成模块，用于将所述目标切片内容、所述问题以及提示指令输入大语言模型，以得到所述大语言模型输出的目标答案，所述提示指令用于指示所述大语言模型根据所述目标切片内容和所述问题生成所述目标答案。

16、在本公开实施方式的第三方面中，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面的实施例中所述的方法。

17、在本公开实施方式的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的实施例中所述方法的步骤。

18、本公开以上的实施方式，至少具有如下的有益效果：

19、通过将原始文档进行切分得到长切片内容，以及对长切片内容进行切分进行短切片内容，然后基于长切片内容和短切片内容构建数据库，以基于构建的数据库进行智能问答。此种构建数据库的方式无需依赖人工整理，大大提升了数据库的构建效率，并且该方式可以快速构建各个场景的数据库，从而实现了灵活、低成本地在各个场景中落地问答系统。此外，长短切片结合的切片方式既有效维护了长文本答案的完整性，又缓解了短答案文本的信息冗余，从而有助于提升问答过程中检索结果的准确性，进而使得大语言模型能够基于问题和准确的目标切片内容输出准确的答案。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的智能问答方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述长切片内容进行切分得到短切片内容，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述问题在数据库中进行检索，包括：

4.根据权利要求3所述的方法，其特征在于，所述在所述数据库中检索与所述问题相匹配的目标短切片内容，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据检索结果确定目标切片内容，包括：

6.根据权利要求5所述的方法，其特征在于，所述分别计算每个目标切片内容组与所述问题的相似度，包括：

7.根据权利要求3所述的方法，其特征在于，

8.一种基于大语言模型的智能问答装置，其特征在于，该装置包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处

...

【技术特征摘要】

1.一种基于大语言模型的智能问答方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述长切片内容进行切分得到短切片内容，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述问题在数据库中进行检索，包括：

4.根据权利要求3所述的方法，其特征在于，所述在所述数据库中检索与所述问题相匹配的目标短切片内容，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据检索结果确定目标切片内容，包括：

6.根据权利要求5所述的方法，其特...

【专利技术属性】
技术研发人员：杨杨，欧阳宇峻，李家诚，张彦辉，张志豪，胡光龙，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人