一种利用LLM实现知识库精准输出的方法、介质及系统技术方案

技术编号：39043824 阅读：14 留言：0更新日期：2023-10-10 11:56

本发明专利技术提供了一种利用LLM实现知识库精准输出的方法、介质及系统，属于知识库精准输出技术领域，该利用LLM实现知识库精准输出的方法包括：对知识库中的知识进行向量化处理，得到包含有多个知识向量的知识向量数据集；获取用户的问题并来向量化处理，得到问题向量；使用问题向量与所述知识向量数据集进行匹配，得到匹配度最高的M个知识向量；以得到的M个知识向量进行文本处理，得到对应的问题文本作为prompt并提交给N个LLM模型，得到N个输出文本；对得到的N个输出文本进行相关度分析，以相关度最高的输出文本作为输出结果。本方法、介质及系统更好地发挥LLM的语言理解与生成能力,实现对大规模知识库的精准检索和表达。实现对大规模知识库的精准检索和表达。实现对大规模知识库的精准检索和表达。

全部详细技术资料下载

【技术实现步骤摘要】
一种利用LLM实现知识库精准输出的方法、介质及系统

[0001]本专利技术属于知识库精准输出
，具体而言，涉及一种利用LLM实现知识库精准输出的方法、介质及系统。

技术介绍

[0002]随着互联网的快速发展,网络上形成了海量的文本知识库,这为人们学习和获取知识提供了极大的便利。但是,如何从繁杂的网络文本中快速准确地获取所需知识,仍然是一个待解决的难题。传统的基于词向量的文本匹配方法,匹配准确度较低。近年来,大语言模型(LLM)技术获得了长足的发展,在自然语言理解任务上展现了强大的能力，LLM即大规模语言模型，是一种基于深度学习的自然语言处理模型，它能够学习到自然语言的语法和语义，从而可以生成人类可读的文本。所谓"语言模型"，就是只用来处理语言文字（或者符号体系）的 AI 模型，发现其中的规律，可以根据提示 (prompt)，自动生成符合这些规律的内容。LLM 通常基于神经网络模型，使用大规模的语料库进行训练，比如使用互联网上的海量文本数据。这些模型通常拥有数十亿到数万亿个参数，能够处理各种自然语言处理任务，如自然语言生成、文本分类、文本摘要、机器翻译、语音识别等。而如何利用LLM的强大语言理解能力,实现对大规模文本知识库的精准检索和表达,是一个值得探索的课题。目前,利用LLM实现知识库精准输出的相关技术还不够成熟。现有的方法主要基于语义匹配的策略,利用LLM对问题和知识库进行编码,然后计算编码之间的相似度,选择相似度最高的知识文本作为输出。这种方法存在两个问题:1)依赖语义匹配,不能充分利用LLM的语言生成能力...

【技术保护点】

【技术特征摘要】
1.一种利用LLM实现知识库精准输出的方法，其特征在于，包括以下步骤：S10、对知识库中的知识进行向量化处理，得到包含有多个知识向量的知识向量数据集；S20、获取用户的问题并来向量化处理，得到问题向量；S30、使用问题向量，与所述知识向量数据集进行匹配，得到匹配度最高的M个知识向量；S40、以得到的M个知识向量进行文本处理，得到对应的问题文本作为prompt；S50、将得到的prompt提交给N个LLM模型后，得到N个输出文本；S60、对得到的N个输出文本进行相关度分析，以相关度最高的输出文本作为输出结果。2.根据权利要求1所述的一种利用LLM实现知识库精准输出的方法，其特征在于，所述对得到的N个输出文本进行相关度分析，以相关度最高的输出文本作为输出结果的步骤，具体是：S61、对得到N个输出文本进行向量化处理得到N个输出向量；S62、将每个输出向量与知识库进行相关度分析，得到每个输出向量的相关度；S63、若相关度最大的输出向量的相关度大于相关度阈值，则将相关度最大的输出向量对应的输出文本作为输出结果；若不存在大于相关度阈值的输出向量，则重复执行步骤S40
‑
S60或调整M的值后重复执行步骤S30
‑
S60，直到得到符合相关度要求的输出文本或超过最大循环次数；若超过最大循环次数则以历次循环中相关度最高的输出向量对应的输出文本作为输出结果。3.根据权利要求2所述的一种利用LLM实现知识库精准输出的方法，其特征在于，所述若不存在大于相关度阈值的输出向量，则重复执行步骤S40
‑
S60，直到得到符合相关度要求的输出文本或超过最大循环次数的步骤，还包括在重复执行步骤S40后对prompt进行优化的步骤，具体是：步骤1、将上一循环得到的N个输出文本利用LLM进行总结，得到N个总结文本；步骤2、将prompt与得...

【专利技术属性】
技术研发人员：周书田，于海洋，王炳文，彭晓彬，孙桂英，洪锋，薛雁，
申请(专利权)人：青岛网信信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人