System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及知识库问答,特别涉及一种基于llm的文档知识问答方法及系统。
技术介绍
1、知识库问答技术是一种基于知识库和自然语言处理技术,用于回答访问者提出的问题的技术。近年来,随着人工智能和自然语言处理技术的发展,知识库问答技术得到了广泛应用和不断改进。随着技术的进一步成熟和发展,我们可以预见,知识库问答技术将在各个领域发挥越来越重要的作用,为访问者提供准确、实时和个性化的问答服务。知识库问答技术有多种现有的技术方案,包括以下几种常见的:基于规则的问答系统、基于统计方法的问答系统、基于知识图谱的问答系统、基于深度学习的问答系统。这些技术方案都有其适用的场景和优缺点,具体选择取决于问题的复杂性、需求的准确性和领域的特殊性。当然,也有一些综合多种方法的混合方案,以提高问答系统的准确性和性能。
2、目前,从海量知识库中找出与问题相关的描述内容,并总结组织出与之匹配的回答,是一件具有挑战性的任务。既要保证答案的准确性和完备性,还要减少冗余内容。对于小批量的qa对数据,通过两两计算问题与知识库相似度进行回答,一般可以满足。但是对于海量数据,两两计算相似度,会造成大量的计算资源消耗和内容上的冗余,一般做法基本不可达。
技术实现思路
1、本专利技术提供一种基于llm的文档知识问答方法及系统,采用词嵌入、向量数据库和llm模型实现了访问者对自己的问答知识库的问答。这种方法能够从海量知识库中准确回答访问者问题的目标,保证了答案的准确率。
2、一方面,本专利技术提供了一种基
3、在问答界面接收访问者的提问信息,将提问信息通过词嵌入距离与预先创建的问答知识库中的召回知识进行距离计算,确定召回的目标知识;其中,
4、问答知识库是基于访问者自行上传的问答文档创建的,其内存储有问答文档及对应的词嵌入;
5、将提问信息与召回的目标知识结合,生成提示信息;
6、根据提示信息和目标知识通过llm模型进行问答处理,得到召回内容;
7、将召回内容反馈给访问者,以完成访问者对自己的提问信息的问答。
8、优选的,所述创建问答知识库的步骤具体包括:
9、获取访问者自行上传的问答文档;其中,问答文档内包含与提问信息相关联的目标知识;
10、在接收到访问者的向量化操作请求时,利用分词模型将问答文档划分为词语,并根据指示符将分词后的文本进行段落的划分;
11、利用词嵌入模型将每个词语转换为词向量,并对每个段落中的词向量进行求和处理,将段落以向量的形式表示,得到与问答文档对应的词嵌入结果;
12、将问答文档与其相对应的词嵌入结果存储到向量数据库中,完成问答知识库的创建和更新。
13、优选的,所述llm模型进行问答处理时,可根据访问者设置的提炼参数选择对应的问答归纳方案;其中,问答归纳方案有四种,分别为第一问答归纳方案、第二问答归纳方案、第三问答归纳方案和第四问答归纳方案;
14、第一问答归纳方案是将召回的目标知识一次性传输给llm模型进行总结,得到答案;
15、第二问答归纳方案是先将构成目标知识的每个知识片段分别传输给llm模型进行总结,然后将所有知识片段总结出的结果传输给llm模型进行再次总结,得到答案;
16、第三问答归纳方案是先将第n段知识片段传输给llm模型进行总结,然后将第n段知识总结出的内容和第n+1段知识片段传输给llm模型再进行总结,重复上述步骤,直至总结完全部的知识片段,得到答案;
17、第四问答归纳方案是将每一段知识片段进行一次总结,然后得到一个分数,最后选择一个分数最高的总结,得到答案。
18、优选的,所述将提问信息与召回的目标知识结合,生成提示信息包括:
19、对每次的提问信息和召回的目标知识进行预处理,得到待识别数据;
20、将待识别数据输入训练的关键词生成模型中,得到与上下文相关的关键词;
21、根据预设规则对生成关键词进行筛选,得到提示信息。
22、优选的,所述获取访问者自行上传的问答文档的步骤为:
23、对访问者拖拽文档事件进行监听;
24、当访问者将问答文档拖拽至指定位置时,获取拖动的问答文档的信息;
25、计算问答文档的校验和,将文档内容映射为固定长度的校验码;并将计算出的校验和附加到文档末尾;
26、将问答文档进行上传,在上传成功后重新计算接收到的问答文档的校验和,并与附加在问答文档末尾的校验和进行比较;
27、若两者不一致,则生成文档已被损坏或篡改的提示信息,并将其反馈给访问者。
28、优选的,所述将召回内容反馈给访问者,以完成访问者对自己的提问信息的问答之后,还包括:
29、利用余弦相似度计算前后两次提问向量的距离;其中,提问向量是对提问信息进行预处理和向量化处理后,将提问信息转换为向量形式;
30、当距离小于第一预设阈值且次数超出第二预设阈值时,基于词频从提问信息中提取关键词,并在预设的模板规则库搜索匹配模板,根据匹配模板及关键词生成多个推荐问题;
31、生成推荐问题列表并将其反馈给访问者,以辅助访问者提问。
32、优选的,所述利用分词模型将问答文档划分为词语的步骤具体包括:
33、对问答文档进行语料清洗,得到待划分文本;
34、利用构建的隐马尔可夫模型对待划分文本进行分词,计算每个划分结果的概率,获取概率最大的分词方式;
35、根据相邻字的共同出现的概率进行合理性判断,获得划分后的词语。
36、优选的,所述在接收到访问者的提问信息时,将提问信息通过词嵌入距离与预先创建的问答知识库中的召回知识进行距离计算,确定召回的目标知识之前,还包括:
37、接收访问者上传的多个问答文档;
38、对多个问答文档进行解析,得到文本内容并将其转换为纯文本格式,得到多个待分类文本;
39、基于关键词和分类规则对多个待分类文本进行分类,根据分类的结果将待分类文本存储在相对应的问答知识库内。
40、一种基于llm的文档知识问答系统,包括问答知识库、数据接收模块、数据处理模块、提示信息生成模块、llm模型以及答案反馈模块,其中:
41、问答知识库是基于访问者自行上传的问答文档创建的,其内存储有问答文档及对应的词嵌入;
42、数据接收模块用于接收访问者的提问信息;
43、数据处理模块用于在接收到访问者的提问信息时,将提问信息通过词嵌入距离与预先创建的问答知识库中的召回知识进行距离计算,确定召回的目标知识;
44、提示信息生成模块用于将提问信息与召回的目标知识结合,生成提示信息;
45、llm模型用于根据提示信息和目标知识通过llm模型进行问答处理,得到召回内容;
46、本文档来自技高网...
【技术保护点】
1.一种基于LLM的文档知识问答方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于LLM的文档知识问答方法,其特征在于,所述创建问答知识库的步骤具体包括:
3.如权利要求2所述的一种基于LLM的文档知识问答方法,其特征在于,所述LLM模型进行问答处理时,可根据访问者设置的提炼参数选择对应的问答归纳方案;其中,问答归纳方案有四种,分别为第一问答归纳方案、第二问答归纳方案、第三问答归纳方案和第四问答归纳方案;
4.如权利要求2所述的一种基于LLM的文档知识问答方法,其特征在于,所述将提问信息与召回的目标知识结合,生成提示信息包括:
5.如权利要求2所述的一种基于LLM的文档知识问答方法,其特征在于,所述获取访问者自行上传的问答文档的步骤为:
6.如权利要求1所述的一种基于LLM的文档知识问答方法,其特征在于,所述将召回内容反馈给访问者,以完成访问者对自己的提问信息的问答之后,还包括:
7.如权利要求2所述的一种基于LLM的文档知识问答方法,其特征在于,所述利用分词模型将问答文档划分为词语的步骤具体包
8.如权利要求1所述的一种基于LLM的文档知识问答方法,其特征在于,所述在接收到访问者的提问信息时,将提问信息通过词嵌入距离与预先创建的问答知识库中的召回知识进行距离计算,确定召回的目标知识之前,还包括:
9.一种基于LLM的文档知识问答系统,其特征在于,包括问答知识库、数据接收模块、数据处理模块、提示信息生成模块、LLM模型以及答案反馈模块,其中:
10.如权利要求9所述的一种基于LLM的文档知识问答系统,其特征在于,所述问答知识库包括:
...【技术特征摘要】
1.一种基于llm的文档知识问答方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于llm的文档知识问答方法,其特征在于,所述创建问答知识库的步骤具体包括:
3.如权利要求2所述的一种基于llm的文档知识问答方法,其特征在于,所述llm模型进行问答处理时,可根据访问者设置的提炼参数选择对应的问答归纳方案;其中,问答归纳方案有四种,分别为第一问答归纳方案、第二问答归纳方案、第三问答归纳方案和第四问答归纳方案;
4.如权利要求2所述的一种基于llm的文档知识问答方法,其特征在于,所述将提问信息与召回的目标知识结合,生成提示信息包括:
5.如权利要求2所述的一种基于llm的文档知识问答方法,其特征在于,所述获取访问者自行上传的问答文档的步骤为:
6.如权利要求1所述...
【专利技术属性】
技术研发人员:金震,张京日,万俊,张府涛,
申请(专利权)人:北京三维天地科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。