知识库的检索方法、装置及存储介质制造方法及图纸

技术编号:38856383 阅读:10 留言:0更新日期:2023-09-17 10:01
本发明专利技术公开了知识库的检索方法、装置及存储介质,包括:获取用户的输入内容,通过对用户的输入内容进行向量化处理,将输入内容转化为向量格式的问题,其中,向量化处理包括使用深度学习模型进行词嵌入;将本地知识库的内容进行切片处理,将切片后的本地知识库转化为向量格式的知识库;将向量格式的问题与向量格式的知识库内容进行相似性判断,对判断结果进行评分,将超过设定阈值的评分结果进行排名,将排名为前若干名的内容作为最终检索结果;将最终检索结果以提示词模板的格式传输至机器学习模型,得到最终回答,并将最终回答和用户输入问题以对话的形式展示在项目网页中,并保存对话历史记录。帮助理解用户的意图和提供更连贯的对话交互。的对话交互。的对话交互。

【技术实现步骤摘要】
知识库的检索方法、装置及存储介质


[0001]本专利技术涉及数据库、数据处理
,尤其涉及一种知识库的检索方法、装置及存储介质。

技术介绍

[0002]随着互联网的发展,知识库已经成为企业和组织收集、整理和保存信息的重要手段;然而,建立一个知识库需要大量的工作,包括数据收集、预处理、知识抽取和存储等,这些工作都需要大量的人力和时间投入,而且知识库的格式也有特定的要求,这些都增加了知识库建立的难度和成本;传统的知识库检索方法主要依赖于倒排索引等技术来提升检索效率,这种方法虽然可以在一定程度上提高检索速度,但是其准确率却不尽如人意,因为这种方法主要依赖于关键词匹配,而忽视了词语之间的语义关系,因此,当用户输入的查询语句和知识库中的内容在语义上相近,但是在关键词上却没有直接匹配时,这种方法往往无法给出满意的检索结果;此外,传统的知识库检索方法通常只能提供静态的检索结果,而不能根据用户的查询历史和上下文信息来动态地调整检索结果。这就导致了检索结果的相关性和准确性无法得到保证。
[0003]申请号为:CN 202111266735 .5的专利技术公开了一种知识库检索方法、装置、设备及存储介质,对用户输入的问题文本进行分词,得到属于预设的行业词汇表中的问题词汇集合;通过预先构建的倒排索引字典查找与所述问题词汇集合中的词汇对应的知识点,并计算查找到的知识点的匹配得分;输出所述匹配得分大于等于预设阈值的知识点。在线更新所述倒排索引字典。存在缺陷包括:如果行业词汇表不够全面或者更新不及时,可能会导致一些新的或者非常规的问题无法得到有效的处理;倒排索引字典通常非常大,需要大量的存储空间和计算资源来维护,此外,随着知识库的不断增长,倒排索引字典的更新也会变得越来越复杂和耗时;匹配得分的计算通常依赖于一些预设的规则或者模型,这些规则或者模型可能无法完全准确地反映问题和知识点之间的匹配程度。
[0004]因此,如何提高知识库检索的准确性和相关性,降低知识库建立的难度和成本,是当前知识库检索技术面临的重要问题。

技术实现思路

[0005]本专利技术提供了一种知识库的检索方法、装置及存储介质,以解决现有技术中存在的上述问题。
[0006]为了达到上述目的,本专利技术提供如下技术方案:知识库的检索方法,包括:S101:获取用户的输入内容,通过对用户的输入内容进行向量化处理,将输入内容转化为向量格式的问题,其中,向量化处理包括使用深度学习模型进行词嵌入;S102:将本地知识库的内容进行切片处理,将切片后的本地知识库转化为向量格式的知识库;
S103:将向量格式的问题与向量格式的知识库内容进行相似性判断,对判断结果进行评分,将超过设定阈值的评分结果进行排名,将排名为前若干名的内容作为最终检索结果;S104:将最终检索结果以提示词模板的格式传输至机器学习模型,得到最终回答,并将最终回答和用户输入问题以对话的形式展示在项目网页中,并保存对话历史记录,作为上下文依据。
[0007]其中,S101步骤包括:S1011:通过用户交互界面获取用户的输入内容,其中,用户交互界面包括网页、应用程序和语音识别系统;S1012:对获取的用户输入内容进行预处理,预处理包括去除停用词、标点符号和无关字符,将文本内容转化为标准化的文本格式;S1013:使用词向量深度学习模型对预处理后的用户输入内容进行词嵌入,将文本内容转化为向量格式的问题,其中,词向量深度学习模型通过学习若干的文本数据,将每个词映射到对应高维空间的向量,实现词嵌入。
[0008]其中,S102步骤包括:S1021:将本地知识库的内容进行切片处理,其中,切片处理包括将知识库的内容按照预设的规则和标准进行分割,得到若干个知识片段;S1022:对切片后的知识片段进行预处理,预处理包括去除停用词、标点符号和无关字符,将知识片段转化为标准化的文本格式;S1023:使用词嵌入模型对预处理后的知识片段进行词嵌入,将知识片段对应的本地知识库转化为向量格式的知识库。
[0009]其中,S103步骤包括:S1031:通过相似性度量算法计算问题向量与知识库内容向量之间的相似度,将计算获取的相似度通过映射函数映射到预设的评分范围,获取问题与知识库内容的评分;S1032:将评分结果进行排序,按照评分从高到低进行排名,得到排序后的评分结果;S1033:根据设定的阈值,筛选出超过阈值的评分结果,将筛选出的评分结果中按照排名顺序排名为前若干名的内容作为最终检索结果。
[0010]其中,S104步骤包括:S1041:将最终检索结果以提示词模板的格式传输至机器学习模型,其中,提示词模板包括预设的问题回答模板,用于引导机器学习模型生成符合人类语言习惯的回答;S1042:机器学习模型根据接收到的提示词模板和检索结果,生成最终回答,其中,机器学习模型是基于深度学习的自然语言生成模型;S1043:将最终回答和用户输入问题以对话的形式展示在项目网页中,其中,对话的形式包括聊天窗口、对话框和消息列表;S1044:保存对话历史记录,作为后续对话的上下文依据,其中,对话历史记录保存在本地数据库、云存储服务或其它对应的存储设备中。
[0011]其中,S1012步骤包括:根据预定义的停用词列表,将用户输入内容中的停用词去除;将用户输入内容中
的标点符号去除;去除用户输入内容中的无关字符,无关字符包括特殊符号和数字;将预处理后的用户输入内容转化为统一的标准化文本格式,统一的标准化文本格式包括将所有字母转为小写以及去除多余的空格;使用预训练的词向量模型或自行训练领域设定的词向量模型,将每个词转化为对应的词向量表示;将用户输入内容中的每个词的词向量进行平均或加权平均,得到整个用户输入内容的文本向量表示。
[0012]其中,S1041步骤包括:获取预设的问题回答模板,其中,问题回答模板包括提示词或关键信息,用于引导生成最终回答;通过提取模板中的提示词或关键信息,将最终检索结果与模板进行匹配,确保生成的回答符合模板的格式要求,其中,最终检索结果包括知识库检索问答模块或生成式问答模块的输出结果;将匹配后的关键信息作为输入数据,传输至机器学习模型,其中,机器学习模型用于捕捉文本内容的深层语义信息;机器学习模型根据输入数据和预设的问题回答模板,生成符合人类语言习惯的回答,其中,生成的回答用于后续的对话生成、情感分析、主题分类的任务。
[0013]其中,S1042步骤包括:获取接收到的提示词模板和知识库检索问答模块或生成式问答模块的最终结果,其中,提示词模板为预设的问题回答模板,用于引导生成最终回答;知识库检索问答模块的输出结果为匹配的三元组,生成式问答模块的输出结果是生成的文本;根据提示词模板,提取关键词或关键信息,作为生成回答的基础,其中,关键词或关键信息包括问题的主题词、焦点词或设定相关信息;根据知识库检索问答模块的输出结果,获取匹配的三元组,若有匹配的三元组,则将答案实体作为生成回答的一部分,使用生成式问答模块,将生成式模型输出的文本作为生成回答的一部分;根据得到的关键词、三元组或生成式文本,结合逻辑和语法规本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.知识库的检索方法,其特征在于,包括:S101:获取用户的输入内容,通过对用户的输入内容进行向量化处理,将输入内容转化为向量格式的问题,其中,向量化处理包括使用深度学习模型进行词嵌入;S102:将本地知识库的内容进行切片处理,将切片后的本地知识库转化为向量格式的知识库;S103:将向量格式的问题与向量格式的知识库内容进行相似性判断,对判断结果进行评分,将超过设定阈值的评分结果进行排名,将排名为前若干名的内容作为最终检索结果;S104:将最终检索结果以提示词模板的格式传输至机器学习模型,得到最终回答,并将最终回答和用户输入问题以对话的形式展示在项目网页中,并保存对话历史记录,作为上下文依据。2.根据权利要求1所述的知识库的检索方法,其特征在于,S101步骤包括:S1011:通过用户交互界面获取用户的输入内容,其中,用户交互界面包括网页、应用程序和语音识别系统;S1012:对获取的用户输入内容进行预处理,预处理包括去除停用词、标点符号和无关字符,将文本内容转化为标准化的文本格式;S1013:使用词向量深度学习模型对预处理后的用户输入内容进行词嵌入,将文本内容转化为向量格式的问题,其中,词向量深度学习模型通过学习若干的文本数据,将每个词映射到对应高维空间的向量,实现词嵌入。3.根据权利要求1所述的知识库的检索方法,其特征在于,S102步骤包括:S1021:将本地知识库的内容进行切片处理,其中,切片处理包括将知识库的内容按照预设的规则和标准进行分割,得到若干个知识片段;S1022:对切片后的知识片段进行预处理,预处理包括去除停用词、标点符号和无关字符,将知识片段转化为标准化的文本格式;S1023:使用词嵌入模型对预处理后的知识片段进行词嵌入,将知识片段对应的本地知识库转化为向量格式的知识库。4.根据权利要求1所述的知识库的检索方法,其特征在于,S103步骤包括:S1031:通过相似性度量算法计算问题向量与知识库内容向量之间的相似度,将计算获取的相似度通过映射函数映射到预设的评分范围,获取问题与知识库内容的评分;S1032:将评分结果进行排序,按照评分从高到低进行排名,得到排序后的评分结果;S1033:根据设定的阈值,筛选出超过阈值的评分结果,将筛选出的评分结果中按照排名顺序排名为前若干名的内容作为最终检索结果。5.根据权利要求1所述的知识库的检索方法,其特征在于,S104步骤包括:S1041:将最终检索结果以提示词模板的格式传输至机器学习模型,其中,提示词模板包括预设的问题回答模板,用于引导机器学习模型生成符合人类语言习惯的回答;S1042:机器学习模型根据接收到的提示词模板和检索结果,生成最终回答,其中,机器学习模型是基于深度学习的自然语言生成模型;S1043:将最终回答和用户输入问题以对话的形式展示在项目网页中,其中,对话的形式包括聊天窗口、对话框和消息列表;S1044:保存对话历史记录,作为后续对话的上下文依据,其中,对话历史记录保存在本
地数据库、云存储服务或其它对应的存储设备中。6.根据权利要求2所述的知识库的检索方法,其特征在于,S1012步骤包括...

【专利技术属性】
技术研发人员:杨光王莎莎王亚威
申请(专利权)人:北京盛通知行教育科技集团有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1