知识库的检索方法、装置及存储介质制造方法及图纸

技术编号：38856383 阅读：10 留言：0更新日期：2023-09-17 10:01

本发明专利技术公开了知识库的检索方法、装置及存储介质，包括：获取用户的输入内容，通过对用户的输入内容进行向量化处理，将输入内容转化为向量格式的问题，其中，向量化处理包括使用深度学习模型进行词嵌入；将本地知识库的内容进行切片处理，将切片后的本地知识库转化为向量格式的知识库；将向量格式的问题与向量格式的知识库内容进行相似性判断，对判断结果进行评分，将超过设定阈值的评分结果进行排名，将排名为前若干名的内容作为最终检索结果；将最终检索结果以提示词模板的格式传输至机器学习模型，得到最终回答，并将最终回答和用户输入问题以对话的形式展示在项目网页中，并保存对话历史记录。帮助理解用户的意图和提供更连贯的对话交互。的对话交互。的对话交互。

全部详细技术资料下载

【技术实现步骤摘要】
知识库的检索方法、装置及存储介质

[0001]本专利技术涉及数据库、数据处理
，尤其涉及一种知识库的检索方法、装置及存储介质。

技术介绍

[0002]随着互联网的发展，知识库已经成为企业和组织收集、整理和保存信息的重要手段；然而，建立一个知识库需要大量的工作，包括数据收集、预处理、知识抽取和存储等，这些工作都需要大量的人力和时间投入，而且知识库的格式也有特定的要求，这些都增加了知识库建立的难度和成本；传统的知识库检索方法主要依赖于倒排索引等技术来提升检索效率，这种方法虽然可以在一定程度上提高检索速度，但是其准确率却不尽如人意，因为这种方法主要依赖于关键词匹配，而忽视了词语之间的语义关系，因此，当用户输入的查询语句和知识库中的内容在语义上相近，但是在关键词上却没有直接匹配时，这种方法往往无法给出满意的检索结果；此外，传统的知识库检索方法通常只能提供静态的检索结果，而不能根据用户的查询历史和上下文信息来动态地调整检索结果。这就导致了检索结果的相关性和准确性无法得到保证。
[0003]申请号为：CN 202111266735 .5的专利技术公开了一种知识库检索方法、装置、设备及存储介质，对用户输入的问题文本进行分词，得到属于预设的行业词汇表中的问题词汇集合；通过预先构建的倒排索引字典查找与所述问题词汇集合中的词汇对应的知识点，并计算查找到的知识点的匹配得分；输出所述匹配得分大于等于预设阈值的知识点。在线更新所述倒排索引字典。存在缺陷包括：如果行业词汇表不够全面或者更新不及时，可能会导致一些新的或者非常规的问题...

【技术保护点】

【技术特征摘要】
1.知识库的检索方法，其特征在于，包括：S101：获取用户的输入内容，通过对用户的输入内容进行向量化处理，将输入内容转化为向量格式的问题，其中，向量化处理包括使用深度学习模型进行词嵌入；S102：将本地知识库的内容进行切片处理，将切片后的本地知识库转化为向量格式的知识库；S103：将向量格式的问题与向量格式的知识库内容进行相似性判断，对判断结果进行评分，将超过设定阈值的评分结果进行排名，将排名为前若干名的内容作为最终检索结果；S104：将最终检索结果以提示词模板的格式传输至机器学习模型，得到最终回答，并将最终回答和用户输入问题以对话的形式展示在项目网页中，并保存对话历史记录，作为上下文依据。2.根据权利要求1所述的知识库的检索方法，其特征在于，S101步骤包括：S1011：通过用户交互界面获取用户的输入内容，其中，用户交互界面包括网页、应用程序和语音识别系统；S1012：对获取的用户输入内容进行预处理，预处理包括去除停用词、标点符号和无关字符，将文本内容转化为标准化的文本格式；S1013：使用词向量深度学习模型对预处理后的用户输入内容进行词嵌入，将文本内容转化为向量格式的问题，其中，词向量深度学习模型通过学习若干的文本数据，将每个词映射到对应高维空间的向量，实现词嵌入。3.根据权利要求1所述的知识库的检索方法，其特征在于，S102步骤包括：S1021：将本地知识库的内容进行切片处理，其中，切片处理包括将知识库的内容按照预设的规则和标准进行分割，得到若干个知识片段；S1022：对切片后的知识片段进行预处理，预处理包括去除停用词、标点符号和无关字符，将知识片段转化为标准化的文本格式；S1023：使用词嵌入模型对预处理后的知识片段进行词嵌入，将知识片段对应的本地知识库转化为向量格式的知识库。4.根据权利要求1所述的知识库的检索方法，其特征在于，S103步骤包括：S1031：通过相似性度量算法计算问题向量与知识库内容向量之间的相似度，将计算获取的相似度通过映射函数映射到预设的评分范围，获取问题与知识库内容的评分；S1032：将评分结果进行排序，按照评分从高到低进行排名，得到排序后的评分结果；S1033：根据设定的阈值，筛选出超过阈值的评分结果，将筛选出的评分结果中按照排名顺序排名为前若干名的内容作为最终检索结果。5.根据权利要求1所述的知识库的检索方法，其特征在于，S104步骤包括：S1041：将最终检索结果以提示词模板的格式传输至机器学习模型，其中，提示词模板包括预设的问题回答模板，用于引导机器学习模型生成符合人类语言习惯的回答；S1042：机器学习模型根据接收到的提示词模板和检索结果，生成最终回答，其中，机器学习模型是基于深度学习的自然语言生成模型；S1043：将最终回答和用户输入问题以对话的形式展示在项目网页中，其中，对话的形式包括聊天窗口、对话框和消息列表；S1044：保存对话历史记录，作为后续对话的上下文依据，其中，对话历史记录保存在本
地数据库、云存储服务或其它对应的存储设备中。6.根据权利要求2所述的知识库的检索方法，其特征在于，S1012步骤包括...

【专利技术属性】
技术研发人员：杨光，王莎莎，王亚威，
申请(专利权)人：北京盛通知行教育科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人