一种基于混合权重与知识图谱的知识库检索方法及系统技术方案

技术编号:44203501 阅读:47 留言:0更新日期:2025-02-06 18:38
本发明专利技术涉及知识库检索技术领域,尤其涉及一种基于混合权重与知识图谱的知识库检索方法及系统。将长文本进行分割处理,并基于语义特征将文本片段合并为语义片段;建立向量与片段的倒排索引;使用大模型基于本体设计对语义片段进行实体或关系抽取;使用嵌入模型计算用户问题的语义嵌入向量和词汇嵌入向量,计算与知识向量库中对应向量的距离,得到距离最近的N个向量对应的语义片段;使用大模型基于本体设计对用户问题进行检索语句生成并执行,得到检索结果节点对应的语义片段;使用大模型判断段落与用户问题是否相关,方法实现简单、移植性高,可以方便地应用于多种不同领域的知识文件检索中。

【技术实现步骤摘要】

本专利技术涉及知识库检索,尤其涉及一种基于混合权重与知识图谱的知识库检索方法及系统


技术介绍

1、在现有的知识库检索技术中,语义检索和全文检索各有其缺点。语义检索虽然能够理解用户查询的意图和语义联系,从而检索到相关的文本,即使用户用词不够准确也能找到相关信息,这极大地提高了检索的灵活性和用户体验。然而,语义检索在需要精确信息的场合表现不佳,因为它难以精准定位到特定的数据点。这种局限性在需要高精度数据的应用中显得尤为突出。

2、相比之下,全文检索以其精准锁定关键词的特性,在确保检索精度方面表现出色。它能够直接匹配用户查询中的关键词,提供准确的检索结果。然而,这种方法的局限性在于,用户的表述一旦与数据中的关键词存在偏差,检索效果便会大打折扣。这种表述偏差可能导致信息的漏检,使得一些相关信息未能被检索到,影响了实际应用中的信息获取效率。

3、此外,无论是全文检索还是语义检索,在面对知识之间存在相互关联的情况时,都只能检索到问题本身表层的相关信息,无法根据知识的内在联系检索到关联的知识。这意味着,当用户查询涉及多个相互关联的知识点时,现有本文档来自技高网...

【技术保护点】

1.一种基于混合权重与知识图谱的知识库检索方法,其特征在于:包括,

2.如权利要求1所述的一种基于混合权重与知识图谱的知识库检索方法,其特征在于:所述将长文本进行分割处理包括,在句号、问号、感叹号、换行符标符进行分割,将长文本分割为N个长度不超过L的文本片段;

3.如权利要求2所述的一种基于混合权重与知识图谱的知识库检索方法,其特征在于:所述嵌入模型包括,在语义片段开头加上可学习的特殊token;使用预训练BERT模型计算语义片段中每个token的隐藏状态h;将特殊token的隐藏状态输入多层感知机MLP1,得到整个语义片段的语义嵌入向量ei;将除特殊token外...

【技术特征摘要】

1.一种基于混合权重与知识图谱的知识库检索方法,其特征在于:包括,

2.如权利要求1所述的一种基于混合权重与知识图谱的知识库检索方法,其特征在于:所述将长文本进行分割处理包括,在句号、问号、感叹号、换行符标符进行分割,将长文本分割为n个长度不超过l的文本片段;

3.如权利要求2所述的一种基于混合权重与知识图谱的知识库检索方法,其特征在于:所述嵌入模型包括,在语义片段开头加上可学习的特殊token;使用预训练bert模型计算语义片段中每个token的隐藏状态h;将特殊token的隐藏状态输入多层感知机mlp1,得到整个语义片段的语义嵌入向量ei;将除特殊token外的隐藏状态输入多层感知机mlp2,得到每个token的权重,将相同token的权重取均值得到语义片段的词汇嵌入向量wi;使用hnsw算法建立语义嵌入向量和词汇嵌入向量与语义片段的倒排索引,存入数据库。

4.如权利要求3所述的一种基于混合权重与知识图谱的知识库检索方法,其特征在于:所述使用大模型基于本体设计对语义片段进行实体或关系抽取包括,将本体设计转化为json格式结构描述,将结构描述与语义片段同时送入大模型,在提示词中指定大模型将提取结构输出为json格式,要求格式同本体设计的结构描述,使用实体替换节点;格式化大模型输出的结果,并将实体、关系以及对应的语义片段存储于图数据库中。

5.如权利要求4所述的一种基于混合权重与知识图谱的知识库检索方法,其特征在于:所述计算用户问题的语...

【专利技术属性】
技术研发人员:胡杰英张珂元李勇飞钱奎省毛旭初卞志刚汪江
申请(专利权)人:朗坤智慧科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1