RAG知识库的检索性能提升方法、系统、装置及介质制造方法及图纸

技术编号:43400913 阅读:39 留言:0更新日期:2024-11-22 17:41
本发明专利技术提出的一种RAG知识库的检索性能提升方法、系统、装置及介质,所述方法包括:获取知识文档,提取其中的文本信息,并对文本信息进行预处理;根据文本层次结构利用大语言模型框架将文本信息进行拆分为文本块;利用中文向量大模型对拆分后的文本块进行向量化处理,并生成文本块的语义相似度矩阵;根据文本块的语义相似度矩阵对文本块进行合并处理,生成组合后的文本块;将组合后的文本块信息存入向量数据库。本发明专利技术通过在从文本到向量数据库存储之间对细碎的文本内容根据语义进行合并,从而有效的提升了RAG知识库的检索性能。

【技术实现步骤摘要】

本专利技术涉及计算机,更具体的说是涉及一种rag知识库的检索性能提升方法、系统、装置及介质。


技术介绍

1、传统的语言模型通常只依赖于训练数据中的知识,这限制了模型对外部知识的利用。rag通过检索外部文档,帮助模型访问更广泛的知识,增强大模型问答的准确性和即时性,在使用rag技术时需要对外部文档进行处理,通过文本分块(text chunking)将长文本分割成若干文本小块,而分词的效果直接影响到最终的处理结果,目前常见的分词方法字符分割、段落分割、递归字符文本分割均存在不少问题,其中字符分割是根据字符数量进行分割,该方法虽然实现简单,但是分割不考虑文本内容或结构,会导致语义上的不连贯,如果存在一句较长的句子超过了设定的最大字符数,会造成句子被粗暴切开,不仅达不到分割效果,甚至语句意思也会被破坏;段落分割是根据换行符进行分割,该方法会完整保留段落的意思,但是在段落较长的情况下最终效果会很差,并且该方法会破坏段落间的关联关系,导致段落文本相互孤立;递归字符文本分割是在字符分割的基础上改进的方法,该方法可以更好地考虑文本结构但是仍然改变不了字符分割的局限性。...

【技术保护点】

1.一种RAG知识库的检索性能提升方法,其特征在于,包括:

2.根据权利要求1所述的RAG知识库的检索性能提升方法,其特征在于,所述获取知识文档,提取其中的文本信息,并对文本信息进行预处理,包括:

3.根据权利要求2所述的RAG知识库的检索性能提升方法,其特征在于,所述根据文本层次结构利用大语言模型框架将文本信息进行拆分为文本块包括:

4.根据权利要求3所述的RAG知识库的检索性能提升方法,其特征在于,所述利用中文向量大模型对拆分后的文本块进行向量化处理,并生成文本块的语义相似度矩阵,包括:

5.根据权利要求4所述的RAG知识库的检索性能提...

【技术特征摘要】

1.一种rag知识库的检索性能提升方法,其特征在于,包括:

2.根据权利要求1所述的rag知识库的检索性能提升方法,其特征在于,所述获取知识文档,提取其中的文本信息,并对文本信息进行预处理,包括:

3.根据权利要求2所述的rag知识库的检索性能提升方法,其特征在于,所述根据文本层次结构利用大语言模型框架将文本信息进行拆分为文本块包括:

4.根据权利要求3所述的rag知识库的检索性能提升方法,其特征在于,所述利用中文向量大模型对拆分后的文本块进行向量化处理,并生成文本块的语义相似度矩阵,包括:

5.根据权利要求4所述的rag知识库的检索性能提升方法,其特征在于,所述根据文本块的语义相似度...

【专利技术属性】
技术研发人员:张宇房爱印尹曦萌曲建龙王旭恒
申请(专利权)人:山东浪潮智水数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1