一种基于图数据库的RAG存储和检索方法及装置制造方法及图纸

技术编号:43336729 阅读:25 留言:0更新日期:2024-11-15 20:32
本发明专利技术公开了一种基于图数据库的RAG存储和检索方法及装置,涉及智能信息检索与存储技术领域。该方法包括以下步骤:首先收集各类文档数据,并通过大语言模型(LLM)提取全文摘要及关键字,并使用向量化模型将其转化为向量后存储于图数据库中;同时,利用文档的热度系数、章节目录和分段内容建立多层次的结构化存储关系。检索过程通过多层级匹配,依次获取与用户问题相关的关键字、文件名、章节和分段内容,并整合生成供LLM处理的最终输入。本发明专利技术能够有效提高文档存储的结构化程度与检索效率,广泛适用于智能问答系统和知识管理系统。

【技术实现步骤摘要】

本专利技术属自然语言处理,特别涉及一种基于图数据库的rag存储和检索方法及装置。


技术介绍

1、大语言模型(llm)近年来在自然语言处理领域取得了显著进展,凭借其强大的语言生成和理解能力,广泛应用于机器翻译、对话系统、文本生成和信息检索等领域。然而,尽管llm在处理非结构化数据方面表现出色,但其在生成内容时也存在一些固有问题,如“幻觉”和“胡说八道”。具体表现为,模型在生成文本时,可能会凭空生成不存在的事实或混淆已知信息,导致结果的不准确性和不可靠性。

2、这些问题的根源在于,llm依赖于大量的未结构化文本数据进行训练,而在生成过程中,它们无法通过逻辑推理或结构化数据验证生成的内容。尤其是在需要处理具有复杂层级关系的文本信息时,llm往往难以确保生成内容的准确性和一致性。这对于许多需要高精度信息检索的应用场景,如法律、医学和科研文献等,带来了极大的挑战。

3、为了解决上述问题,本专利技术提出了一种基于图数据库的rag(retrieve-and-generate)检索方法。通过图数据库,能够实现复杂文本数据的层级化、结构化存储,从而形本文档来自技高网...

【技术保护点】

1.一种基于图数据库的RAG存储和检索方法,其特征在于:包括存储和检索两个步骤:

2.根据权利要求1所述的一种基于图数据库的RAG存储和检索方法,其特征在于,根据所有文档的内容属性,预设关键字库;并对每个关键字使用语义向量模型,将关键字和文档的全文摘要转换成向量;对于每一个文件,将关键字向量与摘要向量计算余弦相似度,对余弦相似度由高到低进行排序,保留相似度大于阈值的关键字,并取Top3作为文档的关键字。

3.根据权利要求1所述的一种基于图数据库的RAG存储和检索方法,其特征在于,文档的热度系数是指在一段时间内,所有用户所提问的问题答案在该文档内的问题数量占所有问题...

【技术特征摘要】

1.一种基于图数据库的rag存储和检索方法,其特征在于:包括存储和检索两个步骤:

2.根据权利要求1所述的一种基于图数据库的rag存储和检索方法,其特征在于,根据所有文档的内容属性,预设关键字库;并对每个关键字使用语义向量模型,将关键字和文档的全文摘要转换成向量;对于每一个文件,将关键字向量与摘要向量计算余弦相似度,对余弦相似度由高到低进行排序,保留相似度大于阈值的关键字,并取top3作为文档的关键字。

3.根据权利要求1所述的一种基于图数据库的rag存储和检索方法,其特征在于,文档的热度系数是指在一段时间内,所有用户所提问的问题答案在该文档内的问题数量占所有问题数量的热度值,numhit为一段时间内,用户所提问的问题答案在该文档内的问题数量,numtotal为一段时间内,用户所提问的所有问题数量,通过如下得到该文档的热度系数h(f),热度系数越高,说明用户对该文档内容越关心,提的问题数量越多,反之亦然;

4.根据权利要求1所述的一种基于图数据库的rag存储和检索方法,其特征在于,使用llm对文档提取章节目录结构,得到文档的结构层次;根据文档章节目录结构,针对每一个章节内容,进行分段处理,使用llm将每一个章节切成成多个分段内容chunk,并使用语义向量模型转换成向量。

5.根据权利要求1所述的一种基于图数据库的rag存储和检索方法,其特征在于:图数据库中的关键字、文件名、全文摘要、章节、分段内容都使用语义向量模型转换成向量后存储,热...

【专利技术属性】
技术研发人员:孙杰倪金龙王勋李晓宇顾志伟郑俊
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1