基于大型语言模型和图网络模型的文档检索方法和装置制造方法及图纸

技术编号:38194861 阅读:10 留言:0更新日期:2023-07-20 21:15
本发明专利技术实施例公开了一种基于大型语言模型和图网络模型的文档检索方法和装置。该基于大型语言模型和图网络模型的文档检索方法包括:接收文档检索请求;通过大型语言模型将文档检索请求转换为待查询向量;通过图网络模型计算待查询向量与预存文本向量的相似度;依据相似度获取文档检索请求对应的目标文档。本发明专利技术提供的方案能够用文档间的关联关系来提高检索准确性和效率的技术效果。检索准确性和效率的技术效果。检索准确性和效率的技术效果。

【技术实现步骤摘要】
基于大型语言模型和图网络模型的文档检索方法和装置


[0001]本专利技术涉及计算机技术应用领域,尤其涉及一种基于大型语言模型和图网络模型的文档检索方法和装置。

技术介绍

[0002]传统的基于关键词的检索方法(如Elasticsearch),受限于关键词的准确度,如果关键词提取不正确,会导致文档检索效率低,准确率也随着检索效率降低;此外,在相关技术中提供的文档检索方式还包括大型语言模型技术和矢量数据库结合的方式。
[0003]在大型语言模型技术和矢量数据库结合的方式中,检索效果在很大程度上依赖于嵌入向量的质量,对于大型技术手册,其段落语义对于人类来说可能是复杂的,由于大型技术手册中的段落语义包含大量的中英文说明、专业名词和操作命令,使用嵌入技术后,虽然可以得到机器意义上的语义相似度,但该语义相似度缺乏人类意义上的可解释性;其次,嵌入向量可能无法充分捕获文档间的关联关系,特别是在需要理解大量背景信息的检索场景下。
[0004]针对由于现有技术无法有效地捕获上下文信息,关键词误匹配高的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]为解决上述技术问题,本专利技术实施例期望提供一种基于大型语言模型和图网络模型的文档检索方法和装置,以至少解决由于现有技术无法有效地捕获上下文信息,关键词误匹配高的问题。
[0006]本专利技术的技术方案是这样实现的:本专利技术实施例提供一种基于大型语言模型和图网络模型的文档检索方法,包括:接收文档检索请求;通过大型语言模型将文档检索请求转换为待查询向量;通过图网络模型计算待查询向量与预存文本向量的相似度;依据相似度获取文档检索请求对应的目标文档。
[0007]可选的,在接收文档检索请求之前,该方法还包括:通过大型语言模型对待整理文档进行文本嵌入,得到文本向量;通过文本向量构建图网络模型。
[0008]进一步地,可选的,通过大型语言模型对待整理文档进行文本嵌入,得到文本向量包括:将待整理文档进行分页和分块,得到待整理文档的文本块;对文本块分配对应的标识,其中,标识,用于构建图关系时的节点标识;通过大型语言模型对携带标识的文本块进行文本嵌入,得到文本向量。
[0009]可选的,待整理文档包括:目标文档。
[0010]可选的,通过文本向量构建图网络模型包括:根据待整理文档中的位置信息,建立文本块之间的关联关系;根据关联关系,建立文本块之间的连接;根据待整理文档中的引用
关系和文本块之间的连接,构建图网络模型。
[0011]进一步地,可选的,该方法还包括:计算图网络模型中节点间最短路径;依据最短路径对图网络模型进行优化,得到优化后的图网络模型,其中,优化后的图网络模型,用于处理同构图。
[0012]可选的,通过大型语言模型将文档检索请求转换为待查询向量包括:通过大型语言模型依据文档检索请求获取预设个数的待查询向量,其中,待查询向量包括:图向量和文本向量。
[0013]进一步地,可选的,通过图网络模型计算待查询向量与预存文本向量的相似度包括:通过图网络模型计算待查询向量与预存文本向量的相似度,得到第一向量集合;通过优化后的图网络模型计算待查询向量之间距离小于或等于预设值的点集合,得到第二向量集合。
[0014]可选的,该方法还包括:当第一向量集合中所有点之间距离大于阈值时,确定被召回的语料在文档中的引用关系不符合预设要求;当第一向量集合中所有点之间距离小于或等于阈值时,确定被召回的语料在文档中的引用关系符合预设要求。
[0015]可选的,该方法还包括:将目标文档返回客户端和/或返回大型语言模型。
[0016]本专利技术实施例提供一种基于大型语言模型和图网络模型的文档检索装置,包括:接收模块,用于接收文档检索请求;转换模块,用于通过大型语言模型将文档检索请求转换为待查询向量;计算模块,用于通过图网络模型计算待查询向量与预存文本向量的相似度;检索模块,用于依据相似度获取文档检索请求对应的目标文档。
[0017]本专利技术实施例提供了一种基于大型语言模型和图网络模型的文档检索方法和装置,通过接收文档检索请求;通过大型语言模型将文档检索请求转换为待查询向量;通过图网络模型计算待查询向量与预存文本向量的相似度;依据相似度获取文档检索请求对应的目标文档,从而能够用文档间的关联关系来提高检索准确性和效率的技术效果。
附图说明
[0018]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例提供的一种基于大型语言模型和图网络模型的文档检索方法的流程示意图;图2为本专利技术实施例提供的一种基于大型语言模型和图网络模型的文档检索方法中目录文件的示意图;图3为本专利技术实施例提供的一种基于大型语言模型和图网络模型的文档检索方法中Storage 服务的示意图;图4为本专利技术实施例提供的一种基于大型语言模型和图网络模型的文档检索方法中markdown格式撰写的示意图;图5为本专利技术实施例提供的一种基于大型语言模型和图网络模型的文档检索方法中文本构建成一个图网络的示意图;图6为本专利技术实施例提供的一种基于大型语言模型和图网络模型的文档检索方法中优化后的图网络模型的示意图;
图7为本专利技术实施例提供的一种基于大型语言模型和图网络模型的文档检索装置的示意图。
具体实施方式
[0019]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0020]需要说明的是,本专利技术的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于限定特定顺序。
[0021]还需要说明是,本专利技术下述各个实施例可以单独执行,各个实施例之间也可以相互结合执行,本专利技术实施例对此不作具体限制。
[0022]本申请实施例涉及的技术名词:LLM:Large Language Models,大型语言模型,是一种利用深度学习技术,特别是神经网络,来理解和生成人类语言的模型,其中,该模型通常会在大量的文本数据上进行训练,以学习语言的统计规律。嵌入:Embedding,在机器学习和自然语言处理中是一个重要的概念,是一种将离散型变量(如单词、句子或者文档)映射到连续的向量空间中的技术,其中,连续的向量可以捕捉到原始数据的一些重要特性,如语义相似性。
[0023]图网络模型:可以使用图数据库来进行处理;其中,数据被表示为节点(也称为顶点)和边,其中节点代表实体,边代表实体之间的关系。每个节点和边都可以拥有一组属性,该组属性提供了关于该实体或关系的更多信息。
[0024]本专利技术实施例提供一种基于大型语言模型和图网络模型的文档检索方法,图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大型语言模型和图网络模型的文档检索方法,其特征在于,包括:接收文档检索请求;通过大型语言模型将所述文档检索请求转换为待查询向量;通过图网络模型计算所述待查询向量与预存文本向量的相似度;依据所述相似度获取所述文档检索请求对应的目标文档。2.根据权利要求1所述的方法,其特征在于,在所述接收文档检索请求之前,所述方法还包括:通过所述大型语言模型对待整理文档进行文本嵌入,得到文本向量;通过所述文本向量构建所述图网络模型。3.根据权利要求2所述的方法,其特征在于,所述通过所述大型语言模型对待整理文档进行文本嵌入,得到文本向量包括:将所述待整理文档进行分页和分块,得到所述待整理文档的文本块;对所述文本块分配对应的标识,其中,所述标识,用于构建图关系时的节点标识;通过所述大型语言模型对携带所述标识的所述文本块进行文本嵌入,得到所述文本向量。4.根据权利要求3所述的方法,其特征在于,所述待整理文档包括:所述目标文档。5.根据权利要求2所述的方法,其特征在于,所述通过所述文本向量构建所述图网络模型包括:根据所述待整理文档中的位置信息,建立文本块之间的关联关系;根据所述关联关系,建立所述文本块之间的连接;根据所述待整理文档中的引用关系和所述文本块之间的连接,构建所述图网络模型。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:计算所述图网络模型中节点间最短路径;依据所述最短路径对所述图网络模型进行优化,得到优化后的所述图网络模型...

【专利技术属性】
技术研发人员:叶小萌吴敏古思为梁振亚
申请(专利权)人:杭州欧若数网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1