基于大型语言模型和图网络模型的文档检索方法和装置制造方法及图纸

技术编号：38194861 阅读：10 留言：0更新日期：2023-07-20 21:15

本发明专利技术实施例公开了一种基于大型语言模型和图网络模型的文档检索方法和装置。该基于大型语言模型和图网络模型的文档检索方法包括：接收文档检索请求；通过大型语言模型将文档检索请求转换为待查询向量；通过图网络模型计算待查询向量与预存文本向量的相似度；依据相似度获取文档检索请求对应的目标文档。本发明专利技术提供的方案能够用文档间的关联关系来提高检索准确性和效率的技术效果。检索准确性和效率的技术效果。检索准确性和效率的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于大型语言模型和图网络模型的文档检索方法和装置

[0001]本专利技术涉及计算机技术应用领域，尤其涉及一种基于大型语言模型和图网络模型的文档检索方法和装置。

技术介绍

[0002]传统的基于关键词的检索方法（如Elasticsearch），受限于关键词的准确度，如果关键词提取不正确，会导致文档检索效率低，准确率也随着检索效率降低；此外，在相关技术中提供的文档检索方式还包括大型语言模型技术和矢量数据库结合的方式。
[0003]在大型语言模型技术和矢量数据库结合的方式中，检索效果在很大程度上依赖于嵌入向量的质量，对于大型技术手册，其段落语义对于人类来说可能是复杂的，由于大型技术手册中的段落语义包含大量的中英文说明、专业名词和操作命令，使用嵌入技术后，虽然可以得到机器意义上的语义相似度，但该语义相似度缺乏人类意义上的可解释性；其次，嵌入向量可能无法充分捕获文档间的关联关系，特别是在需要理解大量背景信息的检索场景下。
[0004]针对由于现有技术无法有效地捕获上下文信息，关键词误匹配高的问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]为解决上述技术问题，本专利技术实施例期望提供一种基于大型语言模型和图网络模型的文档检索方法和装置，以至少解决由于现有技术无法有效地捕获上下文信息，关键词误匹配高的问题。
[0006]本专利技术的技术方案是这样实现的：本专利技术实施例提供一种基于大型语言模型和图网络模型的文档检索方法，包括：接收文档检索请求；通过大型语言模型将文档检索请求转换...

【技术保护点】

【技术特征摘要】
1.一种基于大型语言模型和图网络模型的文档检索方法，其特征在于，包括：接收文档检索请求；通过大型语言模型将所述文档检索请求转换为待查询向量；通过图网络模型计算所述待查询向量与预存文本向量的相似度；依据所述相似度获取所述文档检索请求对应的目标文档。2.根据权利要求1所述的方法，其特征在于，在所述接收文档检索请求之前，所述方法还包括：通过所述大型语言模型对待整理文档进行文本嵌入，得到文本向量；通过所述文本向量构建所述图网络模型。3.根据权利要求2所述的方法，其特征在于，所述通过所述大型语言模型对待整理文档进行文本嵌入，得到文本向量包括：将所述待整理文档进行分页和分块，得到所述待整理文档的文本块；对所述文本块分配对应的标识，其中，所述标识，用于构建图关系时的节点标识；通过所述大型语言模型对携带所述标识的所述文本块进行文本嵌入，得到所述文本向量。4.根据权利要求3所述的方法，其特征在于，所述待整理文档包括：所述目标文档。5.根据权利要求2所述的方法，其特征在于，所述通过所述文本向量构建所述图网络模型包括：根据所述待整理文档中的位置信息，建立文本块之间的关联关系；根据所述关联关系，建立所述文本块之间的连接；根据所述待整理文档中的引用关系和所述文本块之间的连接，构建所述图网络模型。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：计算所述图网络模型中节点间最短路径；依据所述最短路径对所述图网络模型进行优化，得到优化后的所述图网络模型...

【专利技术属性】
技术研发人员：叶小萌，吴敏，古思为，梁振亚，
申请(专利权)人：杭州欧若数网科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人