一种基于数据湖大批量文档的大模型信息检索和生成的方法技术

技术编号:45058709 阅读:21 留言:0更新日期:2025-04-22 17:41
本发明专利技术公开了一种基于数据湖大批量文档的大模型信息检索和生成的方法,其包括:用户将文件上传至数据湖,系统准备接收大量非结构化数据,系统通过监听数据湖内的新增或修改文件事件,捕捉文件变化;触发文件解析和切分过程,将文件中的文档内容进行文本切片和向量化处理,以用于后续检索;用户向系统输入查询问题,系统生成和返回回答给用户。本发明专利技术提升了数据处理能力、检索精度、专业知识应用能力和用户交互体验,实现了更高效和智能的文档处理与问答服务。

【技术实现步骤摘要】

本专利技术涉及大模型信息检索和生成,特别是涉及一种基于数据湖大批量文档的大模型信息检索和生成的方法


技术介绍

1、大模型信息检索和生成(retrieval-augmented generation),简称rag,是一种结合了检索和生成能力的自然语言处理(nlp)模型架构。rag的主要目标是通过将预训练的生成模型(如gpt)与检索系统(如基于bm25或dense vector的检索模型)相结合,增强模型在处理开放领域问题时的表现。

2、当前各种rag系统中,如:ragflow、dify等,存在如下问题:

3、大批量文件解析支持差:企业中通常存储了大量非结构化数据,包括各种文档和文件。rag系统需要解决如何高效地解析和管理这些大批量文件的问题,确保能够及时、准确地处理和分析文档内容;

4、文档内容匹配不精确:在海量文档数据中,如何实现内容的精确匹配是一个关键挑战。rag系统需要能够精确地从大量数据中找到与用户查询最相关的文档,确保检索结果的准确性和相关性,从而提升用户体验;

5、行业知识理解差:在特定行业领域,本文档来自技高网...

【技术保护点】

1.一种基于数据湖大批量文档的大模型信息检索和生成的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述用户将文件上传至数据湖,包括:

3.根据权利要求1所述的方法,其特征在于,所述监听数据湖内的新增或修改文件事件,包括:

4.根据权利要求1所述的方法,其特征在于,所述触发文件解析和切分过程,将文件中的文档内容进行文本切片和向量化处理,包括:

5.根据权利要求1所述的方法,其特征在于,所述用户向系统输入查询问题之前,还包括:

6.根据权利要求1所述的方法,其特征在于,所述用户向系统输入查询问题,系统生成和返回...

【技术特征摘要】

1.一种基于数据湖大批量文档的大模型信息检索和生成的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述用户将文件上传至数据湖,包括:

3.根据权利要求1所述的方法,其特征在于,所述监听数据湖内的新增或修改文件事件,包括:

4.根据权利要求1所述的方法,其特征在于,所述触发文件解析和切分过程,将文件中的文档内容进行文本切片和向量化处理,包括:

5.根据权利要求1所述的方法,其特征在于,所述用户向系统输入查询问题之前,还包括:

6.根据权利要求...

【专利技术属性】
技术研发人员:许文宝张楠欣吴怀谷
申请(专利权)人:天府绛溪实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1