【技术实现步骤摘要】
本专利技术涉及大模型信息检索和生成,特别是涉及一种基于数据湖大批量文档的大模型信息检索和生成的方法。
技术介绍
1、大模型信息检索和生成(retrieval-augmented generation),简称rag,是一种结合了检索和生成能力的自然语言处理(nlp)模型架构。rag的主要目标是通过将预训练的生成模型(如gpt)与检索系统(如基于bm25或dense vector的检索模型)相结合,增强模型在处理开放领域问题时的表现。
2、当前各种rag系统中,如:ragflow、dify等,存在如下问题:
3、大批量文件解析支持差:企业中通常存储了大量非结构化数据,包括各种文档和文件。rag系统需要解决如何高效地解析和管理这些大批量文件的问题,确保能够及时、准确地处理和分析文档内容;
4、文档内容匹配不精确:在海量文档数据中,如何实现内容的精确匹配是一个关键挑战。rag系统需要能够精确地从大量数据中找到与用户查询最相关的文档,确保检索结果的准确性和相关性,从而提升用户体验;
5、行业知识理解
...【技术保护点】
1.一种基于数据湖大批量文档的大模型信息检索和生成的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述用户将文件上传至数据湖,包括:
3.根据权利要求1所述的方法,其特征在于,所述监听数据湖内的新增或修改文件事件,包括:
4.根据权利要求1所述的方法,其特征在于,所述触发文件解析和切分过程,将文件中的文档内容进行文本切片和向量化处理,包括:
5.根据权利要求1所述的方法,其特征在于,所述用户向系统输入查询问题之前,还包括:
6.根据权利要求1所述的方法,其特征在于,所述用户向系统输入查询
...【技术特征摘要】
1.一种基于数据湖大批量文档的大模型信息检索和生成的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述用户将文件上传至数据湖,包括:
3.根据权利要求1所述的方法,其特征在于,所述监听数据湖内的新增或修改文件事件,包括:
4.根据权利要求1所述的方法,其特征在于,所述触发文件解析和切分过程,将文件中的文档内容进行文本切片和向量化处理,包括:
5.根据权利要求1所述的方法,其特征在于,所述用户向系统输入查询问题之前,还包括:
6.根据权利要求...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。