【技术实现步骤摘要】
本专利技术涉及文本处理,特别是涉及大模型驱动的树索引结构在rag内容解析中的应用方法。
技术介绍
1、rag(检索增强生成,retrieval augmented generation)是一种结合了信息检索和自然语言生成的技术,旨在为大语言模型提供从外部数据源检索信息的能力,并以此为基础生成更准确、相关性更高的回答,在rag的工作流程中,当用户提出一个问题或请求时,系统首先会从其对应的数据库中检索相关的文档或片段。然后,这些检索到的信息会被整合到大语言模型的输入提示中,作为额外的上下文信息,帮助模型生成更加精确和相关的回答,因此,为了使rag能够有效地检索和利用外部信息,需要将文本上传到rag对应的数据库中,简称文本入库,以便rag能够快速且有效地进行检索。现有的文本入库方法包括:按照语句、段落、固定字符数量、语义或摘要对文本进行切分以获取若干个文本片段,将每一个文本片段作为一个独立的存储单元上传到数据库中。
2、但是上述方法也存在以下技术问题:
3、按照上述方法对文本进行切分,可能会破坏文本的整体结构和不同的文
...【技术保护点】
1.大模型驱动的树索引结构在RAG内容解析中的应用方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的大模型驱动的树索引结构在RAG内容解析中的应用方法,其特征在于,在步骤S1之前,还通过如下步骤对待处理文本进行数据清洗以获取原始文本,待处理文本为需要上传到RAG系统对应的数据库中的文本:
3.根据权利要求1所述的大模型驱动的树索引结构在RAG内容解析中的应用方法,其特征在于,在步骤S2中包括如下步骤S21-S25:
4.根据权利要求1所述的大模型驱动的树索引结构在RAG内容解析中的应用方法,其特征在于,树结构生成规则
...【技术特征摘要】
1.大模型驱动的树索引结构在rag内容解析中的应用方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的大模型驱动的树索引结构在rag内容解析中的应用方法,其特征在于,在步骤s1之前,还通过如下步骤对待处理文本进行数据清洗以获取原始文本,待处理文本为需要上传到rag系统对应的数据库中的文本:
3.根据权利要求1所述的大模型驱动的树索引结构在rag内容解析中的应用方法,其特征在于,在步骤s2中包括如下步骤s21-s25:
4.根据权利要求1所述的大模型驱动的树索引结构在rag内容解析中的应用方法,其特征在于,树结构生成规则为:将中间标题路径中按照标题级别从高到低的顺序通过预设连接字符依次连接的若干个标题文本依次作为树结构的存储数据中的根节点和子节点存储的数据,将中间段落文本作为树结构的存储数据中的叶子节点存储的数据。
5.根...
【专利技术属性】
技术研发人员:李瑞群,孙雷,徐楠,李军锋,曹家,罗引,王磊,
申请(专利权)人:北京中科闻歌科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。