一种基于遗传算法的RAG分块参数优化方法技术

技术编号:42843022 阅读:32 留言:0更新日期:2024-09-27 17:14
本发明专利技术公开了一种基于遗传算法的RAG分块参数优化方法,属于遗传算法领域,通过深入分析RAG技术的具体实现过程,针对如何选取数据准备过程中关键的分块参数及策略这一问题,建立性能优化模型。该模型将关键分块参数及策略作为输入,针对同一批电力文本问答数据集合,将LLM生成答案的正确率作为目标函数。本发明专利技术提出用智能算法中应用较为广泛的遗传算法求解上述优化模型,将一些不同分块参数及策略组合定义为一个种群,将某一分块参数及策略组合,即种群个体,所对应的LLM生成答案的正确率作为该个体的适应度,通过不断迭代地进行选择、交叉、变异操作,找到最优的分块参数策略组合,使得最终LLM的输出答案正确率得到提升。

【技术实现步骤摘要】

本专利技术涉及遗传算法和自然语言处理,更具体地说,涉及一种基于遗传算法的rag分块参数优化方法。


技术介绍

1、检索增强技术(rag)是指一种结合检索和生成技术的自然语言处理技术,旨在通过融合信息检索和文本生成的方法来解决自然语言理解和生成任务。随着技术的不断发展,尤其在当今大语言模型(llm)爆发式发展的时代,rag有效地将llm的参数化知识与非参数化的外部知识库相结合,已经被证明可以显著提高针对电力、金融、医疗等特定领域问答的准确性。

2、rag的实现方法通常包括数据准备、数据检索、数据生成三个阶段。通过对用户输入与知识库进行向量相似度计算,将检索到的信息和问题同步注入到llm提示当中,最后由llm生成答案。其中,如何从向量知识库中快速并且准确地检索到相关信息,成为限制后续llm生成精准答案的主要原因,而向量知识库的构建则依赖前期的数据准备过程。

3、目前rag的数据准备过程中通常采用按固定长度切分或标点符号切分等分块方式,在一定程度上可以提高模型对长文本的处理能力,但也存在如下局限性:对文本进行分段可能会导致部分信息的丢失,特本文档来自技高网...

【技术保护点】

1.一种基于遗传算法的RAG分块参数优化方法,其特征在于,所述一种基于遗传算法的RAG分块参数优化方法包括以下步骤:

2.根据权利要求1所述的一种基于遗传算法的RAG分块参数优化方法,其特征在于,所述S2计算每个初始种群个体对应的适应度值的步骤过程如下:

3.根据权利要求2所述的一种基于遗传算法的RAG分块参数优化方法,其特征在于,所述检索相关文档时,加入自适应上下文窗口和段落重组策略;所述自适应上下文窗口和所述段落重组策略在动态调整段落的长度和上下文窗口,保持文本的连贯性和语义完整性,提高模型的生成和理解能力。

4.根据权利要求3所述的一种基于遗传算...

【技术特征摘要】

1.一种基于遗传算法的rag分块参数优化方法,其特征在于,所述一种基于遗传算法的rag分块参数优化方法包括以下步骤:

2.根据权利要求1所述的一种基于遗传算法的rag分块参数优化方法,其特征在于,所述s2计算每个初始种群个体对应的适应度值的步骤过程如下:

3.根据权利要求2所述的一种基于遗传算法的rag分块参数优化方法,其特征在于,所述检索相关文档时,加入自适应上下文窗口和段落重组策略;所述自适应上下文窗口和所述段落重组策略在动态调整段落的长度和上下文窗口,保持文本的连贯性和语义完整性,提高模型的生成和理解能力。

4.根据权利要求3所述的一种基于遗传算法的rag分块参数优化方法,其特征在于,所述自适应上文窗口的方法内容包括动态调整窗口长度...

【专利技术属性】
技术研发人员:何楠黄威付强段楚豪李腾飞邹璧羽赵俊粟海贺常德王喜陈琳
申请(专利权)人:湖南星通电力信息通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1