一种大语言模型参数的微调训练方法、系统及介质技术方案

技术编号:43585773 阅读:48 留言:0更新日期:2024-12-06 17:49
本发明专利技术公开了一种大语言模型参数的微调训练方法、系统及介质,涉及自然语言处理技术领域,包括设置调整数据,对调整数据进行划分;计算模型的准确率,输出初始准确率;对初始语言模型进行部分参数冻结,进行模型训练,输出微调语言模型;计算模型的准确率,输出调整准确率;对调整准确率以及初始准确率进行分析,进行再训练处理或输出调整完成信息;本发明专利技术用于解决现有技术中因对模型架构分析存在不足,无法准确进行部分参数的微调,在全微调时需要提供足够的内存和计算预算,导致微调的效率以及适用性较低的问题。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体为一种大语言模型参数的微调训练方法、系统及介质


技术介绍

1、大语言模型参数的微调是指调整大型语言模型(llm)的模型参数,使得大语言模型适应特定任务的过程;它与预训练阶段使用大量非结构化文本数据不同,微调是一个监督学习过程;这意味着使用标记好的示例数据集来更新llm的权重,使得模型能更好地完成特定任务。

2、现有的用于大语言模型参数的微调的改进,通常是注重训练集数据的选取,使得微调后的模型对于特定任务输出结果更加准确,比如在专利技术公开号为cn117494786a的中国专利中,公开了一种基于微调的大语言模型热搜生成方法及装置,该方案就是通过收集热搜数据,进行热点事件抽取,构建训练集和验证集,再进行训练得到微调后的大语言模型,而现有的改进方法通常都是全微调,与部分微调相比全微调需要足够的内存和计算预算来存储和处理训练过程中的所有梯度、优化器和其他更新组件,这会导致全微调的方法适用性较低,鉴于此,有必要对现有的大语言模型参数的微调方法进行改进。


技术实现思路

1、本本文档来自技高网...

【技术保护点】

1.一种大语言模型参数的微调训练方法,其特征在于,包括:

2.根据权利要求1所述的一种大语言模型参数的微调训练方法,其特征在于,设置第一数量的调整数据,对调整数据进行划分,输出训练数据以及验证数据包括:

3.根据权利要求2所述的一种大语言模型参数的微调训练方法,其特征在于,利用初始语言模型对验证数据进行处理,输出实际输出信息;基于预测输出信息以及实际输出信息计算模型的准确率,输出初始准确率包括:

4.根据权利要求3所述的一种大语言模型参数的微调训练方法,其特征在于,对初始语言模型进行部分参数冻结,使用训练数据进行初始语言模型的训练,输出微调语言模型包括...

【技术特征摘要】

1.一种大语言模型参数的微调训练方法,其特征在于,包括:

2.根据权利要求1所述的一种大语言模型参数的微调训练方法,其特征在于,设置第一数量的调整数据,对调整数据进行划分,输出训练数据以及验证数据包括:

3.根据权利要求2所述的一种大语言模型参数的微调训练方法,其特征在于,利用初始语言模型对验证数据进行处理,输出实际输出信息;基于预测输出信息以及实际输出信息计算模型的准确率,输出初始准确率包括:

4.根据权利要求3所述的一种大语言模型参数的微调训练方法,其特征在于,对初始语言模型进行部分参数冻结,使用训练数据进行初始语言模型的训练,输出微调语言模型包括:

5.根据权利要求4所述的一种大语言模型参数的微调训练方法,其特征在于,利用微调语言模型对验证数据进行处理,输出调整输出信息;基于预测输出信息以及调整输出信息计算模型的准确率,输出调整准确率包括:...

【专利技术属性】
技术研发人员:孙彤黄桂恒
申请(专利权)人:布瑞克农业大数据科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1