一种大语言模型的增量预训练方法技术

技术编号：43051806 阅读：31 留言：0更新日期：2024-10-22 14:34

本发明专利技术涉及自然语言处理技术领域，特别涉及一种大语言模型的增量预训练方法。该大语言模型的增量预训练方法，递归式数据收集，利用MinHash算法来估计文本之间的相似度，实现数据的去重；将翻译数据集合并作为增量预训练数据集；生成并扩充词表，调整模型维度并初始化参数；采用层次固定式训练，直到所有层都完成训练；按照优先级设置经验缓冲池与经验回放；设置学习率预热和退火，以保证训练稳定性。该大语言模型的增量预训练方法，可以递归地获取更多的训练样本，避免在增量训练时的灾难性遗忘问题，对罕见数据进行多次回放训练，使得训练更加稳定，避免了数据集分布不均衡的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，特别涉及一种大语言模型的增量预训练方法。

技术介绍

1、近年来，大规模预训练语言模型在自然语言处理领域取得了显著成果。这些模型通过无监督学习的方式在大量文本数据上进行预训练，随后可以通过微调来适应特定的下游任务。然而，从零开始训练一个大规模的语言模型是非常耗时且资源密集型的，通常需要大量的计算资源和长时间的训练周期。

2、为了减少时间和资源的成本，研究者们往往会采用现有的开源或商用预训练模型作为基线。不过，大多数开源模型主要是在英文语料上训练得到的，这意味着它们在处理中文和其他非英语语种的任务时可能会遇到挑战。特别是，由于缺乏足够的中文训练数据，这些模型在中文生成任务上的表现往往不如人意。

3、为了改善这一状况，研究人员探索了不同的方法来增强模型处理中文的能力，同时也尝试引入其他领域的专业知识。一种有效的方式是通过增量预训练（incrementalpre-training），即在已有的预训练模型基础上，使用额外的数据进行进一步的训练，以提高模型在特定领域的性能。然而，获取高质量的中文训...

【技术保护点】

1.一种大语言模型的增量预训练方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的大语言模型的增量预训练方法，其特征在于：所述步骤S1中，递归式数据收集的实现流程如下：

3.根据权利要求1所述的大语言模型的增量预训练方法，其特征在于：所述步骤S4中，初始化词表中所有字符，统计词表中相邻词出现的频次，选择频次最高的进行合并，作为一个新的词元加入词表，重复以上步骤，直到达到词表数量自定义阈值；

4.根据权利要求1所述的大语言模型的增量预训练方法，其特征在于：所述步骤S7中，设置三级的经验缓冲池用来进行优先经验回放，三个经验缓冲池分别为、与，其优先级由...

【技术特征摘要】

1.一种大语言模型的增量预训练方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的大语言模型的增量预训练方法，其特征在于：所述步骤s1中，递归式数据收集的实现流程如下：

3.根据权利要求1所述的大语言模型的增量预训练方法，其特征在于：所述步骤s4中，初始化词表中所有字符，统计词表中相邻词出现的频次，选择频次最高的进行合并，作为一个新的词元加入词表，重复以上步骤，直到达到词表数量自定义阈值；

4.根据权利要求1所述的大语言模型的增量预训练方法，其特征在于：所述步骤s7中，设置三级的经验缓冲池用来进行优先经验回放，三个经验缓冲池分别为、与，其优先级由高到低；

5.根据权利要求4所述的大语言模型的增量预训练方法，其特征在于：所述步骤s7中，从经验缓冲池中随机抽取一个批次bat...

【专利技术属性】
技术研发人员：张磊，李雪，陈其宾，段强，姜凯，李锐，
申请(专利权)人：山东浪潮科学研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人