模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:38598225 阅读:12 留言:0更新日期:2023-08-26 23:33
本申请公开了一种模型训练方法、装置、设备及存储介质,方法包括:当确定需要添加新增训练数据时,基于预先构建的batch列表,过滤掉已经训练使用过的batch,得到剩余各batch,避免重复读取已使用的batch迭代训练模型,其中batch列表中按照训练时的读取顺序记录各batch的标识。对于新增训练数据构建成若干batch,将对新增训练数据所构建的各batch与剩余各batch进行随机顺序打乱,并将打乱后的各batch的标识顺序的记录在batch列表中,以便后续按照batch列表顺序读取各标识对应的batch数据,进行在线模型训练,可以最大程度地保持训练数据的分布一致性,提升模型的泛化能力。提升模型的泛化能力。提升模型的泛化能力。

【技术实现步骤摘要】
模型训练方法、装置、设备及存储介质


[0001]本申请涉及人工智能模型
,更具体的说,是涉及一种模型训练方法、装置、设备及存储介质。

技术介绍

[0002]模型预训练在各种业务上广泛开展,包括但不限于自然语言处理,图像识别,语音识别等领域,尤其在自然语言处理方向,训练更大规模的预训练模型(大型人工智能模型),再在下游任务中微调,已成为了提高自然语言处理NLP应用的常见方法。
[0003]在训练大规模预训练模型时,需要使用大量数据集,整个训练时间也会很长。由于训练过程的漫长性质,实际过程中往往会出现在训练过程中训练数据集发生变动的情况,如获取到新增训练数据,需要添加到训练数据集中。数据集规模的变化会对训练数据的读取产生影响,进而影响模型的训练效果。传统方案并未针对这种情况作出针对性的改进,因而可能会出现重复读取已经训练过的数据来迭代训练模型,或者是,将新增训练数据与原有训练数据分开来单独训练模型,进而导致模型在不同数据分布中学习,降低了模型的泛化能力。

技术实现思路

[0004]鉴于上述问题,提出了本申请以便提供一种模型训练方法、装置、设备及存储介质,以避免在新增训练数据时重复读取相同数据迭代训练模型,或将新增数据与原有数据分开单独训练模型,降低模型泛化能力的问题。具体方案如下:第一方面,提供了一种模型训练方法,包括:当确定需要添加新增训练数据时,基于预先构建的训练批次batch列表,过滤掉已经训练使用过的batch,得到剩余各batch,其中,所述batch列表中按照训练时的读取顺序记录各batch的标识;对于所述新增训练数据,按照规则构建成若干batch;将对所述新增训练数据所构建的各batch与所述剩余各batch进行随机顺序打乱,并将打乱后的各batch的标识顺序的记录在所述batch列表中,以便后续按照batch列表顺序读取各标识对应的batch数据,进行在线模型训练。
[0005]优选地,在在线模型训练之前,还包括离线构建batch的过程,所构建的batch中每条训练数据的序列长度为设定较大长度值;则在线模型训练的过程,包括:按照batch列表顺序读取各标识对应的batch数据;按照当前训练阶段所对应的实际训练长度值,对读取的batch数据中每条训练数据进行切分,并利用切分后的所述实际训练长度值的训练数据迭代训练模型,直至读取的batch数据迭代结束,返回执行所述按照batch列表顺序读取各标识对应的batch数据的步骤;
其中,所述实际训练长度不超过所述设定较大长度值。
[0006]优选地,在整个模型训练过程中包含至少两个训练阶段,且按照时间顺序越靠后的训练阶段所对应的实际训练长度值越大,最大的实际训练长度值不超过所述设定较大长度值。
[0007]优选地,当前训练阶段所对应的实际训练长度值通过外部输入确定;或,按照训练进度确定当前所处的目标训练阶段,并查找预设的与所述目标训练阶段对应的实际训练长度值。
[0008]优选地,所述设定较大长度值为各个训练阶段对应的实际训练长度值的最小公倍数。
[0009]优选地,还包括:当确定训练机器数量发生变动后,基于所述batch列表,过滤掉已经训练使用过的batch,以便在线模型训练时跳过读取已经训练使用过的batch。
[0010]优选地,所述当确定需要添加新增训练数据时,基于预先构建的训练批次batch列表,过滤掉已经训练使用过的batch,得到剩余各batch,包括:当确定需要添加新增训练数据时,确定当前已训练使用过的最新batch的标识;将所述batch列表中,从所述最新batch的标识向前的各batch标识过滤掉,得到剩余各batch的标识。
[0011]第二方面,提供了一种模型训练装置,包括:第一batch过滤单元,用于当确定需要添加新增训练数据时,基于预先构建的训练批次batch列表,过滤掉已经训练使用过的batch,得到剩余各batch,其中,所述batch列表中按照训练时的读取顺序记录各batch的标识;batch构建单元,用于对于所述新增训练数据,按照规则构建成若干batch;batch打乱单元,用于将对所述新增训练数据所构建的各batch与所述剩余各batch进行随机顺序打乱,并将打乱后的各batch的标识顺序的记录在所述batch列表中,以便后续按照batch列表顺序读取各标识对应的batch数据,进行在线模型训练。
[0012]第三方面,提供了一种模型训练设备,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如前所述的模型训练方法的各个步骤。
[0013]第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前所述的模型训练方法的各个步骤。
[0014]借由上述技术方案,本申请在离线构建训练用的batch数据时可以同时构建batch列表,列表中按照训练时读取顺序记录各batch的标识,也即在在线模型训练过程可以按照batch列表中记录的顺序依次读取各batch进行模型训练。基于此,在模型训练过程中当确定需要添加新增训练数据时,可以基于batch列表过滤掉已经训练使用过的batch,得到剩余还未使用过的各batch。对于新增训练数据,可以按照规则构建成若干batch,并将该新构建的batch与前述得到的剩余各batch进行随机顺序打乱,将打乱后的各batch的标识顺序的记录在batch列表中,以便后续按照batch列表顺序读取各标识对应的batch数据,进行在线模型训练。显然,本申请方案通过设置batch列表可以便于记录各batch的读取顺序进而
便于过滤掉已经训练使用过的batch,避免重复读取已使用的batch迭代训练模型。同时,对于新增训练数据所构建的batch与过滤后剩余的各batch进行随机顺序打乱,可以最大程度地保持训练数据的分布一致性,采用此训练数据训练模型可以更好地提升模型的泛化能力。
附图说明
[0015]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本申请实施例提供的模型训练方法的一流程示意图;图2为本申请实施例提供的在线模型训练方法的流程示意图;图3为本申请实施例提供的一种模型训练装置结构示意图;图4为本申请实施例提供的模型训练设备的结构示意图。
具体实施方式
[0016]在介绍本申请方案之前,首先对本文中涉及到的术语进行解释:大型人工智能模型:又可以称之为大型深度学习模型,是一种基于深度学习技术的人工智能模型,它由数以亿计的参数组成,可以通过对大量数据的学习、训练,实现自然语音处理、图像识别、语音识别等复杂任务。大型人工智能模型可以包括大模型、大语言模型,大模型和大语言模型都是指参数量非常大的机器学习模型,但它们的应用场景和侧重点略有不同。
[0017本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:当确定需要添加新增训练数据时,基于预先构建的训练批次batch列表,过滤掉已经训练使用过的batch,得到剩余各batch,其中,所述batch列表中按照训练时的读取顺序记录各batch的标识;对于所述新增训练数据,按照规则构建成若干batch;将对所述新增训练数据所构建的各batch与所述剩余各batch进行随机顺序打乱,并将打乱后的各batch的标识顺序的记录在所述batch列表中,以便后续按照batch列表顺序读取各标识对应的batch数据,进行在线模型训练。2.根据权利要求1所述的方法,其特征在于,在在线模型训练之前,还包括离线构建batch的过程,所构建的batch中每条训练数据的序列长度为设定较大长度值;则在线模型训练的过程,包括:按照batch列表顺序读取各标识对应的batch数据;按照当前训练阶段所对应的实际训练长度值,对读取的batch数据中每条训练数据进行切分,并利用切分后的所述实际训练长度值的训练数据迭代训练模型,直至读取的batch数据迭代结束,返回执行所述按照batch列表顺序读取各标识对应的batch数据的步骤;其中,所述实际训练长度不超过所述设定较大长度值。3.根据权利要求2所述的方法,其特征在于,在整个模型训练过程中包含至少两个训练阶段,且按照时间顺序越靠后的训练阶段所对应的实际训练长度值越大,最大的实际训练长度值不超过所述设定较大长度值。4.根据权利要求2所述的方法,其特征在于,当前训练阶段所对应的实际训练长度值通过外部输入确定;或,按照训练进度确定当前所处的目标训练阶段,并查找预设的与所述目标训练阶段对应的实际训练长度值。5.根据权利要求3所述的方法,其特征在于,所述设定较大长度值为各个训练阶段对应的实际训练长度值的最小...

【专利技术属性】
技术研发人员:潘青华张海俊董雪振胡文龙汪锦想于振华胡国平刘聪魏思王士进刘权
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1