模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：38598225 阅读：12 留言：0更新日期：2023-08-26 23:33

本申请公开了一种模型训练方法、装置、设备及存储介质，方法包括：当确定需要添加新增训练数据时，基于预先构建的batch列表，过滤掉已经训练使用过的batch，得到剩余各batch，避免重复读取已使用的batch迭代训练模型，其中batch列表中按照训练时的读取顺序记录各batch的标识。对于新增训练数据构建成若干batch，将对新增训练数据所构建的各batch与剩余各batch进行随机顺序打乱，并将打乱后的各batch的标识顺序的记录在batch列表中，以便后续按照batch列表顺序读取各标识对应的batch数据，进行在线模型训练，可以最大程度地保持训练数据的分布一致性，提升模型的泛化能力。提升模型的泛化能力。提升模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置、设备及存储介质

[0001]本申请涉及人工智能模型
，更具体的说，是涉及一种模型训练方法、装置、设备及存储介质。

技术介绍

[0002]模型预训练在各种业务上广泛开展，包括但不限于自然语言处理，图像识别，语音识别等领域，尤其在自然语言处理方向，训练更大规模的预训练模型（大型人工智能模型），再在下游任务中微调，已成为了提高自然语言处理NLP应用的常见方法。
[0003]在训练大规模预训练模型时，需要使用大量数据集，整个训练时间也会很长。由于训练过程的漫长性质，实际过程中往往会出现在训练过程中训练数据集发生变动的情况，如获取到新增训练数据，需要添加到训练数据集中。数据集规模的变化会对训练数据的读取产生影响，进而影响模型的训练效果。传统方案并未针对这种情况作出针对性的改进，因而可能会出现重复读取已经训练过的数据来迭代训练模型，或者是，将新增训练数据与原有训练数据分开来单独训练模型，进而导致模型在不同数据分布中学习，降低了模型的泛化能力。

技术实现思路

[0004]鉴于上述问题，提出了本申请以便提供一种模型训练方法、装置、设备及存储介质，以避免在新增训练数据时重复读取相同数据迭代训练模型，或将新增数据与原有数据分开单独训练模型，降低模型泛化能力的问题。具体方案如下：第一方面，提供了一种模型训练方法，包括：当确定需要添加新增训练数据时，基于预先构建的训练批次batch列表，过滤掉已经训练使用过的batch，得到剩余各batch，其中，所述batch列表中按照训练时的读取顺序记录...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：当确定需要添加新增训练数据时，基于预先构建的训练批次batch列表，过滤掉已经训练使用过的batch，得到剩余各batch，其中，所述batch列表中按照训练时的读取顺序记录各batch的标识；对于所述新增训练数据，按照规则构建成若干batch；将对所述新增训练数据所构建的各batch与所述剩余各batch进行随机顺序打乱，并将打乱后的各batch的标识顺序的记录在所述batch列表中，以便后续按照batch列表顺序读取各标识对应的batch数据，进行在线模型训练。2.根据权利要求1所述的方法，其特征在于，在在线模型训练之前，还包括离线构建batch的过程，所构建的batch中每条训练数据的序列长度为设定较大长度值；则在线模型训练的过程，包括：按照batch列表顺序读取各标识对应的batch数据；按照当前训练阶段所对应的实际训练长度值，对读取的batch数据中每条训练数据进行切分，并利用切分后的所述实际训练长度值的训练数据迭代训练模型，直至读取的batch数据迭代结束，返回执行所述按照batch列表顺序读取各标识对应的batch数据的步骤；其中，所述实际训练长度不超过所述设定较大长度值。3.根据权利要求2所述的方法，其特征在于，在整个模型训练过程中包含至少两个训练阶段，且按照时间顺序越靠后的训练阶段所对应的实际训练长度值越大，最大的实际训练长度值不超过所述设定较大长度值。4.根据权利要求2所述的方法，其特征在于，当前训练阶段所对应的实际训练长度值通过外部输入确定；或，按照训练进度确定当前所处的目标训练阶段，并查找预设的与所述目标训练阶段对应的实际训练长度值。5.根据权利要求3所述的方法，其特征在于，所述设定较大长度值为各个训练阶段对应的实际训练长度值的最小...

【专利技术属性】
技术研发人员：潘青华，张海俊，董雪振，胡文龙，汪锦想，于振华，胡国平，刘聪，魏思，王士进，刘权，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人