模型训练方法、系统、电子设备及存储介质技术方案

技术编号：32824531 阅读：18 留言：0更新日期：2022-03-26 20:24

本申请实施例涉及计算机技术领域，公开了一种模型训练方法、系统、电子设备及存储介质。应用在模型训练系统的主处理器中，模型训练系统还包括处理器集群和数据库，方法包括：将原始数据集拆分为多个第一数据子集，并为各第一数据子集分配数据标识；将各数据标识和各第一数据子集存入数据库的第一表结构中；以供处理器集群中的各处理器从第一表结构中获取各第一数据子集和各数据标识，对各第一数据子集进行处理生成各第二数据子集，并根据各数据标识将各第二数据子集存入数据库的第二表结构中；从第二表结构中获取各第二数据子集，并基于各第二数据子集进行模型训练。能够保证数据的处理速度与模型训练的处理速度相匹配，从而提高模型训练的速度。模型训练的速度。模型训练的速度。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、系统、电子设备及存储介质

[0001]本申请实施例涉及计算机
，特别涉及一种模型训练方法、系统、电子设备及存储介质。

技术介绍

[0002]机器学习和深度学习是当前人工智能领域最热门的研究方向。在机器学习中，机器学习任务80％的时间都用在数据处理设备处理模型输入所需要的数据和特征加工上，而且需要多次加工不同且大量的特征，经过多次尝试才能得到有效的特征，每次尝试都需要等待长时间，导致数据处理设备的处理速度与模型训练设备的训练速度不匹配；而深度学习任务需要大量数据支撑，在训练时，通常会把数据以一定的大小的数据分组，经过一定的数据增强操作之后，才进行基于小批次的数据集mini
‑
batch的梯度下降训练；深度学习的模型训练设备资源昂贵而稀缺，但速度快，而数据处理设备相对便宜，但速度相对慢，也会使数据处理设备的处理速度跟不上模型训练设备的训练速度；而机器学习和深度学习中的数据处理设备和模型训练设备的速度不匹配，导致模型训练设备的利用率低，从而降低了机器学习模型或深度学习模型的训练速度。

技术实现思路

[0003]本申请实施例的目的在于提供一种模型训练方法、系统、电子设备及存储介质，使得数据的处理速度与模型训练的处理速度相匹配，从而提高模型训练的速度。
[0004]为解决上述技术问题，本申请的实施例提供了一种模型训练方法，其特征在于，应用在模型训练系统的主处理器中，所述模型训练系统还包括处理器集群和数据库；包括：将原始数据集拆分为多个第一数据子集，并为各所述第一数据...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，应用在模型训练系统的主处理器中，所述模型训练系统还包括处理器集群和数据库；所述方法包括：将原始数据集拆分为多个第一数据子集，并为各所述第一数据子集分配数据标识；将各所述数据标识和各所述第一数据子集存入所述数据库的第一表结构中；以供所述处理器集群中的各处理器从所述第一表结构中获取各所述第一数据子集和各所述数据标识，对各所述第一数据子集进行处理生成各第二数据子集，并根据各所述数据标识将各所述第二数据子集存入所述数据库的第二表结构中；从所述第二表结构中获取各所述第二数据子集，并基于各所述第二数据子集进行模型训练。2.根据权利要求1所述的模型训练方法，其特征在于，所述将原始数据集拆分为多个第一数据子集，并为各所述第一数据子集分配数据标识，包括：当所述模型为机器学习模型时，根据各预设特征要求将所述原始数据集拆分为各所述第一数据子集，并根据各所述预设特征要求为各所述第一数据子集分配各所述数据标识。3.根据权利要求2所述的模型训练方法，其特征在于，所述从所述第二表结构中获取各所述第二数据子集，并基于各所述第二数据子集进行模型训练，包括：轮询各所述数据标识，检测各所述数据标识是否存在于所述第二表结构中；当各所述数据标识均存在于所述第二表结构中时，从所述第二表结构中获取各所述第二数据子集；将各所述第二数据子集汇总成训练数据集，并基于所述训练数据集进行模型训练。4.根据权利要求1所述的模型训练方法，其特征在于，所述将原始数据集拆分为多个第一数据子集，并为各所述第一数据子集分配数据标识，包括：当所述模型为深度学习模型时，根据预设的批次数将所述原始数据集拆分为各所述第一数据子集，并根据各所述批次为各所述第一数据子集分配各所述数据标识。5.根据权利要求4所述的模型训练方法，其特征在于，所述从所述第二表结构中获取各所述第二数据子集，并基于各所述第二数据子集进行模型训练，包括：轮询各所述数据标识，检测本次轮询的数据标识是否存在于所述第二...

【专利技术属性】
技术研发人员：余养强，
申请(专利权)人：网宿科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人