【技术实现步骤摘要】
模型训练方法及装置
[0001]本公开涉及数据处理
,尤其涉及一种模型训练方法及装置。
技术介绍
[0002]在机器学习中,随着训练数据越来越大,当前机器学习采用数据并行方式进行训练提速,而目前主流训练框架对于数据并行支持方式是将一个大数据集,按照计算节点数量进行平均划分,这种方式就导致训练前需要有大量的时间用于做数据切分,并且对于一些使用大量潮汐数据的业务,对应的计算节点需要不停地上线或下线,导致训练的并行度也不断变化,整体影响模型训练效率。
技术实现思路
[0003]为了解决上述技术问题,本公开提供了一种模型训练方法及装置。
[0004]第一方面,本公开提供了一种数据的处理方法,包括:
[0005]调用任务切分线程对任务数据进行切分得到连续的多个切片数据,将所述切片数据依次缓存至切片数据队列,所述切片数据队列用于动态维护切片数据的处理情况;
[0006]调用任务分发线程从所述切片数据队列中读取待处理的切片数据并基于所述待处理的切片数据生成待处理任务,以及,根据参与模型训练的各 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:调用任务切分线程对任务数据进行切分得到连续的多个切片数据,将所述切片数据依次缓存至切片数据队列,所述切片数据队列用于动态维护切片数据的处理情况;调用任务分发线程从所述切片数据队列中读取待处理的切片数据并基于所述待处理的切片数据生成待处理任务,以及,根据参与模型训练的各模型训练器的任务执行进度,确定目标模型训练器,向所述目标模型训练器分发所述待处理任务,指示所述目标模型训练器执行所述待处理任务,其中,所述任务切分线程和所述任务分发线程并行运行。2.根据权利要求1所述的方法,其特征在于,所述根据参与模型训练的各模型训练器的任务执行进度,确定目标模型训练器,包括:扫描所述各模型训练器中正在执行的任务数量;将所述任务数量与相应所述模型训练器能够执行的最大任务数量进行比较,从所述任务数量小于相应所述模型训练器能够执行的最大任务数量的模型训练器中确定所述目标模型训练器。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:调用所述任务分发线程获取各模型训练器分别发送的任务执行状态;调用所述任务分发线程在内存中记录各任务执行状态,并以预设触发条件将已执行结束的任务执行状态存储至磁盘中。4.根据权利要求3所述的方法,其特征在于,所述调用所述任务分发线程在内存记录各任务执行状态,包括:调用所述任务分发线程在磁盘中记录已执行结束的任务的标识信息,在内存中记录正在执行任务的标识信息和状态信息。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:调用所述任务切分线程在内存中记录所述任务数据的切分进度信息,并定期将所述切分进度信息转存至磁盘中。6.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:调用任务扫描线程扫描任务数据,并将扫描到的任务数据缓存至任务数据队列中,以使所述任务切分线程从所述任务数据队列中获取任务数据进行切片,其...
【专利技术属性】
技术研发人员:钱瀚,周东炎,师锐,
申请(专利权)人:北京火山引擎科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。