模型训练方法及装置制造方法及图纸

技术编号:34897675 阅读:13 留言:0更新日期:2022-09-10 13:57
本公开涉及一种模型训练方法及装置,其中,该方法包括:调用任务切分线程对任务数据进行切分得到连续的多个切片数据,将得到的切片数据缓存至切片数据队列中;调用任务分发线程从切片数据队列中获取待处理的切片数据,生成待处理任务,以及,根据参与模型训练的各模型训练器的任务执行进度,确定目标模型训练器,向所述目标模型训练器分发所述待处理任务,指示所述目标模型训练器执行所述待处理任务。本公开提供的方法,任务切分线程和任务分发线程并行运行,不存在先进行数据切分再进行数据分发的缺点,从而减小了数据准备时间,极大提高了整体模型训练效率。大提高了整体模型训练效率。大提高了整体模型训练效率。

【技术实现步骤摘要】
模型训练方法及装置


[0001]本公开涉及数据处理
,尤其涉及一种模型训练方法及装置。

技术介绍

[0002]在机器学习中,随着训练数据越来越大,当前机器学习采用数据并行方式进行训练提速,而目前主流训练框架对于数据并行支持方式是将一个大数据集,按照计算节点数量进行平均划分,这种方式就导致训练前需要有大量的时间用于做数据切分,并且对于一些使用大量潮汐数据的业务,对应的计算节点需要不停地上线或下线,导致训练的并行度也不断变化,整体影响模型训练效率。

技术实现思路

[0003]为了解决上述技术问题,本公开提供了一种模型训练方法及装置。
[0004]第一方面,本公开提供了一种数据的处理方法,包括:
[0005]调用任务切分线程对任务数据进行切分得到连续的多个切片数据,将所述切片数据依次缓存至切片数据队列,所述切片数据队列用于动态维护切片数据的处理情况;
[0006]调用任务分发线程从所述切片数据队列中读取待处理的切片数据并基于所述待处理的切片数据生成待处理任务,以及,根据参与模型训练的各模型训练器的任务执行进度,确定目标模型训练器,向所述目标模型训练器分发所述待处理任务,指示所述目标模型训练器执行所述待处理任务,其中,所述任务切分线程和所述任务分发线程并行运行。
[0007]在一些实施例中,所述根据参与模型训练的各模型训练器的任务执行进度,确定目标模型训练器,包括:
[0008]扫描所述各模型训练器中正在执行的任务数量;
[0009]将所述任务数量与相应所述模型训练器能够执行的最大任务数量进行比较,从所述任务数量小于相应所述模型训练器能够执行的最大任务数量的模型训练器中确定所述目标模型训练器。
[0010]在一些实施例中,所述方法还包括:
[0011]调用所述任务分发线程获取各候选模型训练器分别发送的任务执行状态;
[0012]调用所述任务分发线程在内存中记录各任务执行状态,并以预设触发条件将已执行结束的任务执行状态存储至磁盘中。
[0013]在一些实施例中,所述调用所述任务分发线程在内存记录各任务执行状态,包括:
[0014]调用所述任务分发线程在磁盘中记录已执行结束的任务的标识信息,在内存中记录正在执行任务的标识信息和状态信息。
[0015]在一些实施例中,所述方法还包括:调用所述任务切分线程在内存中记录所述任务数据的切分进度信息,并定期将所述切分进度信息转存至磁盘中。
[0016]在一些实施例中,所述方法还包括:调用任务扫描线程扫描任务数据,并将扫描到的任务数据缓存至任务数据队列中,以使所述任务切分线程从所述任务数据队列中获取任
务数据进行切片,其中,所述任务扫描线程和所述任务切分线程并行运行。
[0017]在一些实施例中,所述方法还包括:调用所述任务扫描线程在内存中记录数据的扫描进度信息,并定期将所述扫描进度信息转存至磁盘中。
[0018]在一些实施例中,所述方法还包括:
[0019]检测到模型训练器下线时,从内存中获取下线的所述模型训练器中未执行结束的任务对应的任务执行状态;
[0020]调用所述任务分发线程将所述未执行结束的任务对应的切片数据以及任务执行状态分发至在线的模型训练器,使得所述在线的模型训练器基于所述未执行结束的任务对应的任务执行状态确定相应切片数据的训练进度,基于所述训练进度继续进行训练。
[0021]第二方面,本公开提供了一种数据的处理装置,包括:
[0022]任务数据切分模块,用于调用任务切分线程对任务数据进行切分得到连续的多个切片数据,将所述切片数据依次缓存至切片数据队列,所述切片数据队列用于动态维护切片数据的处理情况;
[0023]任务分发模块,用于调用任务分发线程从所述切片数据队列中读取待处理的切片数据并基于所述待处理的切片数据生成待处理任务,以及,根据参与模型训练的各模型训练器的任务执行进度,确定目标模型训练器,向所述目标模型训练器分发所述待处理任务,指示所述目标模型训练器执行所述待处理任务,其中,所述任务切分线程和所述任务分发线程并行运行。
[0024]在一些实施例中,任务分发模块,具体用于扫描所述各模型训练器中正在执行的任务数量;将所述任务数量与相应所述模型训练器能够执行的最大任务数量进行比较,从所述任务数量小于相应所述模型训练器能够执行的最大任务数量的模型训练器中确定所述目标模型训练器。
[0025]在一些实施例中,任务分发模块,还用于调用所述任务分发线程获取各模型训练器分别发送的任务执行状态。
[0026]还包括:状态保存模块,用于调用所述任务分发线程在内存中记录各任务执行状态,并以预设触发条件将已执行结束的任务执行状态存储至磁盘中。
[0027]在一些实施例中,状态保存模块,具体用于调用所述任务分发线程在磁盘中记录已执行结束的任务的标识信息,在内存中记录正在执行任务的标识信息和状态信息。
[0028]在一些实施例中,状态保存模块,还用于调用所述任务切分线程在内存中记录所述任务数据的切分进度信息,并定期将所述切分进度信息转存至磁盘中。
[0029]在一些实施例中,还包括:数据扫描模块,用于调用任务扫描线程扫描任务数据,并将扫描到的任务数据缓存至任务数据队列中,以使所述任务切分线程从所述任务数据队列中获取任务数据进行切片,其中,所述任务扫描线程和所述任务切分线程并行运行。
[0030]在一些实施例中,状态保存模块,还用于调用所述任务扫描线程在内存中记录数据的扫描进度信息,并定期将所述扫描进度信息转存至磁盘中。
[0031]在一些实施例中,任务分发模块,还用于检测到模型训练器离线时,从内存中获取离线的所述模型训练器未执行结束的任务对应的任务执行状态;调用所述任务分发线程将所述未执行结束的任务对应的切片数据以及任务执行状态分发至在线的模型训练器,使得所述在线的模型训练器基于所述未执行结束的任务对应的任务执行状态确定相应切片数
据的训练进度,基于所述训练进度继续进行训练。
[0032]第三方面,本公开提供了一种电子设备,包括:存储器和处理器;
[0033]存储器被配置为存储计算机程序指令;
[0034]处理器被配置为执行所述计算机程序指令,使得所述电子设备实现如第一方面以及第一方面任一项所述的模型训练方法。
[0035]第四方面,本公开提供了一种可读存储介质,包括:计算机程序指令;电子设备执行所述计算机程序指令,使得所述电子设备实现如第一方面以及第一方面任一项所述的模型训练方法。
[0036]第五方面,本公开提供了一种计算机程序产品,电子设备的至少一个处理器执行所述计算机程序产品,使得所述电子设备实现如第一方面以及第一方面任一项所述的模型训练方法。
[0037]本公开实施例提供了一种模型训练方法及装置,其中,该方法包括:调用任务切分线程对任务数据进行切分得到连续的多个切片数据,将切片数据依次缓存至切片数据队列中;调本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:调用任务切分线程对任务数据进行切分得到连续的多个切片数据,将所述切片数据依次缓存至切片数据队列,所述切片数据队列用于动态维护切片数据的处理情况;调用任务分发线程从所述切片数据队列中读取待处理的切片数据并基于所述待处理的切片数据生成待处理任务,以及,根据参与模型训练的各模型训练器的任务执行进度,确定目标模型训练器,向所述目标模型训练器分发所述待处理任务,指示所述目标模型训练器执行所述待处理任务,其中,所述任务切分线程和所述任务分发线程并行运行。2.根据权利要求1所述的方法,其特征在于,所述根据参与模型训练的各模型训练器的任务执行进度,确定目标模型训练器,包括:扫描所述各模型训练器中正在执行的任务数量;将所述任务数量与相应所述模型训练器能够执行的最大任务数量进行比较,从所述任务数量小于相应所述模型训练器能够执行的最大任务数量的模型训练器中确定所述目标模型训练器。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:调用所述任务分发线程获取各模型训练器分别发送的任务执行状态;调用所述任务分发线程在内存中记录各任务执行状态,并以预设触发条件将已执行结束的任务执行状态存储至磁盘中。4.根据权利要求3所述的方法,其特征在于,所述调用所述任务分发线程在内存记录各任务执行状态,包括:调用所述任务分发线程在磁盘中记录已执行结束的任务的标识信息,在内存中记录正在执行任务的标识信息和状态信息。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:调用所述任务切分线程在内存中记录所述任务数据的切分进度信息,并定期将所述切分进度信息转存至磁盘中。6.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:调用任务扫描线程扫描任务数据,并将扫描到的任务数据缓存至任务数据队列中,以使所述任务切分线程从所述任务数据队列中获取任务数据进行切片,其...

【专利技术属性】
技术研发人员:钱瀚周东炎师锐
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1