【技术实现步骤摘要】
一种PS节点的资源配额处理方法和装置
[0001]本专利技术涉及互联网
,特别是涉及一种PS节点的资源配额处理方法和装置。
技术介绍
[0002]随着数据规模的增加和机器学习模型参数规模的增加,对模型的快速收敛提出了挑战,参数服务器(Parameter Server,简称PS)分布式训练架构(以下简称为PS架构)被广泛用于加速模型的收敛。
[0003]在PS架构中,模型的参数被分片并分配到不同的PS节点,PS节点负责该分片参数的存储及更新;训练数据被分片并分配到不同的工人(Worker)节点,不同的Worker节点进行数据并行(data
‑
parallel)式训练,计算用于模型的参数更新的梯度并上报给PS节点。PS节点收到梯度后会对模型的参数进行更新。
[0004]目前大部分的技术方案都采用静态的PS资源配置,即在模型训练开始前选择一个资源配置,按照选择的资源配置利用PS节点对模型进行训练,直到训练任务结束。也有一些技术方案支持对PS节点进行弹性扩缩容,具体实现是以缩短训练任务的完成时 ...
【技术保护点】
【技术特征摘要】
1.一种PS节点的资源配额处理方法,其特征在于,包括:获取PS集群中当前PS节点的资源利用率、资源配额额定值和资源配额当前值,所述当前PS节点用于存储和更新模型的参数;当所述资源利用率小于预设的资源利用率下限阈值,且所述资源配额额定值小于所述资源配额当前值时,对所述资源配额当前值进行缩容处理;当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,对所述资源配额当前值进行扩容处理。2.根据权利要求1所述的方法,其特征在于,所述当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,所述方法还包括:当不存在空余资源时,若所述资源利用率小于资源利用率额定阈值,则禁止对所述资源配额当前值进行扩容处理,并继续对所述模型进行训练。3.根据权利要求1所述的方法,其特征在于,所述当所述资源利用率大于预设的资源利用率上限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,所述方法还包括:当不存在空余资源时,若所述资源利用率大于或等于资源利用率额定阈值,则保存所述模型的训练进度和参数,终止对所述模型进行训练。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述资源利用率小于所述资源利用率下限阈值,且所述资源配额额定值大于或等于所述资源配额当前值时,禁止对所述资源配额当前值进行缩容处理。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述资源利用率大于所述资源利用率上限阈值,且所述资源配额额定值小于或等于所述资源配额当前值时,禁止对所述资源配额当前值进行扩容处理。6.根据权利要求1所述的方法,其特征在于,在所述获取PS集群中当前PS节点的资源利用率、资源配额额定值和资源配额当前值之前,所述方法还包括:在所述模型的训练任务启动之前,若存在所述模型的历史训练记录数据,则根据所述历史训练记录数据预估所述模型的训练任务在所述当前PS节点的资源配额数据。7.根据权利要求1所述的方法,其特征在于,所述获取所述资源配额额定值,包括:根据所述模型的训练阶段的资源占用量拟合资源占用增长曲线;根据所述模型的单条样本数据的训练平均耗时时长和样本数据的数量预估所述模型的训练任务的完成时间点;根据所述资源占用增长曲线和所述完成时间点获取所述资源配额额定值。8.一种PS节点的资源配额处理装置,其特征在于,包括:获取模块,用于获取PS集群中当前PS...
【专利技术属性】
技术研发人员:王锋,李丰存,高延庆,王迪,钱玉磊,余建平,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。