【技术实现步骤摘要】
分布式模型训练的能耗评估方法和装置
[0001]本说明书一个或多个实施例涉及计算机领域,尤其涉及分布式模型训练的能耗评估方法和装置。
技术介绍
[0002]需要在不增加或降低计算成本的基础上,研发性能更强大的人工智能(art ificia l inte l l igence,AI)技术,从而实现环境友好的AI,即绿色AI。其中,降低计算成本即降低能耗,科学准确的计算出来AI模型的训练和推理服务的能耗是后续各种优化的基础。AI模型也称为神经网络模型,简称模型。随着隐私数据保护力度的加大,模型的训练数据常被视为隐私数据。
[0003]在大数据时代下,模型往往采用分布式模型训练,而传统的能耗衡量是单机的,无法满足能耗评估的准确性需求。
技术实现思路
[0004]本说明书一个或多个实施例描述了一种分布式模型训练的能耗评估方法和装置,能够满足能耗评估的准确性需求。
[0005]第一方面,提供了一种分布式模型训练的能耗评估方法,该方法由分布式系统执行,所述分布式系统包括多个机器,各机器上部署有单机能耗采集
【技术保护点】
【技术特征摘要】
1.一种分布式模型训练的能耗评估方法,所述方法由分布式系统执行,所述分布式系统包括多个机器,各机器上部署有单机能耗采集工具;所述方法包括:确定所述多个机器中参与训练目标模型的多个目标机器;获取各个目标机器每隔第一预设时间周期分别上报的、所述单机能耗采集工具采集的目标单机能耗;根据各个目标单机能耗,计算所述目标模型的模型训练在第一时间窗口内的整体能耗。2.如权利要求1所述的方法,其中,所述确定所述多个机器中参与训练目标模型的多个目标机器,包括:记录各个目标机器与目标模型的对应关系;所述获取各个目标机器每隔第一预设时间周期分别上报的、所述单机能耗采集工具采集的目标单机能耗,包括:获取所述多个机器中的至少一部分上报的各个单机能耗;根据所述对应关系,从所述各个单机能耗中确定出所述目标单机能耗。3.如权利要求1所述的方法,其中,一个机器运行多个模型各自的模型训练程序,单机能耗的能耗数据包括,机器上运行各个模型训练程序的各个进程各自的能耗;所述计算所述目标模型的模型训练在第一时间窗口内的整体能耗,包括:从单机能耗的能耗数据中确定出目标模型的模型训练程序运行进程对应的目标能耗。4.如权利要求1所述的方法,其中,所述机器对应于容器,单个容器同一时刻仅运行单个模型的模型训练程序。5.如权利要求1所述的方法,其中,所述确定所述多个机器中参与训练目标模型的多个目标机器,包括:为所述目标模型的模型训练分配所述多个机器中的多个目标机器;启动所述多个目标机器;确定所述多个目标机器启动成功。6.如权利要求5所述的方法,其中,所述确定所述多个目标机器启动成功之前,所述方法还包括:判断所述多个目标机器是否启动成功;若所述多个目标机器未启动成功,则重新尝试启动所述多个目标机器。7.如权利要求1所述的方法,其中,所述确定所述多个机器中参与训练目标模型的多个目标机器之后...
【专利技术属性】
技术研发人员:林秀晶,刘国栋,萧仪宗,屈维亮,李国杰,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。