【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种降低ai算力集群能耗的方法、装置及存储介质。
技术介绍
1、当前的ai(artificial intelligence,人工智能)算力能耗巨大,在ai模型计算过程中需要对ai算力能耗进行精细化管控、避免不必要的能耗浪费。
2、目前的ai模型在执行ai计算时,主要采用ai加速芯片并行计算的方式完成计算,即把一个ai模型拆分到包含多个ai加速芯片的大集群上同时进行计算并通过中间的通信无损光缆进行计算过程的通信,由于ai算力集群包括了多个不同计算能力、不同单位时间功率、不同运行能效的ai加速芯片,有的ai加速芯片的计算速度快但是功耗也高、有的ai加速芯片计算速度虽然慢但是功耗也低,导致ai算力集群的能耗管控会更复杂。同时,有可能一个集群中部分计算速度最慢、运行能效低的ai加速芯片会将计算时长不同程度地拉长,计算速度快的、居中的大部分ai加速芯片便会空转等待这个计算慢的ai加速芯片,造成设备空转能耗浪费,因此,对于多元化、跨地域的ai算力集群而言,可能会由于木桶效应(比如单个ai加速芯片服务器计算
...【技术保护点】
1.一种降低人工智能AI算力集群能耗的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据计算任务所需的AI算力为所述计算任务派发多个AI加速芯片,具体包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述计算任务中待计算的AI模型和待训练的数据评估所述计算任务所需的AI算力,具体包括:
4.根据权利要求1所述的方法,其特征在于,所述从多个AI算力服务器中获取需要节能管控的至少一个目标AI算力服务器,具体包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述多个AI算力服务
...【技术特征摘要】
1.一种降低人工智能ai算力集群能耗的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据计算任务所需的ai算力为所述计算任务派发多个ai加速芯片,具体包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述计算任务中待计算的ai模型和待训练的数据评估所述计算任务所需的ai算力,具体包括:
4.根据权利要求1所述的方法,其特征在于,所述从多个ai算力服务器中获取需要节能管控的至少一个目标ai算力服务器,具体包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述多个ai算力服务器中每个ai算力服务器的温度获取需要节能管控的至少一个目标ai算力服务器,具体包括:
6.根据权利要求1所述的方法,其特征在于,所述通过分布式计算的方式获取所述至少一个目标ai算力服务器中各个所述目标ai算力服务器能耗最优的ai加速芯片运行时钟频率,得到时钟频率的粗略估计,具体包括:
7.根据权利要求6所述的方法,其特征在于,所述获取各个所述目标ai算力服务器的多个所述ai加速芯片在所述预训练过程中的预训练能耗,具体包括:
8.根据权利要求1所述的方法,其特征在于,所述通过分布式计算的方式获取所述至少一个目标ai算力服务器中各个所述目标ai算力服务器能耗最优的ai加速芯片运行时钟频率,得到时钟频率的粗略估计之后,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,所述目标参数包括数据集批量大小、并行读取数据的线程数目以及学习率;
10.根据权利要求9所述的方法,其特征在于,所述根据所述目标参数对所述粗略...
【专利技术属性】
技术研发人员:王鑫,叶晓煜,程新洲,谭永涛,韩振东,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。