【技术实现步骤摘要】
一种降低大规模分布式机器学习系统能耗的方法
本专利技术涉及大规模计算机系统降耗方法,尤其是在大规模分布式机器学习系统中,通过合理优化计算机间通信与负载调度实现能耗降低的方法。
技术介绍
随着计算技术、通信技术、传感器技术的进步和各类智能终端设备的普及,人类生产和生活中产生的各类数据越来越多,且数据增长速度越来越快。这些快速生成的原始数据总体规模大,但价值密度较低,目前普遍的大数据处理方法是将机器学习技术引入到大数据分析处理的过程中,通过线性回归、深度神经网络等方法构建系统模型并迭代训练,挖掘大数据背后潜在的数据规律和应用价值。由于待处理数据规模过大,将数据集中到单一计算节点进行机器学习效率欠佳,甚至不可行。首先,单一节点的存储、计算和通信能力已无法满足处理如此海量数据的要求,也无法将复杂的数据模型应用到实际的数据处理中。其次,由于数据产生时的地理分布性,将大量的原始数据通过广域网进行远距离传输极为耗时。同时,基于用户隐私要求或部分国家地区的数据主权法的约束,未加工抽象的原始数据,比如视频监控数据、音乐影视等,只能存储于当地的数据中心中,无法跨境传输。因此,目前主要 ...
【技术保护点】
1.一种降低大规模分布式机器学习系统能耗的方法,其特征在于该方法包括如下步骤:步骤1:调度器收集工作机的CPU、GPU、内存、磁盘的实时信息后发送给状态存储器;步骤2:状态存储器利用接收到的信息,计算工作机负载状况,包括CPU使用率、GPU使用率、内存占用率和磁盘占用率;步骤3:调度策略管理器读取状态存储器上的负载信息,使用朴素贝叶斯算法预测机器学习任务的负载类型,包括计算密集型、I/O密集型、GPU加速型、混合型;使用基于滑动窗口机制的局部加权线性回归法预测未来一段时间的负载;步骤4:在机器学习任务来临时,首先使用调度策略管理器,利用步骤3贝叶斯算法生成的模型预测该机器学 ...
【技术特征摘要】
1.一种降低大规模分布式机器学习系统能耗的方法,其特征在于该方法包括如下步骤:步骤1:调度器收集工作机的CPU、GPU、内存、磁盘的实时信息后发送给状态存储器;步骤2:状态存储器利用接收到的信息,计算工作机负载状况,包括CPU使用率、GPU使用率、内存占用率和磁盘占用率;步骤3:调度策略管理器读取状态存储器上的负载信息,使用朴素贝叶斯算法预测机器学习任务的负载类型,包括计算密集型、I/O密集型、GPU加速型、混合型;使用基于滑动窗口机制的局部加权线性回归法预测未来一段时间的负载;步骤4:在机器学习任务来临时,首先使用调度策略管理器,利用步骤3贝叶斯算法生成的模型预测该机器学习任务负载类型,然后将对应调度策略发送给调度器;由调度器分配适合该类型任务的工作机;步骤5:分布式机器学习系统进行迭代运算并采用“懒同步”机制进行数据中心间的模型参数同步;所述“懒同步”机制通过设置包含显著性阈值的过滤器,使显著性较低的参数更新累积到较高水平后再参与数据中心间参数服务器的同步,通过降低通信频次和通信量来降低系统能耗;在过滤器的基础上,通过增加迭代时钟信号和索引信息等约束机制,有效保证机器学习在通信量减少的情况下的收敛性与准确性;步骤6:调度策略管理器根据步骤3中的对于未来负载的预测,由调度器控制工作机的启动、关闭和其上处理器运行频率与电压;步骤7:重复执...
【专利技术属性】
技术研发人员:蒋从锋,王济伟,丁佳明,俞俊,赵乃良,樊甜甜,仇烨亮,万健,张纪林,殷昱煜,任祖杰,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。