一种高可用分布式机器学习计算框架的容错方法和系统技术方案

技术编号：21659572 阅读：65 留言：0更新日期：2019-07-20 05:51

本发明专利技术涉及一种高可用分布式机器学习计算框架的容错方法和系统。该方法建立分布式机器学习框架，包括多个Master节点、多个Server节点、多个Agent节点，其中Agent节点和Server节点、Master节点通信，每个Server节点存储一部分参数，每个Agent节点存储一部分训练数据，计算本地的参数更新量；Master节点记录其它节点的信息及机器学习任务相关的信息；Master节点组成高可用的Master集群，通过分布式一致性哈希算法和参数备份实现Server节点的高可用，通过重新启动进行Agent节点的故障恢复。本发明专利技术能够提高分布式机器学习系统的高可用性，能够灵活高效地进行故障恢复。

A Fault Tolerant Method and System for High Availability Distributed Machine Learning Computing Framework

全部详细技术资料下载

【技术实现步骤摘要】
一种高可用分布式机器学习计算框架的容错方法和系统
本专利技术涉及分布式系统以及机器学习领域，具体为一种高可用分布式机器学习计算框架的容错方法和系统。
技术介绍
机器学习，尤其是深度学习已经在语音识别、图像识别和自然语言处理领域获得了巨大的成功。由于模型的训练过程中涉及到海量的训练数据，最终得到规模庞大的模型，因此机器学习平台通常都是分布式平台，部署数十个甚至上千个节点。随着机器规模的增大，在模型训练过程中难以避免机器故障问题，因此提供一个高可用的机器学习系统是工业生产中必须面对的问题，即提供一个容错性好的机器学习系统。其中，MXNet(https://github.com/apache/incubator-mxnet)和Tensorflow(https://github.com/tensorflow/tensorflow)是应用最为广泛的分布式机器学习系统。在容错方面，MXNet和Tensorflow系统均使用检查点机制保证基本的容错，即当发生机器故障的时候，系统回退到最新的检查点，然后继续进行模型训练。检查点技术的优势在于系统鲁棒性好，逻辑实现简单，但是该方法存在的明显缺点则是系统恢复时间长，当系统规模扩展到一定规模之后系统恢复的代价比较大。
技术实现思路
为了提高分布式机器学习系统的高可用性，降低故障恢复时间，本专利技术提供一种灵活高效的故障恢复方法，即针对不同类别的服务器节点提供不同的故障恢复策略。本专利技术采用的技术方案如下：一种高可用分布式机器学习计算框架的容错方法，包括以下步骤：建立分布式机器学习框架，包括至少两个Master节点、多个Server...

【技术保护点】
1.一种高可用分布式机器学习计算框架的容错方法，其特征在于，包括以下步骤：建立分布式机器学习框架，包括至少两个Master节点、多个Server节点、多个Agent节点，其中Agent节点只和Server节点、Master节点通信，Agent节点之间不通信；每个Server节点存储一部分参数，所有的Server节点的参数组成整体的参数；每个Agent节点存储一部分训练数据，计算本地的参数更新量；Master节点记录Server节点和Agent节点的信息以及和机器学习任务相关的信息；采用所述至少两个Master节点组成高可用的Master集群；采用分布式一致性哈希算法和参数备份的方式实现所述Server节点的高可用；采用重新启动的方式进行所述Agent节点的故障恢复。

【技术特征摘要】
1.一种高可用分布式机器学习计算框架的容错方法，其特征在于，包括以下步骤：建立分布式机器学习框架，包括至少两个Master节点、多个Server节点、多个Agent节点，其中Agent节点只和Server节点、Master节点通信，Agent节点之间不通信；每个Server节点存储一部分参数，所有的Server节点的参数组成整体的参数；每个Agent节点存储一部分训练数据，计算本地的参数更新量；Master节点记录Server节点和Agent节点的信息以及和机器学习任务相关的信息；采用所述至少两个Master节点组成高可用的Master集群；采用分布式一致性哈希算法和参数备份的方式实现所述Server节点的高可用；采用重新启动的方式进行所述Agent节点的故障恢复。2.根据权利要求1所述的方法，其特征在于，所述高可用的Master集群包含至少两个保持同步状态的Master节点，当其他节点和某个Master节点通信失败时，选择和另一个Master节点通信。3.根据权利要求1所述的方法，其特征在于，Master节点定期和Server节点以及Agent节点发送和接收心跳信息来检测故障并了解整个集群的状态信息以及任务的执行情况，如果某个Master节点出现故障，则Server节点和Agent节点切换到另一个Master节点上并发出警报，然后修复出现故障的Master节点。4.根据权利要求1所述的方法，其特征在于，采用Zookeeper开源软件搭建高可用的Master集群；Master节点与Zookeeper节点是分离的，Server节点和Agent节点只需要和Master节点进行系统控制信号的交互，由Master节点来完成和Zookeeper集群系统状态的同步。5.根据权利要求1所述的方法，其特征在于，所述采用分布式一致性哈希算法和参数备份的方式实现所述Server节点的高可用，包括：采用一致性哈希算法将Server节点映射到一个环上，每个节点都保存逆时针的前序Server节点的参数，从而达到每个参数保存两份的目的；Master节点通过接收Server节点的心跳信息来检测Server节点是否出现故障；如果某个Server节点出现故障，Master节点启动故障修复策略，发出参数同步的控制信号，将出现故障的Server节点所负责的参数调整到其它Server节点，然后把...

【专利技术属性】
技术研发人员：郑培凯，李真，张晨滨，宋煦，肖臻，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人