一种自适应RDMA网络的分布式机器学习系统及方法技术方案

技术编号：27305710 阅读：34 留言：0更新日期：2021-02-10 09:17

本发明专利技术提供一种的自适应RDMA网络的分布式机器学习系统及方法，在分布式训练任务被调度到训练集群后，通过检测训练集群网络环境以及根据检测自适应地选择训练集群网络用于分布式训练任务通信，尽可能为分布式任务选择其在训练过程中最优的网络环境，以使之分布式训练过程中充分使用高效的RDMA网络进行通信，以克服现有技术部署分布式训练任务存在的通信瓶颈问题，进而提高分布式训练效率。进而提高分布式训练效率。进而提高分布式训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种自适应RDMA网络的分布式机器学习系统及方法

[0001]本专利技术涉及分布式机器学习领域；具体地，涉及一种自适应RDMA网络的分布式机器学习系统及方法。

技术介绍

[0002]机器学习，特别是深度学习，在人工智能驱动服务中获得了广泛的成功。随着模型越来越复杂，其训练的计算成本越来越高。若要实现高效及时的训练，则需发掘分布式系统并行计算的优势。业内领军企业如微软、Facebook和Google等已经开始尝试在成百上千的服务器组成的生产集群上运行分布式机器学习训练任务。
[0003]然而，一个具备实用意义的用于分布式训练的物理集群，其从构建部署到运行维护，都是极为专业且复杂甚至是繁琐的工作。将容器云技术应用到分布式机器学习领域，无疑可大大简化其构建部署运维工作的难度。
[0004]容器云技术不仅能够实现容器集群的快速部署，同时它也是一种轻量化的解决方案，且能够有效整合和管理着裸机资源。以Kubernetes平台运行分布式机器学习训练任务为例，Kubernetes不仅为打包应用提供一致的方法，保证应用在不同设备上运行的一致性，为应用的运行环境提供资源隔离，同时其对硬件底层的复杂性和节点管理进行了抽象，并且支持GPU的调度。
[0005]但是，无论是以若干主机服务器搭建的用于训练的物理集群，还是在容器云平台部署的训练集群，计算节点间的数据传输通常是以基于TCP/IP协议(也是目前广域网和局域网通用的网络协议)网络通信实现的。上述网络通信过程需要操作系统和协议栈的介入，但随着训练集越来越大，在参数...

【技术保护点】

【技术特征摘要】
1.一种自适应RDMA网络的分布式机器学习系统，其特征在于，包括：网络环境自适应单元和分布式训练执行单元；其中，网络环境自适应单元，用于检测训练集群网络环境以及根据检测自适应地选择训练集群网络用于分布式训练任务通信；分布式训练执行单元，则用于在所述网络环境自适应单元为分布式训练任务确定网络环境后在确定的网络环境下执行分布式训练任务。2.根据权利要求1所述的一种自适应RDMA网络的分布式机器学习系统，其特征在于，所述网络环境自适应单元，包括网络检测模块和网络环境重置模块；网络检测模块用于检测训练集群是否存在RDMA网络，即检测训练集群各计算节点是否接入RDMA网络信息；若训练集群存在RDMA网络，网络环境自适应单元则通过网络环境重置模块为分布式训练任务选择RDMA网络；若训练集群不存在RDMA网络，网络环境自适应单元则不改变分布式训练任务的网络环境。3.根据权利要求2所述的一种自适应RDMA网络的分布式机器学习系统，其特征在于，所述网络环境重置模块根据其更新分布式训练任务的环境配置参数，即训练集群RDMA网络信息替换分布式训练任务环境配置参数中的默认网络连接参数，实现网络的重置选择。4.根据权利要求1所述的一种自适应RDMA网络的分布式机器学习系统，其特征在于，所述集群的计算节点，还包括参数服务器节点，用于负责维护全局共享的参数。5.根据权利要求1所述的一种自适应RDMA网络的分布式机器学习系统，其特征在于，所述分布式训练任务在容器云平台部署时，所述集群的计算节点为容器/容器组。6.一种自适应RDMA网...

【专利技术属性】
技术研发人员：郭昊，张曼妮，张翔宇，孙军欢，赵来松，
申请(专利权)人：深圳致星科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人