一种基于RDMA网络的分布式训练系统及高效训练方法技术方案

技术编号：27305706 阅读：19 留言：0更新日期：2021-02-10 09:17

本发明专利技术提供一种基于RDMA网络的分布式训练系统及高效训练方法，通过在分布式训练任务被调度到具有RDMA网络的训练集群后重置其在训练过程中的网络环境，并重置完成后的分布式训练过程中使用重置后的RDMA网络进行通信，突破训练数据通信瓶颈，进而解决现有技术部署分布式训练任务时存在的无法利用高效通信网络的问题，大大提高分布式训练效率。大大提高分布式训练效率。大大提高分布式训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于RDMA网络的分布式训练系统及高效训练方法

[0001]本专利技术涉及分布式机器学习领域；具体地，涉及一种基于RDMA网络的分布式训练系统及高效训练方法。

技术介绍

[0002]机器学习，特别是深度学习，在人工智能驱动服务中获得了广泛的成功。随着模型越来越复杂，其训练的计算成本越来越高。若要实现高效及时的训练，则需发掘分布式系统并行计算的优势。业内领军企业如微软、Facebook和Google等已经开始尝试在成百上千的服务器组成的生产集群上运行分布式机器学习训练任务。
[0003]然而，一个具备实用意义的用于分布式训练的物理集群，其从构建部署到运行维护，都是极为专业且复杂甚至是繁琐的工作。将容器云技术应用到分布式机器学习领域，无疑可大大简化其构建部署运维工作的难度。
[0004]容器云技术不仅能够实现容器集群的快速部署，同时它也是一种轻量化的解决方案，且能够有效整合和管理着裸机资源。以Kubernetes平台运行分布式机器学习训练任务为例，Kubernetes不仅为打包应用提供一致的方法，保证应用在不同设备上运行的一致性，为应用的运行环境提供资源隔离，同时其对硬件底层的复杂性和节点管理进行了抽象，并且支持GPU的调度。
[0005]但是，无论是以若干主机服务器搭建的用于训练的物理集群，还是在容器云平台部署的训练集群，计算节点间的数据传输通常是以基于TCP/IP协议(也是目前广域网和局域网通用的网络协议)网络通信实现的。上述网络通信过程需要操作系统和协议栈的介入，但随着训练集越来越大，在

【技术保护点】

【技术特征摘要】
1.一种基于RDMA网络的分布式训练系统，其特征在于，包括：网络环境重置单元和分布式训练执行单元；其中，网络环境重置单元，用于在分布式训练启动后，在各子任务应用程序执行训练前，重置分布式训练任务在训练过程中的网络环境：即获取训练集群的RDMA网络信息，并根据其更新分布式训练任务的环境配置参数；分布式训练执行单元，用于在重置完成后执行分布式训练，并在训练过程中根据更新的环境配置参数使用RDMA网络进行数据通信。2.根据权利要求1所述的一种基于RDMA网络的分布式训练系统，其特征在于，所述的网络环境重置单元，获取RDMA网络IP分配表，并根据其获取训练集群的RDMA网络信息；所述的RDMA网络IP分配表是分配RDMA网络IP时记录生成的。3.根据权利要求1所述的一种基于RDMA网络的分布式训练系统，其特征在于，所述的网络环境重置单元获取训练集群的RDMA网络信息：根据环境配置参数中的任务ID或依靠ZooKeeper从各计算节点中确定一主节点来汇集训练集群的RDMA网络IP。4.根据权利要求1所述的一种基于RDMA网络的分布式训练系统，其特征在于，所述集群的计算节点，还包括参数服务器节点，用于负责维护全局共享的参数。5.根据权利要求1所述的一种基于RDMA网络的分布式训练系统，其特征在于，所述分布式训练任务在容器云平台部署时，所述...

【专利技术属性】
技术研发人员：张曼妮，张翔宇，郭昊，孙军欢，赵来松，
申请(专利权)人：深圳致星科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人