当前位置: 首页 > 专利查询>之江实验室专利>正文

一种分布式机器学习梯度汇聚方法、装置及模型训练方法制造方法及图纸

技术编号:34966861 阅读:22 留言:0更新日期:2022-09-17 12:47
本发明专利技术公开了一种分布式机器学习梯度汇聚方法、装置及模型训练方法,利用智能交换机进行计算节点梯度汇聚任务调度和模型训练。智能交换机不仅包含正常的网络交换功能,还能对梯度数据包进行解析,抽取包内数据并进行计算,并将结果重新组包发送给相关计算服务器,提供更为高效的数据交换服务。智能交换机将多台计算服务器连接起来组成训练网络,共同完成神经网络模型训练任务。本发明专利技术实现分布式机器学习训练,可优化梯度汇聚时间,减少梯度交换流量,加速大模型训练。加速大模型训练。加速大模型训练。

【技术实现步骤摘要】
一种分布式机器学习梯度汇聚方法、装置及模型训练方法


[0001]本专利技术属于机器学习领域,具体是一种分布式机器学习梯度汇聚方法、装置及模型训练方法。

技术介绍

[0002]神经网络训练经常采用随机梯度下降的方式进行,每当输入一个训练样本,进行一次前向传播,然后根据结果进行反向传播获得梯度,再根据梯度来更新模型的权值。通常为了加速训练,将一个大的数据集拆分成多份小样本的方式训练。当前深度神经网络模型正朝着更大规模模型结构、更大量的训练数据方向发展;例如视觉Transformer(ViT)模型的参数量有几十亿,GPT

3的参数量更是达到上千亿;所用的训练数据用了几千万至几十亿个训练图像。训练的时间单台服务器显然已经很难满足如此大规模的模型和数据,大型模型训练需要利用并行计算和分布式计算的技术来完成。同时由于训练数据和模型规模的进一步增长,训练过程中的网络带宽需求也十分巨大。如何寻找一种更优的分布式神经网络模型训练方法也是业界迫切需求。
[0003]为了解决这些技术问题,近年来陆续有人提出了多种分布式模型训练的方法,网络本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分布式机器学习梯度汇聚装置,包括智能交换机(100)和计算服务器,其特征在于:所述智能交换机(100)包括:输入模块(101),用于接收数据包;解析模块(102),用于对输入模块(101)接收的梯度数据包类型解析和提取;梯度汇聚计算模块(103),用于完成梯度汇聚计算;梯度调度器(106),包括梯度调度表(104)和数据块信息表(105),用于根据输入的梯度数据包信息执行调度策略,其中,梯度调度表(104),用于存放节点的调度策略表;数据块信息表(105),用于存放当前节点内数据块的信息;数据缓存器(107),用于缓存来自梯度汇聚计算模块(103)的梯度数据;输出模块(108),用于输出来自数据缓存器(107)的数据包;计时器(109),用于为梯度调度器(106)提供处理梯度数据包的时间。2.根据权利要求1所述的分布式机器学习梯度汇聚装置,其特征在:所述梯度调度表(104)的数据结构包括:模型ID值(301)、梯度汇聚子网络ID(302),梯度汇聚目的节点(303),梯度汇聚源节点集合(304)和梯度汇聚操作类型(305)。3.根据权利要求1所述的分布式机器学习梯度汇聚装置,其特征在:所述数据块信息表(105)存放的信息包括:数据块在数据缓存器(107)的具体地址、时间戳和计算节点统计信息。4.一种基于权利要求1

3之一所述的分布式机器学习梯度汇聚装置的梯度汇聚方法,包括如下步骤:计算服务器计算生成梯度数据,当梯度数据包输入智能交换机(100)后,解析模块(102)对数据包进行解析:若是来自计算服务器的梯度数据包,则梯度汇聚计算模块(103)进行梯度汇聚计算,并将汇聚结果存在数据缓存器(107),同时判断当前汇聚结果是否满足调度输出条件;若满足调度输出条件,则根据梯度调度表(104)中的调度策略表进行输出;若不满足调度输出条件,则继续缓存在数据缓存器(107)等待条件满足;若不是来自计算服务器的梯度数据包,则判断:若是来自相邻智能交换机的梯度数据包,则,根据梯度调度表(104)的调度策略表进行梯度汇聚计算和输出,并将结果发送给目的交换机或计算服务器;若是普通数据包,按普通路由规则输出。5.根据权利要求4所述的梯度汇聚方法,其特征在于:所述调度输出条件是所有计算服务器的第i个梯度数据包已经到达,或者所有计算服务器的第i个梯度数据包到达数量达到设定阈值,其中i是自然数。6.一种基于权利要求5所述的梯度汇聚方法的模型训练方法,包括如下步骤:步骤1.智能交换机收集计算服务器的信息作为调度的依据;步骤2.每个智能交换机对搜集到的信息汇总后,相互发送给其他智能交换机或提交给中心控制节点,作为后续优先级排序的依据;步骤3.中心控制节点或智能交换机内部协商确定梯度调度策略;步骤4.各计算服务器开始训练模型,将各自的计...

【专利技术属性】
技术研发人员:杨弢毛旷潘秋红汤昭荣王颖
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1