当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于P4的地理分布式机器学习的分级聚合方法技术

技术编号:37073904 阅读:42 留言:0更新日期:2023-03-29 19:50
本发明专利技术公开了一种基于P4的地理分布式机器学习的分级聚合方法,属于地理分布式机器学习通信技术领域,包括训练中心发送阶段、交换机广播阶段,及训练中心接收处理阶段;本发明专利技术使用多个可编程交换机相互协作的思想,以降低通信成本,进一步提高通信效率;设计了参数数据包格式并对浮点型梯度参数进行处理,保证其整型化不会对学习效率产生影响,引入了聚合池的概念,对交换机内在网聚合的空间做了规划;本发明专利技术解决了有限的片上存储能力和庞大数据处理量导致的收发包和数据处理效率低的问题。处理量导致的收发包和数据处理效率低的问题。处理量导致的收发包和数据处理效率低的问题。

【技术实现步骤摘要】
一种基于P4的地理分布式机器学习的分级聚合方法


[0001]本专利技术属于地理分布式机器学习通信
,尤其涉及一种基于P4的地理分布式机器学习的分级聚合方法。

技术介绍

[0002]随着大数据时代的不断发展,机器学习研究枝繁叶茂,训练数据和学习模型规模都与日俱增,利用机器学习的业务要求也越来越高,单机机器学习和单训练中心的训练已不适应所有场景,分布式机器学习(Distributed Machine Learning,DML)应运而生。大规模的学习训练集群动辄使用数百个节点进行工作,分布式机器学习逐渐成为相关从业者的主流选择,其中地理分布机器学习(Geographic Distributed Machine Learning,GDML)近年来已成为人工智能的前沿,其优点是当数据集太大或模型太复杂时,可以通过数据划分或模型划分进行灵活高效的训练。大规模AI集群有数百个节点,每个节点包含多个硬件加速器如GPU或TPU,需要花费数小时或数天的时间进行训练工作。
[0003]目前,如何降低通信开销成为了加速分布式机器学习训练的热点课题并被广泛本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于P4的地理分布式机器学习的分级聚合方法,其特征在于,包括训练中心发送阶段、交换机广播阶段,及训练中心接收处理阶段;所述训练中心发送阶段包括如下步骤:A1、获取由训练数据批切分得到的若干个不同的批样本集Batch,并将各批样本集Batch一一对应分配至各训练中心worker;A2、根据各训练中心worker对应的批样本集Batch,得到模型参数的梯度参数,并将梯度参数由浮点型转换为整数型,得到整数型梯度参数;A3、利用各训练中心worker将整数型梯度参数组包,得到若干梯度参数包,并将所有梯度参数包均分别发送至对应的交换机;所述交换机广播阶段包括如下步骤:B1、利用交换机接收并解析各梯度参数包,得到若干整数型梯度参数;B2、将各整数型梯度参数分别存放至对应分区slot,并对各梯度参数包进行标志位聚合操作;B3、针对最后一个梯度参数包接收完成,且对应标志位聚合操作完成时,将处理后的整数型梯度参数写入对应的上行待处理数据包中,并将上行待处理数据包发送至下一级交换机;B4、重复步骤B1至B3,直至最高级交换机完成对应标志位聚合操作时,将处理后的整数型梯度参数写入对应的下行回传数据包中,并利用该下行回传数据包进行广播;B5、逐级利用次级交换机接收广播的下行回传数据包,并逐级向该级交换机的次级交换机广播下行回传数据包,直至广播至对应的训练中心worker;所述训练中心接收处理阶段包括如下步骤:C1、利用训练中心worker解析下行回传数据包,得到处理后的整数型梯度参数;C2、将处理后的整数型梯度参数转换为浮点型梯度参数;C3、基于浮点型梯度参数进行下一轮训练,直至所有训练结束,完成基于P4的地理分布式机器学习的分级聚合。2.根据权利要求1所述的基于P4的地理分布式机器学习的分级聚合方法,其特征在于,所述步骤A2中整数型梯度参数的计算表达式如下:其中,l表示整数型梯度参数,f表示浮点型梯度参数,(int)表示整数型处理。3.根据权利要求1所述的基于P4的地理分布式机器学习的分级聚合方法,其特征在于,所述步骤A3包括如下步骤:A31、获取训练中心worker对应的各交换机片上储存的分区slot,并统计得到分区slot个数为k,各训练中心worker发送的梯度参数个数为n,且设各训练中心worker发送的最后的梯度参数包序号为i,其中,各分区slot均存储对应的分区序号、分区内暂存数据vector和分区内暂存数据vector的索引位置IDX_LOC;A32、初始化i为0,并将第0到k

1个整数型梯度参数分别组包,得到若干梯度参数包,并将各梯度参数包发送至对应的交换机;
A33、清除发送队列中已发出的梯度参数包,并保留已发出的梯度参数包对应的分区索引IDX_SLOT;A34、判断发送队列是否已满,若是则进入步骤A36,否则进入步骤A35;A35、利用保留的已发出的梯度参数包对应的分区索引IDX_SLOT与后续待发送的梯度参数进行组包,并返回步骤A34;A36、判断数据中心worker是否收到发送队列中的包对应的回传标志位空包ACK,若是则进入步骤A38,否则进入步骤A37;A37、保持等待,直到接收到发送队列中的包对应的回传标志位空包ACK,并返回步骤A36;A38、将组包好的第i+1个梯度参数包作为第i个梯度参数包,并将其发送至对应的交换机,直至n个梯度参数包均完成发送。4.根据权利要求1所述的基于P4的地理分布式机器学习的分级聚合方法,其特征在于,所述交换机广播阶段的交换机的处理机制包括如下步骤:S1、利用交换机接收并解析数据包,并获取...

【专利技术属性】
技术研发人员:罗成斌章小宁夏子翔朱凯男
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1