一种模型训练系统和方法技术方案

技术编号:37471874 阅读:12 留言:0更新日期:2023-05-06 09:53
本申请提供一种模型训练系统和方法,用于在大量处理器之间实现数据的高效传递。其中系统中包括:第一群组,第一群组中包括MEMS和S

【技术实现步骤摘要】
一种模型训练系统和方法
[0001]本申请要求在2021年10月28日提交中华人民共和国知识产权局、申请号为 202111265110.7、专利技术名称为“一种全光AI训练参数平面的构建方法”的中国专利申请的 优先权,其全部内容通过引用结合在本申请中。


[0002]本申请涉及人工智能领域,尤其涉及一种模型训练系统和方法。

技术介绍

[0003]人工智能(artificial intelligence,AI)模型训练指的是,给机器提供大量的训练数据, 以使得机器找到一个合适的神经网络架构,以及其中每个参数的赋值。从而机器可通过神 经网络较为准确地识别或区分对象。
[0004]为了更高效准确地进行AI模型训练,可将大量处理器组成模型训练的机器,其中处 理器比如是图形处理器(graphics processing unit,GPU)、中央处理器(central processing unit, CPU)、神经网络加速器(neural

network processing unit,NPU)。该大量处理器可分别输入 不同的训练数据,或还可以运行AI模型中的不同子模型。该大量处理器可在每次迭代之 后得到各自的中间数据,然后将各自中间数据进行传递,从而得到本轮迭代中所有中间数 据的聚合结果,随后各处理器可将聚合结果作为下一次迭代的输入。如此,经过多轮迭代 运算之后,机器就能习得更多关键的特征细节,从而显得更加智能。
[0005]随着神经网络规模和数据集规模急剧增长,处理器之间传递数据变得更加频繁。如此, 大量处理器之间如何实现数据的高效传递,成为目前亟需解决的问题。

技术实现思路

[0006]本申请提供一种模型训练系统和方法,用于在大量处理器之间实现数据的高效传递。
[0007]第一方面,本申请提供一种模型训练系统,包括:
[0008]第一群组,其中,第一群组由微机电系统(micro

electro

mechanical system,MEMS) 和S
×
C个处理器组成,S为第一群组中的节点个数,C为一个节点中处理器的个数,S、C 均为正整数;MEMS,用于在S个节点中的任两个节点之间构建光传输通道;S
×
C个处理 器,用于联合训练模型;在联合训练模型的一次迭代中,S
×
C个处理器中的至少两个处理 器通过光传输通道传输目标数据,其中接收目标数据的处理器用于根据目标数据调整该处 理器中的模型训练的参数。如此,通过MEMS实现S个节点中任两个节点的通信连接, 即任一个节点可通过该MEMS构建的光传输通道向另外一个节点发送数据,进一步的,S 个节点中一个处理器执行模型训练得到的数据可通过该MEMS构建的光传输通道被传输 至其他节点的处理器中,从而实现模型训练中数据的高效传递。
[0009]在一种可能的实现方式中,第一群组中包括第一节点和第二节点,第一节点中包括第 一处理器,第二节点中包括第二处理器;第一处理器,用于执行第一处理器中模型训
个WSS端口中,其中一个WSS端口是目标群组中MEMS对应的WSS端口,相应的,第 一处理器可以将第一目标数据依次经过WSS和MEMS对应的光传输通道发送至第二处理 器中;另一个WSS端口可以是目标群组中节点对应的WSS端口,相应的,第一处理器可 将第一目标数据直接经过WSS对应的光传输通道发送至第二处理器中,如此,可有助于 提高模型训练中数据传输的灵活性,以及减少不必要的带宽消耗。在这种情况中,若WSS 中可用波长总数有限,比如WSS中可用波长总数小于WSS的端口总数时,则可设置群组 总数W是WSS中可用波长总数的1/2。
[0016]在一种可能的实现方式中,S
×
C个处理器中任两个处理器中的训练数据和训练模型均 不同,S
×
C个处理器之间的聚合通信方式为alltoall;或,S
×
C个处理器中任两个处理器中 的训练数据不同,S
×
C个处理器之间的聚合通信方式为allreduce。
[0017]在一种可能的实现方式中,目标数据包括用于模型迭代的梯度、特征、模型参数中的 一个或多个,通过处理器之间交互多个维度的目标数据,有助于提高模型训练的效率,以 及提高训练出的模型的准确率。
[0018]第二方面,本申请提供一种模型训练方法,包括:
[0019]第一节点的第一处理器执行第一处理器中模型训练,得到第一目标数据;第一处理器 通过MEMS构建的光传输通道,向第二节点的第二处理器发送第一目标数据,其中,MEMS 位于第一节点与第二节点之间,第一目标数据用于第二处理器调整第二处理器中模型训练 的参数。
[0020]在一种可能的实现方式中,第一处理器通过MEMS构建的光传输通道,向第二节点的 第二处理器发送第一目标数据,包括:第一处理器通过MEMS构建的光传输通道,以及节 点内通道,向第二处理器发送第一目标数据;其中,节点内通道包括第一节点内、第一处 理器与MEMS之间的通道,和/或,第二节点内、第二处理器与MEMS之间的通道。
[0021]在一种可能的实现方式中,第一处理器通过MEMS构建的光传输通道,向第二节点的 第二处理器发送第一目标数据,包括:第一处理器依次通过WSS构建的光传输通道,以 及MEMS构建的光传输通道,向第二处理器发送第一目标数据;其中,第二节点和MEMS 属于同一个群组;WSS位于MEMS与第一节点之间。
[0022]在一种可能的实现方式中,WSS中包括载波的波长和群组的映射关系,其中一个映射 关系中、载波的波长是对应群组的预设波长;第一处理器依次通过WSS构建的光传输通 道,以及MEMS构建的光传输通道,向第二处理器发送第一目标数据,包括:第一处理器 将第一目标数据调制到载波中,载波的波长是第二节点所属群组对应的预设波长;第一处 理器将承载有第一目标数据的载波发送至WSS中,以使得WSS将承载有第一目标数据的 载波发送至MEMS中。
[0023]在一种可能的实现方式中,第一处理器执行第一处理器中模型训练,得到第一目标数 据,包括:第一处理器执行第一处理器中模型训练,得到第一处理器的中间数据;第一处 理器基于聚合通信方式和第一处理器的中间数据,确定第一目标数据,第一目标数据是第 一处理器的中间数据的全部或部分;其中,第一处理器和第二处理器中的训练数据和训练 模型均不同,聚合通信方式为alltoall;或,第一处理器和第二处理器中的训练数据不同, 聚合通信方式为allreduce。
[0024]在一种可能的实现方式中,第一处理器基于聚合通信方式和第一处理器的中间数
据, 确定第一目标数据,包括:第一处理器基于alltoall,以及alltoall对应的处理器总数,将第 一处理器的中间数据进行划分;其中,alltoall对应的处理器中包括第一处理器和第二处理 器;划分之后的数据份数等于处理器总数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练系统,其特征在于,包括:由微机电系统MEMS和S
×
C个处理器组成的第一群组,其中,S为所述第一群组中的节点个数,C为一个节点中处理器的个数,S、C均为正整数;所述MEMS,用于在S个节点中的任两个节点之间构建光传输通道;所述S
×
C个处理器,用于联合训练模型;其中,所述S
×
C个处理器中的至少两个处理器通过所述光传输通道传输目标数据,其中接收所述目标数据的处理器用于根据所述目标数据调整所述处理器中的模型训练的参数。2.如权利要求1所述的系统,其特征在于,所述第一群组中包括第一节点和第二节点,所述第一节点中包括第一处理器,所述第二节点中包括第二处理器;所述第一处理器,用于执行所述第一处理器中模型训练,得到所述第一处理器的中间数据,根据所述第一处理器的中间数据得到第一目标数据,所述第一目标数据是所述第一处理器的中间数据的全部或部分;所述第一处理器,还用于将所述第一目标数据通过第一MEMS构建的光传输通道,以及节点内通道,发送至所述第二处理器中;所述第二处理器,用于根据所述第一目标数据调整所述第二处理器中模型训练的参数;其中,所述第一MEMS位于所述第一节点与所述第二节点之间;所述节点内通道中包括所述第一节点内、所述第一处理器与所述第一MEMS之间的通道,和/或,所述第二节点内、所述第二处理器与所述第一MEMS之间的通道。3.如权利要求1所述的系统,其特征在于,还包括:波长选择开关WSS和(W

1)个扩展群组,W为大于或等于2的整数,所述第一群组和所述(W

1)个扩展群组组成W个群组;所述WSS与所述W个群组中每个群组连接。4.如权利要求3所述的系统,其特征在于,所述WSS包括W个第一WSS端口和W个第二WSS端口;所述W个第一WSS端口分别与W个节点端口连接,其中,所述W个节点端口分别属于所述W个群组中,所述W个节点端口在各自群组中的位置是相对应的;所述W个节点端口在各自群组中对应于各自的MEMS端口,所述W个节点端口对应的MEMS端口分别与所述W个第二WSS端口连接。5.如权利要求3或4所述的系统,其特征在于,所述第一群组中包括第一节点,所述第一节点中包括第一处理器;所述第一处理器,用于执行所述第一处理器的模型训练,得到所述第一处理器的中间数据,以及根据所述第一处理器的中间数据得到第一目标数据,所述第一目标数据是所述第一处理器的中间数据的全部或部分;所述第一处理器,还用于将所述第一目标数据依次通过所述WSS和第二MEMS分别构建的光传输通道,发送至第二处理器中;所述第二处理器,用于根据所述第一目标数据调整所述第二处理器中模型训练的参数;其中,所述第二处理器位于第二节点中,所述第二节点是所述第一群组中除所述第一
节点以外的其他节点,或者是所述(W

1)个扩展群组中任一个扩展群组中节点;所述WSS、所述第二MEMS依次位于所述第一节点与所述第二节点之间,所述第二MEMS与所述第二节点属于同一个群组。6.如权利要求5所述的系统,其特征在于,所述第一处理器,具体用于将所述第一目标数据调制到载波中,所述载波的波长是所述第二节点所属群组对应的预设波长;所述WSS,用于根据所述载波的波长与所述第二节点所属群组的映射关系,将所述承载有所述第一目标数据的载波,发送至所述第二MEMS中。7.如权利要求3至6中任一项所述的系统,其特征在于,当所述W个群组中每个群组对应于2个预设波长时,所述W等于所述WSS中可用波长总数的1/2。8.如权利要求1至7中任一项所述的系统,其特征在于,所述S
×
C个处理器中任两个处理器中的训练数据和训练模型均不同,所述S
×
C个处理器之间的聚合通信方式为alltoall;或,所述S
×
C个处理器中任两个处理器中的训练数据不同,所述S
×
C个处理器之间的聚合通信方式为allreduce。9.如权利要求1至8中任一项所述的系统,其特征在于,目标数据包括用于模型迭代的梯度、特征、模型参数中的一个或多个。10.一种模型训练方法,其特征在于,包括:第一节点的第一处理器执行所述第一处理器中模型训练,得到第一目标数据;所述第一处理器通过微机电系统MEMS构建的光传输通道,向第二节点的第二处理器发送所述第一目标数据,其中,所述MEMS位于所述第一节点与所述第二节点之间,所述第一目标数据用于所述第二处理器调整所述第二处理器中模型训练的参数。11.如权利要求10所述的方法,其特征在于,所述第一处理器通过MEMS构建的光传输通道,向第二节点的第二处理器发送所述第一目标数据,包括:所述第一处理器通过所述MEMS构建的光传输通道,以及节点内通道,向所述第二处理器发送所述第一目标数据;其中,所述节点内通道包括所述第一节点内、所述第一处理器与所述MEMS之间的通道,和/或,所述第二节点内、所述第二处理器与所述MEMS之间的通道。12.如权利要求10或11所述的方法,其特征在于,所述第一处理器通过MEMS构建的光传输通道,向第二节点的第二处理器发送所述第一目标数据,包括:所述第一处理器依次通过波长选择开关WSS构建的光传输通道,以及所述MEMS构建的光传输通道,向所述第二处理器发送所述第一目标数据;其中,所述第二节点和所述MEMS属于同一个群组;所述WSS位于所述MEMS与所述第一节点之间。13.如权利要求12所述的方法,其特征在于,所述WSS中包括载波的波长和群组的映射关系,其中一个映射关系中、载波的波长是对应群组的预设波长;所述第一处理器依次通过WSS构建的光传输通道,以及所述MEMS构建的光传输通道,向所述第二处理器发送所述第一目标数据,包括:所述第一处理器将所述第一目标数据调制到载波中,所述载波的波长是所述第二节点所属群...

【专利技术属性】
技术研发人员:沈胜宇常泽山王景燕米光灿刘欣端启航凌文凯林伟彬
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1