【技术实现步骤摘要】
一种模型训练系统和方法
[0001]本申请要求在2021年10月28日提交中华人民共和国知识产权局、申请号为 202111265110.7、专利技术名称为“一种全光AI训练参数平面的构建方法”的中国专利申请的 优先权,其全部内容通过引用结合在本申请中。
[0002]本申请涉及人工智能领域,尤其涉及一种模型训练系统和方法。
技术介绍
[0003]人工智能(artificial intelligence,AI)模型训练指的是,给机器提供大量的训练数据, 以使得机器找到一个合适的神经网络架构,以及其中每个参数的赋值。从而机器可通过神 经网络较为准确地识别或区分对象。
[0004]为了更高效准确地进行AI模型训练,可将大量处理器组成模型训练的机器,其中处 理器比如是图形处理器(graphics processing unit,GPU)、中央处理器(central processing unit, CPU)、神经网络加速器(neural
‑
network processing unit,NPU)。该大量处理器可分别输入 不同的训练数据,或还可以运行AI模型中的不同子模型。该大量处理器可在每次迭代之 后得到各自的中间数据,然后将各自中间数据进行传递,从而得到本轮迭代中所有中间数 据的聚合结果,随后各处理器可将聚合结果作为下一次迭代的输入。如此,经过多轮迭代 运算之后,机器就能习得更多关键的特征细节,从而显得更加智能。
[0005]随着神经网络规模和数据集规模急剧增长,处理器之间传递数据变 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练系统,其特征在于,包括:由微机电系统MEMS和S
×
C个处理器组成的第一群组,其中,S为所述第一群组中的节点个数,C为一个节点中处理器的个数,S、C均为正整数;所述MEMS,用于在S个节点中的任两个节点之间构建光传输通道;所述S
×
C个处理器,用于联合训练模型;其中,所述S
×
C个处理器中的至少两个处理器通过所述光传输通道传输目标数据,其中接收所述目标数据的处理器用于根据所述目标数据调整所述处理器中的模型训练的参数。2.如权利要求1所述的系统,其特征在于,所述第一群组中包括第一节点和第二节点,所述第一节点中包括第一处理器,所述第二节点中包括第二处理器;所述第一处理器,用于执行所述第一处理器中模型训练,得到所述第一处理器的中间数据,根据所述第一处理器的中间数据得到第一目标数据,所述第一目标数据是所述第一处理器的中间数据的全部或部分;所述第一处理器,还用于将所述第一目标数据通过第一MEMS构建的光传输通道,以及节点内通道,发送至所述第二处理器中;所述第二处理器,用于根据所述第一目标数据调整所述第二处理器中模型训练的参数;其中,所述第一MEMS位于所述第一节点与所述第二节点之间;所述节点内通道中包括所述第一节点内、所述第一处理器与所述第一MEMS之间的通道,和/或,所述第二节点内、所述第二处理器与所述第一MEMS之间的通道。3.如权利要求1所述的系统,其特征在于,还包括:波长选择开关WSS和(W
‑
1)个扩展群组,W为大于或等于2的整数,所述第一群组和所述(W
‑
1)个扩展群组组成W个群组;所述WSS与所述W个群组中每个群组连接。4.如权利要求3所述的系统,其特征在于,所述WSS包括W个第一WSS端口和W个第二WSS端口;所述W个第一WSS端口分别与W个节点端口连接,其中,所述W个节点端口分别属于所述W个群组中,所述W个节点端口在各自群组中的位置是相对应的;所述W个节点端口在各自群组中对应于各自的MEMS端口,所述W个节点端口对应的MEMS端口分别与所述W个第二WSS端口连接。5.如权利要求3或4所述的系统,其特征在于,所述第一群组中包括第一节点,所述第一节点中包括第一处理器;所述第一处理器,用于执行所述第一处理器的模型训练,得到所述第一处理器的中间数据,以及根据所述第一处理器的中间数据得到第一目标数据,所述第一目标数据是所述第一处理器的中间数据的全部或部分;所述第一处理器,还用于将所述第一目标数据依次通过所述WSS和第二MEMS分别构建的光传输通道,发送至第二处理器中;所述第二处理器,用于根据所述第一目标数据调整所述第二处理器中模型训练的参数;其中,所述第二处理器位于第二节点中,所述第二节点是所述第一群组中除所述第一
节点以外的其他节点,或者是所述(W
‑
1)个扩展群组中任一个扩展群组中节点;所述WSS、所述第二MEMS依次位于所述第一节点与所述第二节点之间,所述第二MEMS与所述第二节点属于同一个群组。6.如权利要求5所述的系统,其特征在于,所述第一处理器,具体用于将所述第一目标数据调制到载波中,所述载波的波长是所述第二节点所属群组对应的预设波长;所述WSS,用于根据所述载波的波长与所述第二节点所属群组的映射关系,将所述承载有所述第一目标数据的载波,发送至所述第二MEMS中。7.如权利要求3至6中任一项所述的系统,其特征在于,当所述W个群组中每个群组对应于2个预设波长时,所述W等于所述WSS中可用波长总数的1/2。8.如权利要求1至7中任一项所述的系统,其特征在于,所述S
×
C个处理器中任两个处理器中的训练数据和训练模型均不同,所述S
×
C个处理器之间的聚合通信方式为alltoall;或,所述S
×
C个处理器中任两个处理器中的训练数据不同,所述S
×
C个处理器之间的聚合通信方式为allreduce。9.如权利要求1至8中任一项所述的系统,其特征在于,目标数据包括用于模型迭代的梯度、特征、模型参数中的一个或多个。10.一种模型训练方法,其特征在于,包括:第一节点的第一处理器执行所述第一处理器中模型训练,得到第一目标数据;所述第一处理器通过微机电系统MEMS构建的光传输通道,向第二节点的第二处理器发送所述第一目标数据,其中,所述MEMS位于所述第一节点与所述第二节点之间,所述第一目标数据用于所述第二处理器调整所述第二处理器中模型训练的参数。11.如权利要求10所述的方法,其特征在于,所述第一处理器通过MEMS构建的光传输通道,向第二节点的第二处理器发送所述第一目标数据,包括:所述第一处理器通过所述MEMS构建的光传输通道,以及节点内通道,向所述第二处理器发送所述第一目标数据;其中,所述节点内通道包括所述第一节点内、所述第一处理器与所述MEMS之间的通道,和/或,所述第二节点内、所述第二处理器与所述MEMS之间的通道。12.如权利要求10或11所述的方法,其特征在于,所述第一处理器通过MEMS构建的光传输通道,向第二节点的第二处理器发送所述第一目标数据,包括:所述第一处理器依次通过波长选择开关WSS构建的光传输通道,以及所述MEMS构建的光传输通道,向所述第二处理器发送所述第一目标数据;其中,所述第二节点和所述MEMS属于同一个群组;所述WSS位于所述MEMS与所述第一节点之间。13.如权利要求12所述的方法,其特征在于,所述WSS中包括载波的波长和群组的映射关系,其中一个映射关系中、载波的波长是对应群组的预设波长;所述第一处理器依次通过WSS构建的光传输通道,以及所述MEMS构建的光传输通道,向所述第二处理器发送所述第一目标数据,包括:所述第一处理器将所述第一目标数据调制到载波中,所述载波的波长是所述第二节点所属群...
【专利技术属性】
技术研发人员:沈胜宇,常泽山,王景燕,米光灿,刘欣,端启航,凌文凯,林伟彬,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。