AI训练网络及方法技术

技术编号:26611247 阅读:105 留言:0更新日期:2020-12-04 21:37
一种人工智能训练技术,应用于人工智能AI训练网络,在位于不同服务器的图形处理单元需要通信之前,提前开始建立通信用的光通道,一旦前一个服务器的图形处理单元完成自身的计算后,无需等待或者仅等待少量时间即可立刻把计算结果发送给下一个服务器的图形处理单元,从而节约了AI训练的时间消耗。

【技术实现步骤摘要】
【国外来华专利技术】AI训练网络及方法
本申请涉及人工智能领域,尤其涉及一种AI训练网络及方法。
技术介绍
在人工智能领域的AI训练中,使用大量加速器(加速器例如可以是GPU、CPU,可以提供算力)进行计算,计算一个神经网络的最优结构参数,使得该网络能完成特定的工作。所谓“AI训练”,就是给机器“喂”大量的数据,让它慢慢学会识别和区分对象。例如ImageNet1K分类是一种常见的场景,在该场景中可以给定128万张图片,其中包含1000个不同的对象。同时每张照片已经给出了正确的label,即给出了该图片中的对象类别。则AI训练的任务在于找到一个合适的神经网络架构(如Alexnet)和其中每个参数的赋值,使得该网络能够尽可能正确的识别图片中的对象。在具体实现中,多个加速器使用训练算法进行分别进行计算,并把各自的学习结果合并在一起,并在此分发给每个加速器,然后进入下一次迭代。如此经过多轮迭代运算后,机器就能习得更多的关键细节,从而显得更加智能。相较于中央处理器(CPU)而言,图形处理单元(graphicsprocessingunit,GPU)更适合这类迭代运算,因此GPU更普遍的应用于AI训练。随着应用场景需求的提升,神经网络规模和数据集规模急剧增长,例如NvidiaDGX-2和googleTPU这样的大规模加速器服务器集群应运而生,以便提高更强的算力。随着高算力加速器集群的规模越来越大,在GPU芯片之间传递数据变得更加频繁,这导致了GPU芯片之间传递数据的快慢对整个训练过程的耗时所造成的影响越来越明显。因此,如何降低建立光通道GPU芯片之间传递数据所耗费的时间,是目前亟需解决的问题。
技术实现思路
第一方面,提供一种AI训练方法,应用于人工智能AI训练网络,所述AI训练网络包括第一服务器、第二服务器和光交叉连接OXC连接,其中所述第一服务器包括第一图形处理单元,所述第二服务器包括第二图形处理单元,所述第一服务器和所述第二服务器分别与所述光交叉连接OXC连接,所述方法包括:第一图形处理单元按照第一数据流图对第一数据集进行AI训练计算;在所述第一图像处理单元完成对第一数据集的AI训练计算之前,触发所述光交叉连接OXC开始进行通道切换,通道切换完成后,所述第一图形处理单元与第二图形处理单元之间的光通道建立成功;所述第一图形单元完成计算后,通过已建立完成的所述光通道发送计算结果给所述第二图形单元;所述第二图形单元使用第二数据流图对所述计算结果进行AI训练计算。由于现有技术中占有在应用该方法,第一图形处理单元完成自身的计算之后(也就是在有数据需要传输之后)才开始启动通道的建立,因此不得不等待整个通道的建立时间。而在本实施例中,在有数据需要传输之前即开始了通道的建立,一旦位于第一服务器的第一图形处理单元完成自身的计算后,即可立刻把计算结果发送给下一个服务器的图形处理单元。无需等待同道的建立或者仅等待少量时间来等待通道的建立,从而节约了AI训练的时间消耗。第一方面的第一种可能实现方式中,所述AI训练网络还包括主服务器。其中,所述OXC进行通道切换具体包括:所述OXC接收主服务器的通道建立指令,所述通道建立指令中想携带调整参数;所述OXC按照所述调整参数对光通道进行切换。该方案提供了一种调整OXC的具体解决方案。基于第一方面的第一种可能实现方式中,可选的,所述主服务器周期性发送所述通道建立指令给所述OXC。例如,主服务器根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期,以及所述OXC的通道切换时间,获得所述通道建立指令的发送周期。该方案提供了一种根据两个图形处理单元之间发送数据的规律性,周期性指令OXC进行通道切换的方案。第一方面的第二种可能实现方式中,OXC是微机电系统MEMS或者是硅光SiP。第二方面,提供一种AI训练网络,对应于上面的AI训练方法,并具有相应的有益效果。第三方面,提供一种光交叉连接管理方法,光交叉连接OXC分别连接AI训练网络中的第一服务器和AI训练网络中的第二服务器,其中所述第一服务器包括第一图形处理单元,所述第二服务器包括第二图形处理单元,包括:根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期,以及所述OXC的通道切换时间,获得通道建立指令的发送周期;按照所述发送周期,周期性的发送通道切换指令给所述OXC,指示所述OXC进行建立所述第一图像处理单元和所述第二图像处理单元之间的通道。该方案介绍了如何周期性的建立光交叉OXC中的光通道,以便及时的转发第一图形处理单元需要发送给第二图像处理单元的数据。位于第一服务器的第一图形处理单元完成自身的计算后,无需等待或者仅等待少量时间通道即可立刻把计算结果发送给下一个服务器的图形处理单元,从而节约了AI训练的时间消耗。第三方面的第一种可能实现方式中,所述OXC进行通道切换具体包括:所述OXC接收主服务器的通道建立指令,所述通道建立指令中想携带调整参数;所述OXC按照所述调整参数对光通道进行调整。可选的,基于第三方面的第一种可能实现方式:所述主服务器周期性发送所述通道建立指令给所述OXC。此外,在第一图形处理单元按照第一数据流图对第一数据集进行AI训练计算之前,还可以包括:根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期,以及所述OXC的通道切换时间,获得所述通道建立指令的发送周期。第三方面的第二种可能实现方式中,在第一图形单元完成计算之前,所述通道切换完成。第三方面的第三种可能实现方式中,微机电系统MEMS和硅光SiP中的一种。第四方面,提供一种光交叉连接管理服务器,例如前述的主服务器,可以执行光交叉连接管理方法,并具有相应的技术效果。第五方面,提供一种计算机读介质,所述计算机可读存储介质存储指令,当计算的处理器执行所述指令用于执行上述第一方面或者第一方面的任意一种可能实现方式。第六方面,提供一种计算机程序产品,所述计算机品包含指令,当计算的处理器执行所述指令用于执行上述第一方面或者第一方面的任意一种可能实现方式。附图说明图1提供了一种AI训练网络实施例的架构图;图2提供了一种图像处理单元之间数据流量测量图;图3提供了一种AI训练实施例流程图;图4提供了微机电系统中进行切换光通道的实施例示意图。具体实施方式人工智能(artificialintelligence,AI)训练网络由多台服务器组成服务器阵列,通过运行AI程序执行AI训练。图1提供了一种AI训练网络的架构,如图所示,阵列包括服务器11、服务器12、服务器13和服务器14,所述阵列还包括光交叉连接15、光交叉连接16和光交叉连接17。本专利技术实施例中的服务器可以是专用服务器、通用服务器、工作站、笔记本电脑等具有运算能力的设备。服务器之间可以通过数据交换网络18通信,数据交换网络18例如是以太网或者光纤通道(fibrechannel,FC)。在这些通过数据交换网络互连的服务器中,可以由图中的某一个服务器作为主服务器,而余本文档来自技高网
...

【技术保护点】
一种AI训练方法,应用于人工智能AI训练网络,所述AI训练网络包括第一服务器、第二服务器和光交叉连接OXC连接,其中所述第一服务器包括第一图形处理单元,所述第二服务器包括第二图形处理单元,所述第一服务器和所述第二服务器分别与所述光交叉连接OXC连接,所述方法包括:/n第一图形处理单元按照第一数据流图对第一数据集进行AI训练计算;在所述第一图形单元完成对所述第一数据集的AI训练计算之前,触发所述OXC开始进行通道切换,通道切换完成后,所述第一图形处理单元与第二图形处理单元之间的光通道建立成功;/n所述第一图形单元完成计算后,通过已建立完成的所述光通道发送计算结果给所述第二图形单元;/n所述第二图形单元使用第二数据流图对所述计算结果进行AI训练计算。/n

【技术特征摘要】
【国外来华专利技术】20190403 CN PCT/CN2019/081161一种AI训练方法,应用于人工智能AI训练网络,所述AI训练网络包括第一服务器、第二服务器和光交叉连接OXC连接,其中所述第一服务器包括第一图形处理单元,所述第二服务器包括第二图形处理单元,所述第一服务器和所述第二服务器分别与所述光交叉连接OXC连接,所述方法包括:
第一图形处理单元按照第一数据流图对第一数据集进行AI训练计算;在所述第一图形单元完成对所述第一数据集的AI训练计算之前,触发所述OXC开始进行通道切换,通道切换完成后,所述第一图形处理单元与第二图形处理单元之间的光通道建立成功;
所述第一图形单元完成计算后,通过已建立完成的所述光通道发送计算结果给所述第二图形单元;
所述第二图形单元使用第二数据流图对所述计算结果进行AI训练计算。


根据权利要求1所述的AI训练方法,其中,所述AI训练网络还包括主服务器,所述OXC进行通道切换具体包括:
所述OXC接收主服务器的通道建立指令,所述通道建立指令中携带调整参数;
所述OXC按照所述调整参数对光通道进行切换。


根据权利要求2所述的AI训练方法,其中,所述方法还包括:
所述主服务器周期性发送所述通道建立指令给所述OXC。


根据权利要求4所述的AI训练方法,其中,所述方法还包括:在第一图形处理单元按照第一数据流图对所述第一数据集进行AI训练计算之前,还包括:
根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期,以及所述OXC的通道切换时间,获得所述通道建立指令的发送周期。


根据权利要求4所述的AI训练方法,其中,所述时间周期的获取方法包括:
获取所述第一图形处理单元与所述第二图形处理单元之间已经过的发送报文的时间和报文大小,通过使用神经网络计算估计出所述时间周期。


根据权利要求1-5任一项所述的AI训练方法,其中,所述述通道切换完成的时间是:
在第一图形单元完成计算之前。


根据权利要求1-6任一项所述的AI训练方法,其中,所述OXC是:
微机电系统MEMS和硅光SiP中的一种。


根据权利要求1所述的AI训练方法,其中,在所述第一图形单元完成对所述第一数据集的AI训练计算之前,触发所述OXC开始进行通道切换,具体包括:
在所述第一图形处理单元按照所述第一数据流图对所述第一数据集进行AI训练计算时,预测所述第一图形单元通过所述光通道发送计算结果给所述第二图形单元的发送时间;
预测完成后,指令所述OXC进行通道切换。


一种AI训练网络,所述AI训练网络包括第一服务器、第二服务器和光交叉连接OXC连接,其中所述第一服务器包括第一图形处理单元,所述第二服务器包括第二图形处理单元,所述第一服务器和所述第二服务器分别与所述光交叉连接OXC连接,其中:
所述第一图形处理单元用于:按照第一数据流图对第一数据集进行AI训练计算,以及通过已建立完成的所述光通道发送计算结果给所述第二图形单元;
所述光交叉连接OXC用于:在所述第一图像处理单元完成对第一数据集的AI训练计算之前,开始进行通道切换,其中,通道切换完成后,所述第一图形处理单元与第二图形处理单元之间的光通道建立成功;
所述第二图形...

【专利技术属性】
技术研发人员:沈胜宇吴聿旻
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1