【技术实现步骤摘要】
【国外来华专利技术】AI训练网络及方法
本申请涉及人工智能领域,尤其涉及一种AI训练网络及方法。
技术介绍
在人工智能领域的AI训练中,使用大量加速器(加速器例如可以是GPU、CPU,可以提供算力)进行计算,计算一个神经网络的最优结构参数,使得该网络能完成特定的工作。所谓“AI训练”,就是给机器“喂”大量的数据,让它慢慢学会识别和区分对象。例如ImageNet1K分类是一种常见的场景,在该场景中可以给定128万张图片,其中包含1000个不同的对象。同时每张照片已经给出了正确的label,即给出了该图片中的对象类别。则AI训练的任务在于找到一个合适的神经网络架构(如Alexnet)和其中每个参数的赋值,使得该网络能够尽可能正确的识别图片中的对象。在具体实现中,多个加速器使用训练算法进行分别进行计算,并把各自的学习结果合并在一起,并在此分发给每个加速器,然后进入下一次迭代。如此经过多轮迭代运算后,机器就能习得更多的关键细节,从而显得更加智能。相较于中央处理器(CPU)而言,图形处理单元(graphicsprocessingunit,GPU)更适合这类迭代运算,因此GPU更普遍的应用于AI训练。随着应用场景需求的提升,神经网络规模和数据集规模急剧增长,例如NvidiaDGX-2和googleTPU这样的大规模加速器服务器集群应运而生,以便提高更强的算力。随着高算力加速器集群的规模越来越大,在GPU芯片之间传递数据变得更加频繁,这导致了GPU芯片之间传递数据的快慢对整个训练过程的耗时所造成的影响越来越明显。因此,如何降低建立光通道GPU ...
【技术保护点】
一种AI训练方法,应用于人工智能AI训练网络,所述AI训练网络包括第一服务器、第二服务器和光交叉连接OXC连接,其中所述第一服务器包括第一图形处理单元,所述第二服务器包括第二图形处理单元,所述第一服务器和所述第二服务器分别与所述光交叉连接OXC连接,所述方法包括:/n第一图形处理单元按照第一数据流图对第一数据集进行AI训练计算;在所述第一图形单元完成对所述第一数据集的AI训练计算之前,触发所述OXC开始进行通道切换,通道切换完成后,所述第一图形处理单元与第二图形处理单元之间的光通道建立成功;/n所述第一图形单元完成计算后,通过已建立完成的所述光通道发送计算结果给所述第二图形单元;/n所述第二图形单元使用第二数据流图对所述计算结果进行AI训练计算。/n
【技术特征摘要】
【国外来华专利技术】20190403 CN PCT/CN2019/081161一种AI训练方法,应用于人工智能AI训练网络,所述AI训练网络包括第一服务器、第二服务器和光交叉连接OXC连接,其中所述第一服务器包括第一图形处理单元,所述第二服务器包括第二图形处理单元,所述第一服务器和所述第二服务器分别与所述光交叉连接OXC连接,所述方法包括:
第一图形处理单元按照第一数据流图对第一数据集进行AI训练计算;在所述第一图形单元完成对所述第一数据集的AI训练计算之前,触发所述OXC开始进行通道切换,通道切换完成后,所述第一图形处理单元与第二图形处理单元之间的光通道建立成功;
所述第一图形单元完成计算后,通过已建立完成的所述光通道发送计算结果给所述第二图形单元;
所述第二图形单元使用第二数据流图对所述计算结果进行AI训练计算。
根据权利要求1所述的AI训练方法,其中,所述AI训练网络还包括主服务器,所述OXC进行通道切换具体包括:
所述OXC接收主服务器的通道建立指令,所述通道建立指令中携带调整参数;
所述OXC按照所述调整参数对光通道进行切换。
根据权利要求2所述的AI训练方法,其中,所述方法还包括:
所述主服务器周期性发送所述通道建立指令给所述OXC。
根据权利要求4所述的AI训练方法,其中,所述方法还包括:在第一图形处理单元按照第一数据流图对所述第一数据集进行AI训练计算之前,还包括:
根据所述第一图形处理单元发送数据给所述第二图形处理单元的的时间周期,以及所述OXC的通道切换时间,获得所述通道建立指令的发送周期。
根据权利要求4所述的AI训练方法,其中,所述时间周期的获取方法包括:
获取所述第一图形处理单元与所述第二图形处理单元之间已经过的发送报文的时间和报文大小,通过使用神经网络计算估计出所述时间周期。
根据权利要求1-5任一项所述的AI训练方法,其中,所述述通道切换完成的时间是:
在第一图形单元完成计算之前。
根据权利要求1-6任一项所述的AI训练方法,其中,所述OXC是:
微机电系统MEMS和硅光SiP中的一种。
根据权利要求1所述的AI训练方法,其中,在所述第一图形单元完成对所述第一数据集的AI训练计算之前,触发所述OXC开始进行通道切换,具体包括:
在所述第一图形处理单元按照所述第一数据流图对所述第一数据集进行AI训练计算时,预测所述第一图形单元通过所述光通道发送计算结果给所述第二图形单元的发送时间;
预测完成后,指令所述OXC进行通道切换。
一种AI训练网络,所述AI训练网络包括第一服务器、第二服务器和光交叉连接OXC连接,其中所述第一服务器包括第一图形处理单元,所述第二服务器包括第二图形处理单元,所述第一服务器和所述第二服务器分别与所述光交叉连接OXC连接,其中:
所述第一图形处理单元用于:按照第一数据流图对第一数据集进行AI训练计算,以及通过已建立完成的所述光通道发送计算结果给所述第二图形单元;
所述光交叉连接OXC用于:在所述第一图像处理单元完成对第一数据集的AI训练计算之前,开始进行通道切换,其中,通道切换完成后,所述第一图形处理单元与第二图形处理单元之间的光通道建立成功;
所述第二图形...
【专利技术属性】
技术研发人员:沈胜宇,吴聿旻,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。