【技术实现步骤摘要】
【国外来华专利技术】通过基于环的集群通信避免网络拥塞
技术介绍
[0001]随着诸如深度神经网络(Deep Neural Network,DNN)的神经网络迅速发展,各种应用领域(例如,计算机视觉、自然语言处理、语音识别等)都得到了发展,并且会从神经网络固有的多功能性和灵活性中受益。然而,由于神经网络应用日益增加的复杂性和越来越严格的准确性要求,神经网络模型的大小和训练模型所需的训练数据的大小也显著增加,这将不可避免地导致训练时间越来越长,从而对训练模型能够满足不断变化的应用环境的有效性和及时性产生不利影响。
[0002]为了减少训练神经网络模型的时间,可以使用一种采用并行训练的分布式训练系统。一般而言,分布式训练系统可以包括分布在网络上的大量计算节点或服务器,并且将计算任务的子集分配给计算节点或服务器,用于采用并行训练来执行计算。然而,分布式训练系统中的计算节点或服务器之间的数据通信造成了分布式训练系统中可能发生的训练时间的减少量的下限或瓶颈。当分布式训练系统包括计算节点或服务器内部的和之间的各种类型的异构连接或互连时,尤其如此,这些异构连接或互连在延迟、带宽、拓扑等方面表现出不同的特性。这种连接或互连的异构性增加了为分布式训练系统中的计算节点或服务器设计数据通信网络的难度和复杂性。
[0003]此外,由于过量的数据流通过分布式训练系统中的计算节点或服务器之间的特定网络交换机或连接,可能引发网络拥塞,这样可能会由于处理训练结果的延迟而导致训练时间延长。之所以有过量的数据流通过特定网络交换机或连接,可能是因为计算节点或服务器之间发送的路由数据的路 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由第一计算节点实施的方法,所述方法包括:至少部分地基于与第一进程相关联的第一网络接口控制器和与第二进程相关联的第二网络接口控制器是否位于同一计算节点中或链接到同一片交换机来确定将数据从所述第一进程路由到所述第二进程的路由标识符,所述第一进程和所述第二进程属于网络拓扑下连接多个不同节点的特定节点间环;以及根据所述路由标识符将所述数据从所述第一进程路由到所述第二进程。2.根据权利要求1所述的方法,其中与所述第一进程相关联的所述第一网络接口控制器被配置为向环形拓扑中的第二计算节点发送数据或从环形拓扑中的第二计算节点接收数据,所述第二计算节点不同于所述第一计算节点。3.根据权利要求1所述的方法,其中与所述第一进程相关联的所述第一网络接口控制器还与一个或多个进程相关联,其中从所述第一进程和所述一个或多个进程发送的数据通过所述第一网络接口控制器发送。4.根据权利要求1所述的方法,其中所述网络拓扑包括胖树拓扑。5.根据权利要求1所述的方法,还包括:响应于确定与所述第一进程相关联的所述网络接口控制器和与所述第二进程相关联的所述第二网络接口控制器位于所述同一计算节点中或链接到所述同一片交换机,将所述路由标识符设置为默认标识符。6.根据权利要求1所述的方法,还包括:响应于确定与所述第一进程相关联的所述第一网络接口控制器和与所述第二进程相关联的所述第二网络接口控制器位于不同的计算节点或链接到不同的片交换机,将所述路由标识符设置为等于与所述第一进程相关联的所述第一网络接口控制器的标识符。7.根据权利要求6所述的方法,其中根据所述路由标识符将所述数据从所述第一进程路由到所述第二进程包括:至少通过与所述第一网络接口控制器连接的片交换机和具有与所述第一网络接口控制器的所述标识符具有对应关系的标识符的汇聚交换机将所述数据从所述第一进程路由到所述第二进程,所述第一网络接口控制器与所述第一进程相关联。8.一个或多个机器可读介质,其存储有机器可读指令,当所述机器可读指令由第一计算节点执行时,使所述第一计算节点执行动作,所述动作包括:至少部分地基于与第一进程相关联的第一网络接口控制器和与第二进程相关联的第二网络接口控制器是否位于同一计算节点中或链接到同一片交换机来确定将数据从所述第一进程路由到所述第二进程的路由标识符,所述第一进程和所述第二进程属于网络拓扑下连接多个不同节点的特定节点间环;以及根据所述路由标识符将所述数据从所述第一进程路由到所述第二进程。9.根据权利要求8所述的一个或多个机器可读介质,其中与所述第一进程相关联的所述第一网络接口控制器被配置为向环形拓扑中的第二计算节点发送数据或从环形拓扑中的第二计算节点接收数据,所述第二计算节点不同于所述第一计算节点。10.根据权利要求8所述的一个或多个机器可读介质,其中与所述第一进程相关联的所述第一网络接口控制器还与一个或多个进程相关联,其中从所述第一进程和所述一个或多个进程发送的数据通过所述第一网络接口控制器发送。11.根据权利要求8所述的一个或多个机器可读介质,其中所述网络拓扑包括胖树拓扑。
12.根据权利要求8所述的一个或多个机器可读...
【专利技术属性】
技术研发人员:叶剑西,王绍创,冉仟元,冯飞,董建波,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。