【技术实现步骤摘要】
【国外来华专利技术】用于集群通信的拓扑感知多阶段方法
技术介绍
[0001]随着诸如深度神经网络(Deep Neural Network,DNN)的神经网络迅速发展,各种应用领域(例如,计算机视觉、自然语言处理、语音识别等)都得到了发展,并且会从神经网络固有的多功能性和灵活性中受益。然而,由于神经网络应用日益增加的复杂性和越来越严格的准确性要求,神经网络模型的大小和训练模型所需的训练数据的大小也显著增加,这将不可避免地导致训练时间越来越长,从而对训练模型能够满足不断变化的应用环境的有效性和及时性产生不利影响。
[0002]为了减少训练神经网络模型的时间,可以使用一种采用并行训练的分布式训练系统。一般而言,分布式训练系统可以包括分布在网络上的大量计算节点或服务器,并且将计算任务的子集分配给计算节点或服务器,用于采用并行训练来执行计算。然而,分布式训练系统中的计算节点或服务器之间的数据通信造成了分布式训练系统中可能发生的训练时间的减少量的下限或瓶颈。当分布式训练系统包括计算节点或服务器内部的和之间的各种类型的异构连接或互连时,尤其如此,这些异构连接或互连在延迟、带宽、拓扑等方面表现出不同的特性。这种连接或互连的异构性增加了为分布式训练系统中的计算节点或服务器设计数据通信网络的难度和复杂性。
[0003]此外,由于过量的数据流通过分布式训练系统中的计算节点或服务器之间的特定网络交换机或连接,可能引发网络拥塞,这样可能会由于处理训练结果的延迟而导致训练时间延长。之所以有过量的数据流通过特定网络交换机或连接,可能是因为计算节点或服务器之间发送的路由数据的路 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由第一计算节点实施的方法,包括:根据第一集群通信算法在所述第一计算节点中的第一处理单元集合之间执行归约散布子运算;根据第二集群通信算法在所述第一计算节点中的所述第一处理单元集合与第二计算节点中的第二处理单元集合之间执行全局归约子运算;以及根据所述第一集群通信算法在所述第一计算节点中的所述第一处理单元集合之间执行全局聚集子运算。2.根据权利要求1所述的方法,还包括:至少部分基于所述第一计算节点中的所述第一处理单元集合间的节点内连接的类型或带宽选择所述第一集群通信算法。3.根据权利要求1所述的方法,还包括:至少部分基于所述第一计算节点和其他计算节点之间的节点间连接的类型或带宽,和/或,所述第一计算节点和其他计算节点的连接拓扑来选择所述第二集群通信算法。4.根据权利要求1所述的方法,其中所述第一集群通信算法包括基于环的算法,或减半加倍算法。5.根据权利要求1所述的方法,其中根据第一集群通信算法在所述第一计算节点中的第一处理单元集合之间进行归约散布子运算包括:将数据划分为多个数据块;将所述多个数据块分配给所述第一处理单元集合;根据所述第一集群通信算法,在所述第一处理单元集合的第一处理单元处从所述第一处理单元集合的第二处理单元接收数据块;以及在所述第一处理单元处用本地数据块归约所接收的数据块。6.根据权利要求1所述的方法,其中根据第二集群通信算法在所述第一计算节点中的所述第一处理单元集合与第二计算节点中的第二处理单元集合之间执行全局归约子运算包括:所述第一处理单元集合接收所述第二计算节点中的所述第二处理单元集合根据所述第二集群通信算法所获得的归约散布结果的各部分,其中所述第一处理单元集合的每个处理单元与所述第二处理单元集合的相应处理单元形成组,并从所述相应处理单元接收所述归约散布结果的相应部分;以及所述第一处理单元集合通过在所述第一处理单元集合之间执行所述归约散布子运算后获得的归约散布结果的对应本地部分对所述归约散布结果的各部分执行归约。7.根据权利要求1所述的方法,其中根据第一集群通信算法在所述第一计算节点中的第一处理单元集合之间执行全局聚集子运算包括:根据所述第一集群通信算法,在所述第一处理单元集合的第一处理单元处从所述第一处理单元集合的第二处理单元接收数据块;以及在所述第一处理单元处用本地数据块归约所接收的数据块。8.一个或多个机器可读介质,存储有机器可读指令,所述机器可读指令被第一计算节点执行时使得所述第一计算节点执行动作,包括:根据第一集群通信算法在所述第一计算节点中的第一处理单元集合之间执行归约散布子运算;
根据第二集群通信算法在所述第一计算节点中的所述第一处理单元集合与第二计算节点中的第二处理单元集合之间执行全局归约子运算;以及根据所述第一集群通信算法在所述第一计算节点中的所述第一处理单元集合之间执行全局聚集子运算。9.根据权利要求8所述的一个或多个机器可读介质,所述动作还包括:至少部分基于所述第一计算节点中的所述第一处理单元集合间的节点内连接的类型或带宽选择所述第一集群通信算法。10.根据权利要求8所述的一个或多个机器可读介质,所述动作还包括:至少部分基于所述第一计算节点和其他计算节点之间的节点间连接的类型或带宽,和/或,所述第一计算节点和其他计算节点的连接拓扑来选择所述第二集群通信算法。11.根据权利要求8所述的一个或多个机器可读介质,其中所述第一集群通信算法包括基于环的算法,或减半加倍算法。12.根据权利要求8所述的一个或多个机器可读介质,其中根据第一集群通信算法在所述第一计算节点中的第一处理单元集合之间执行归约散布子运算包括:将数据划分为多个数据块;将所述多个数据块分配给所述第一处理单元集合;根据所述第一集群通信算法,在所述第一处理单元集合的第一...
【专利技术属性】
技术研发人员:叶剑西,彭立伟,宋东洋,唐陵波,王绍创,冉仟元,冯飞,闫磊,董建波,段建军,杨健,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。