【技术实现步骤摘要】
本公开涉及计算机领域,尤其涉及一种用于多个计算集群并行训练神经网络模型的方法、计算系统和装置、介质。
技术介绍
1、大规模神经网络模型(本文中有时也简称为“模型”)的训练通常在包括多个计算节点的计算集群(本文中有时也简称为“集群”)中进行。在训练过程中,计算节点之间需要进行通信以相互传输数据。在包括同一类型(例如同一型号)的多个计算节点或位于同一位置(例如同一机房)的多个计算节点的同一集群中,计算节点之间的通信例如可以使用ib(infiniband,无限带宽)网络。位于不同集群的计算节点之间的通信必须借助两个集群间的专线(例如专用光纤)。专线的通信性能通常低于ib网络,从而成为了训练过程中的瓶颈。
2、当将整个神经网络模型的不同层分配到多个计算节点执行流水线并行训练时,计算节点需要等待来自分配有前一层的计算节点的数据通信完成后才能进行计算。在计算节点位于不同集群的情况下,由于集群间的专线的通信性能通常低于集群内部的ib网络,因此,位于不同集群的计算节点之间的通信效率较低,影响整个模型的训练效率。
本文档来自技高网...
【技术保护点】
1.一种用于多个计算集群并行训练神经网络模型的方法,其特征在于,所述多个计算集群中的每个计算集群包括多个计算节点,所述多个计算集群共包括N个计算节点,并且每个计算集群的计算节点之间的通信时间短于该计算集群的计算节点与其他计算集群的计算节点之间的通信时间,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据第i个计算节点与第i+1个计算节点之间的通信时间和第i个计算节点与第i+1个计算节点执行一个微批次的前向计算所需的时间的长短关系,确定k的值,包括:
4.根据
...【技术特征摘要】
1.一种用于多个计算集群并行训练神经网络模型的方法,其特征在于,所述多个计算集群中的每个计算集群包括多个计算节点,所述多个计算集群共包括n个计算节点,并且每个计算集群的计算节点之间的通信时间短于该计算集群的计算节点与其他计算集群的计算节点之间的通信时间,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据第i个计算节点与第i+1个计算节点之间的通信时间和第i个计算节点与第i+1个计算节点执行一个微批次的前向计算所需的时间的长短关系,确定k的值,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据第i个计算节点与第i+1个计算节点之间的通信时间和第i个计算节点与第i+1个计算节点执行一个微批次的前向计算所需的时间的长短关系,确定k的值,包括:
5.根据权利要求3或4...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海无问芯穹智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。