具有多个嵌入的环的联网计算机制造技术

技术编号：30743219 阅读：14 留言：0更新日期：2021-11-10 11:51

提供了一种计算机，其包括布置在多个堆叠层中的多个互连的处理节点，该多个堆叠层形成多面棱柱。棱柱的每个面包括节点的多个堆叠对。所述节点通过至少两个层内链路连接。每个节点通过层间链路连接到相邻对中的对应节点。对应节点通过相应的层间链路连接以形成相应的边。每个对形成层的部分，每个层包括多个节点，每个节点通过至少一个层内链路连接到其在该层中的相邻节点以形成环。数据围绕由节点和链路的相应集合形成的路径而被传输，每个路径具有在第一最末端层与第二最末端层之间的第一部分，以及在第二最末端层与第一最末端层之间提供并且包括其中一个边的第二部分。间提供并且包括其中一个边的第二部分。间提供并且包括其中一个边的第二部分。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】具有多个嵌入的环的联网计算机

[0001]本公开涉及在计算机中连接的处理节点之间的数据交换，具体地但不排他地用于优化机器学习/人工智能应用中的数据交换。

技术介绍

[0002]集合体(collective)是在计算机中处理数据时常用的例程。它们是使得数据能够跨多个不同进程(process)而被共享和处理的例程，这些进程可能在同一处理节点或不同处理节点上运行。例如，如果一个进程从数据存储中读取数据，它可以使用“广播”进程来与其他进程共享该数据。另一个示例是当特定函数的结果被多个进程需要时。“归约(reduction)”是这样一种结果，其已要求对来自多个进程中的每一个进程的数据值应用计算函数。“聚集(Gather)”和“散射(Scatter)”集合体处理多于一个的数据项。某些集合体在处理机器学习应用中已变得越来越重要。
[0003]MPI(Message Passing Interface，消息传递接口)是一种消息传递标准，其可应用于多种并行计算架构。MPI定义了许多适用于机器学习的集合体。一个这样的集合体被称为“全归约(Allreduce)”。全归约操作使得作用于来自不同源进程的多个数据值的计算函数的结果能够在接收进程处被提供。注意，接收进程可以是源进程之一，也可以有多个接收进程。全归约集合体对来自多个源进程的数据值进行归约，并将结果分布到所有源进程(它们担任归约结果的接收进程)。根据MPI标准，全归约集合体是通过以下方式而实现的：在归约集合体中(例如，在多个进程之一处)对来自所有源进程的数据值进行归约，然后将

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机，包括多个互连的处理节点，所述多个互连的处理节点布置在处理节点的多个堆叠层的配置中，所述处理节点的多个堆叠层形成多面棱柱；其中，所述棱柱的每个面包括处理节点的多个堆叠对，其中，每个对的处理节点通过至少两个层内链路连接，并且每个对的处理节点通过至少一个层间链路连接到相邻对中的对应处理节点，其中，所述对应处理节点通过相应的层间链路连接以形成所述配置的相应边；以及其中，每对处理节点形成所述配置的其中一层的部分，每个层包括多个处理节点，每个处理节点通过至少一个层内链路连接到其在该层中的相邻处理节点以形成环；其中，所述多个堆叠层包括第一最末端层和第二最末端层，以及至少一个中间层，其中，所述处理节点被编程为操作所述配置以围绕由处理节点和链路的相应集合形成的多个一维路径中的每个一维路径来传输数据，每个一维路径具有在第一最末端层与第二最末端层之间的第一部分以及在第二最末端层与第一最末端层之间提供的第二部分，所述第一部分仅使用所述配置的其中一个面中的所有处理节点一次，并且所述第二部分包括所述配置的其中一个边。2.如权利要求1所述的计算机，其中，所述多面棱柱在每个层中具有三个处理节点，从而为相应的一维路径的第一部分提供三个相应的面。3.如前述权利要求中任一项所述的计算机，其中，在所述至少一个中间层中，每个处理节点通过两个层间链路连接到其相邻处理节点。4.如前述权利要求中任一项所述的计算机，其中，在所述第一最末端层和第二最末端层中，每个处理节点通过三个层间链路连接到其相邻处理节点，以使得能够同时在所述配置中的三个一维路径上传输数据。5.如前述权利要求中任一项所述的计算机，所述计算机已根据包括一组堆叠层的多面棱柱进行配置，每个堆叠层的处理节点具有到相邻堆叠层中的对应处理节点的层间链路和在该层中相邻处理节点之间的层间链路，通过断开指定堆叠层中的每个层间链路并将其连接到指定堆叠层中的相邻处理节点来提供层内链路，由此所述指定堆叠层形成第一最末端层和第二最末端层上。6.如前述权利要求中任一项所述的计算机，其中，所述处理节点中的每一个被编程为识别其层间链路和层内链路之中用于传输数据的一个链路，以便为该数据确定所述一维路径。7.如前述权利要求中任一项所述的计算机，其中，所述处理节点中的每一个被编程为去激活其层间链路和层内链路之中未在数据传输步骤中使用的任何链路。8.如前述权利要求中任一项所述的计算机，其中，每个处理节点被编程为将该节点相应的局部向量划分为片段，并且围绕每个一维路径以连续片段的形式传输数据。9.如权利要求8所述的计算机，所述计算机被编程为将每个路径作为一组逻辑环来操作，其中，所述连续片段在同时传输步骤中围绕每个逻辑环传输。10.如权利要求8所述的计算机，其中，每个处理节点被配置为同时在两个链路的每个链路上输出相应的片段。11.如权利要求8至10中任一项所述的计算机，其中，每个处理节点被配置为对两个传入片段与两个相应的本地存储的对应片段进行归约。
12.如权利要求11所述的计算机，其中，每个处理节点被配置为在全归约集合体的全聚集阶段中，同时在两个链路中的每个链路上传输完全归约后的片段。13.如前述权利要求中任一项所述的计算机，其中，每个链路是双向的。14.一种生成要在计算机上并行执行的一组程序的方法，所述计算机包括多个处理节点，所述多个处理节点在包括多面棱柱的配置中连接；其中，所述棱柱的每个面包括处理节点的多个堆叠对，其中，每个对的处理节点通过至少两个层...

【专利技术属性】
技术研发人员：S诺尔斯，
申请(专利权)人：图核有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人