【技术实现步骤摘要】
一种聚合通信方法及装置
[0001]本申请要求在2022年1月14日提交中华人民共和国知识产权局、申请号为202210041814.4、专利技术名称为“一种数据传输系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
[0002]本申请涉及计算领域,尤其涉及一种聚合通信方法及装置。
技术介绍
[0003]分布式计算可将应用的数据分解成多个部分进行,并将这些部分分配给计算集群中的多个计算节点中的多个处理器进行计算,如此,可提高计算效率。
[0004]如图1为一种用于执行分布式计算的计算集群的架构图,计算集群中包括节点00至节点30,节点00中包括处理器000至处理器003,节点10中包括处理器100至处理器103等。在上述计算集群中,每个处理器可用于执行一部分计算,并将计算得到的数据与其他处理器计算得到的数据进行聚合,以获得最终的计算结果。
[0005]在数据聚合时,首先节点内的各处理器会对数据进行节点内聚合,得到节点内聚合结果,各节点再将节点内聚合结果与其他节点执行节点间聚合。结合图1中架构举例,处理器000至处理器003可先将自己的第1份数据聚合至节点00的处理器000中,得到节点00中第1份数据的节点内聚合结果。处理器000再将该节点内聚合结果传输至节点10中的处理器100,以用于节点00与节点10进行节点间聚合。但是在该过程中,若处理器000与处理器100未直接连通,处理器000需要从节点00中确定出与节点10中处理器连通的处理器(比如处理器001),将节点内聚合结果发送至处 ...
【技术保护点】
【技术特征摘要】
1.一种聚合通信方法,应用于计算集群,其特征在于,所述计算集群包括第一节点和第二节点,所述第一节点包括第一处理器和第二处理器,所述第二处理器与所述第二节点中的第三处理器连接;所述方法包括:所述第一处理器确定所述第一处理器中的第一数据需要传输至所述第二节点;所述第一处理器将所述第一数据传输至所述第二处理器;所述第二处理器将所述第一数据或者经过处理后的所述第一数据传输至所述第二节点中的第三处理器。2.如权利要求1所述的方法,其特征在于,所述第二处理器与所述第三处理器通过光交叉OXC器件连接。3.如权利要求1或2所述的方法,其特征在于,所述第一节点包括所述第一节点中的处理器与其他节点的拓扑,所述拓扑包括所述第二处理器与所述第三处理器的连接关系;所述第一处理器将所述第一数据传输至所述第二处理器,包括:所述第一处理器根据所述拓扑中所述第二处理器与所述第三处理器的连接关系,将所述第一数据传输至所述第二处理器。4.如权利要求1或2所述的方法,其特征在于,所述第一节点包括所述第一节点中的处理器与其他节点的拓扑,所述拓扑包括所述第一节点中k个处理器分别与所述第二节点中k个处理器的连接关系,k为大于1的整数;所述第一处理器将所述第一数据传输至所述第二处理器,包括:所述第一处理器根据所述拓扑中所述第一节点中k个处理器分别与所述第二节点中k个处理器的连接关系,将所述第一节点中k个处理器作为k个候选处理器;所述第一处理器从所述k个候选处理器中选择所述第二处理器;所述第一处理器将所述第一数据传输至所述第二处理器。5.如权利要求1至3中任一项所述的方法,其特征在于,所述第一节点与所述第二节点之间通过信息传递接口MPI中的allreduce接口进行数据传输,所述计算集群包括M个节点,每个节点包括N个处理器,每个处理器的数据被划分为N份数据,所述第一数据为所述N份数据中的第I份数据;所述第一处理器确定所述第一处理器中的第一数据需要传输至所述第二节点,包括:所述第一处理器用I对M进行求余运算得到余数J;所述第一处理器确定所述计算集群中的第J个节点为所述第二节点;其中,N为大于1的整数,I为大于或等于1的整数,M为大于1的整数。6.如权利要求4所述的方法,其特征在于,所述方法还包括:所述第二处理器对所述第一数据及所述第一节点中其他N
‑
1个处理器的第I份数据进行聚合处理。7.如权利要求1至3中任一项所述的方法,其特征在于,所述第一节点与所述第二节点之间通过信息传递接口MPI中的alltoall接口进行数据传输,所述计算集群包括M个节点,每个节点包括N个处理器,每个处理器的数据被划分为M
×
N份数据,所述第一数据为所述M
×
N份数据中的第I
×
N份至第(I+1)
×
N
‑
1份数据;所述第一处理器确定所述第一处理器中的第一数据需要传输至所述第二节点,包括:
所述第一处理器用I对M进行求余运算得到余数J;所述第一处理器确定所述计算集群中的第J个节点为所述第二节点;其中,N为大于1的整数,I为大于或等于1的整数,M为大于1的整数。8.一种计算集群,其特征在于,包括第一节点和第二节点,所述第一节点包括第一处理器和第二处理器,所述第二处理器与所述第二节点中的第三处理器连接;所述第一处理器,用于确定所述第一处理器中的第一数据需要传输至所述第二节点;以及将所述第一数据传输至所述第二处理器;所述第二处理器,用于将所述第一数据或者经过处理后的所述第一数据传输至所述第二节点中的第三处理器。9.如权利要求8所述的计算集群,其特征在于,所述第二处理器与所述第三处理器通过光交叉OXC器件连接。10.如权利要求8或9所述的计算集群,其特征在于,所述第一节点包括所述第一节点中处理器与其他节点的拓扑,所述拓扑包括所述第二处理器与所述第三处理器的连接关系;所述第一处理器在将所述第一数据传输至所述第二处理器时,具体用于:根据所述拓扑中所述第二处理器与所述第三处理器的连接关系,将所述第一数据传输至所述第二处理器。11.如权利要求8或9所述的计算集群,其特征在于,所述第一节点包括所述第一节点中的处理器与其他节点的拓扑,所述拓扑包括所述第一节点中k个处理器分别与所述第二节点中k个处理器的连接关系,k为大于1的整数;所述第一处理器在将所述第一数据传输至所述第二处理器时,具体用于:根据所述拓扑中所述第一节点中k个处理器分别与所述第二节点中k个处理器的连接关系,将所述第一节点中k个处理器作为k个候选处理器;从所述k个候选处理器中选择所述第二处理器;将所述第一数据传输至所述第二处理器。12.如权利要求8至11中任一项所述的计算集群,其特征在于,所述第一节点与所述第二节点之间通过信息传递接口MPI中的allreduce接口进...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。