一种人工智能计算系统及方法技术方案

技术编号:42655176 阅读:19 留言:0更新日期:2024-09-10 12:15
本申请涉及光通信技术领域,公开了一种人工智能计算系统及方法,用以解决由于哈希冲突和流量不均衡导致的通信效率较低的问题。本申请实施例中通过光交换网络来实现计算节点在实现AI数据计算任务过程中的链路通信。相比采用电交换器件来说,无需利用哈希算法来确定通信链路,从而不会出现哈希冲突,也不会由于哈希冲突而产生流量不均衡的问题,从而避免产生拥塞丢包,进而可以降低计算节点间的通信时间,提高通信效率。各个计算节点支持控制光交换网络中光开关交换组件的输入端口与输出端口之间的交叉链路。在计算节点执行计算任务的过程中,通过计算节点的控制单元,根据计算节点的需求进行链路的切换。

【技术实现步骤摘要】

本申请实施例涉及人工智能,尤其涉及一种人工智能计算系统及方法


技术介绍

1、面对各种人工智能场景和数字化业务的发展,人工智能(artificialintelligence,ai)算力需求呈现指数型增长。为了提高ai模型训练的效率,目前采用并行训练方式,即通过采用多个计算节点并行训练的方式。并行计算方式中,为每个计算节点分配不同的数据/模型,在多个计算节点上并行完成ai模型的计算,然后在计算节点内/计算节点间进行融合。每个计算节点完成的训练只是任务的一部分,计算节点之间需要通信来进行数据交换和计算结果的聚合。只有协调好集群中的计算和通信,才能充分发挥ai集群高算力的优势。因此并行训练的加速效果和可扩展性,很大程度上受计算节点间通信效率影响。

2、目前采用电交换多级clos胖树组网架构来实现计算节点间的通信,具体需要电交换机采用逐跳存储转发数据的方式。该方式中需要采用哈希算法来实现数据转发,会不可避免的产生哈希冲突和流量不均衡的问题,而导致拥塞丢包,进而增加了计算节点间的通信时间。通信时间的增加意味着计算资源的等待,导致计算资源浪费。

...

【技术保护点】

1.一种人工智能计算系统,其特征在于,包括计算节点集群、光交换网络以及控制设备;

2.如权利要求1所述的系统,其特征在于,第一计算节点簇还包括控制单元,所述控制单元用于控制与所述第一计算节点簇连接的第一光开关交换组件的输入端口与输出端口的交叉链路的切换,和/或,控制与所述第一计算节点簇连接的第二关开关交换组件的输入端口与输出端口之间的交叉链路的切换;

3.如权利要求1或2所述的系统,其特征在于,所述第一光开关交换组件为由M个第一光开关交换器件构成的光开关交换矩阵,每个第一光开关交换器件包括一个输入端口和F个输出端口,F*M=P。

4.如权利要求1-3任...

【技术特征摘要】

1.一种人工智能计算系统,其特征在于,包括计算节点集群、光交换网络以及控制设备;

2.如权利要求1所述的系统,其特征在于,第一计算节点簇还包括控制单元,所述控制单元用于控制与所述第一计算节点簇连接的第一光开关交换组件的输入端口与输出端口的交叉链路的切换,和/或,控制与所述第一计算节点簇连接的第二关开关交换组件的输入端口与输出端口之间的交叉链路的切换;

3.如权利要求1或2所述的系统,其特征在于,所述第一光开关交换组件为由m个第一光开关交换器件构成的光开关交换矩阵,每个第一光开关交换器件包括一个输入端口和f个输出端口,f*m=p。

4.如权利要求1-3任一项所述的系统,其特征在于,所述第二光开关交换组件为由m个第二光开关交换器件构成的光开关交换矩阵,每个第二光开关交换器件包括f个输入端口和一个输出端口,f*m=p。

5.如权利要求1或2所述的系统,其特征在于,所述第一光开关交换组件包括由m个第一光开关交换器件构成的光开关交换矩阵以及一个包括m个输入端口和m个输出端口的第三光开关交换器件,每个光开关交换器件包括一个输入端口和f个输出端口,f*m=p,所述第三光开关交换器件包括的m个输出端口与所述光开关交换矩阵的m个输入端口一一对应连接,所述第三光开关交换器件包括的m个输入端...

【专利技术属性】
技术研发人员:王景燕肖新华彭媛媛
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1