【技术实现步骤摘要】
本申请实施例涉及人工智能,尤其涉及一种人工智能计算系统及方法。
技术介绍
1、面对各种人工智能场景和数字化业务的发展,人工智能(artificialintelligence,ai)算力需求呈现指数型增长。为了提高ai模型训练的效率,目前采用并行训练方式,即通过采用多个计算节点并行训练的方式。并行计算方式中,为每个计算节点分配不同的数据/模型,在多个计算节点上并行完成ai模型的计算,然后在计算节点内/计算节点间进行融合。每个计算节点完成的训练只是任务的一部分,计算节点之间需要通信来进行数据交换和计算结果的聚合。只有协调好集群中的计算和通信,才能充分发挥ai集群高算力的优势。因此并行训练的加速效果和可扩展性,很大程度上受计算节点间通信效率影响。
2、目前采用电交换多级clos胖树组网架构来实现计算节点间的通信,具体需要电交换机采用逐跳存储转发数据的方式。该方式中需要采用哈希算法来实现数据转发,会不可避免的产生哈希冲突和流量不均衡的问题,而导致拥塞丢包,进而增加了计算节点间的通信时间。通信时间的增加意味着计算资源的等待,导致计算资
...【技术保护点】
1.一种人工智能计算系统,其特征在于,包括计算节点集群、光交换网络以及控制设备;
2.如权利要求1所述的系统,其特征在于,第一计算节点簇还包括控制单元,所述控制单元用于控制与所述第一计算节点簇连接的第一光开关交换组件的输入端口与输出端口的交叉链路的切换,和/或,控制与所述第一计算节点簇连接的第二关开关交换组件的输入端口与输出端口之间的交叉链路的切换;
3.如权利要求1或2所述的系统,其特征在于,所述第一光开关交换组件为由M个第一光开关交换器件构成的光开关交换矩阵,每个第一光开关交换器件包括一个输入端口和F个输出端口,F*M=P。
4
...【技术特征摘要】
1.一种人工智能计算系统,其特征在于,包括计算节点集群、光交换网络以及控制设备;
2.如权利要求1所述的系统,其特征在于,第一计算节点簇还包括控制单元,所述控制单元用于控制与所述第一计算节点簇连接的第一光开关交换组件的输入端口与输出端口的交叉链路的切换,和/或,控制与所述第一计算节点簇连接的第二关开关交换组件的输入端口与输出端口之间的交叉链路的切换;
3.如权利要求1或2所述的系统,其特征在于,所述第一光开关交换组件为由m个第一光开关交换器件构成的光开关交换矩阵,每个第一光开关交换器件包括一个输入端口和f个输出端口,f*m=p。
4.如权利要求1-3任一项所述的系统,其特征在于,所述第二光开关交换组件为由m个第二光开关交换器件构成的光开关交换矩阵,每个第二光开关交换器件包括f个输入端口和一个输出端口,f*m=p。
5.如权利要求1或2所述的系统,其特征在于,所述第一光开关交换组件包括由m个第一光开关交换器件构成的光开关交换矩阵以及一个包括m个输入端口和m个输出端口的第三光开关交换器件,每个光开关交换器件包括一个输入端口和f个输出端口,f*m=p,所述第三光开关交换器件包括的m个输出端口与所述光开关交换矩阵的m个输入端口一一对应连接,所述第三光开关交换器件包括的m个输入端...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。