System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及基于pcie switch的互联池化系统拓扑管理装置及方法,属于pcieswitch互联。
技术介绍
1、随着人工智能技术应用的不断突破,搭载gpu/npu/fpga/dpu等加速芯片,构建cpu+xpu的异构算力网络的需求越来越大,迫切需要高带宽、低延迟的多节点互连通信技术来满足不同节点间的计算、网络、存储三大维度的横向协同。
2、目前节点之间通信通常采用网络方案,但带宽低、时延高,另外rpc、协议处理、内存拷贝、压缩会占用30%左右的cpu资源;使用pcie实现不同节点cpu与各种加速芯片的互连通信和资源池化,相比使用网络具有低延迟、高带宽、低开销等性能优势。
3、基于pcie switch,一方面可实现单个系统中上游处理器节点之间以及与下游设备节点数据交互,另一方面也可通过pcie switch ntb实现不同系统间互联,来实现多个独立系统之间的数据交互,从而扩展互联系统,进一步扩大处理器和设备的池化,实现资源按需分配提高整体利用效率。这就对互联系统拓扑信息的管理提出了较高的要求,各个处理器需知晓互联系统中其他处理器及设备的存在,并监测其状态,从而实现资源交互及共享。
4、“一种基于pcie交换机的多节点动态管理方法及系统”(公开号cn116248619a)提供了一种基于pcie交换机的多节点动态管理方法及系统,系统包括pcie交换机、多处理器节点,多处理器节点与pcie交换机连接,多处理器节点包括一个上游端口节点、多个下游端口节点,上游端口节点用于pcie交换机链路配置、
5、“一种pcie ntb的系统实现管理方法”(公开号cn113132199a)提供了一种pcientb的系统实现管理方法,包括在第一pcie总线控制器中设置第一nt模块;在第二pcie总线控制器中设置第二nt模块;将所述第二nt模块作为第二pcie总线控制器的第一上行端口的下挂设备;通过所述第一nt模块和第二nt模块完成地址转换和id转换,以实现所述第一pcie总线控制器和所述第二pcie总线控制器之间的ntb互联。所述方法实现了pcie switch通用架构基础上对ntb功能的支持,满足不同场景的ntb应用,提高了端口配置灵活性,降低了建链成本。
6、但是,上述现有技术仍然存在很多不足之处,具体情况如下所述:
7、1)、拓扑连接比较单一
8、具体表现:现有pcie switch ntb互联技术中,多应用于设备拓展和处理器failover场景,系统中host节点和设备节点拓扑相对简单;对于switch配置多个partition场景和多个switch连接的场景,感知到所连接起来的所有host及pcie设备,并管理监测拓扑结构是具体一定难度的。
9、2)、拓扑节点热插拔感知弱
10、具体表现:互联系统中某一host节点或设备节点发生热插拔或异常挂机等情况时,系统中其他的host无法感知这一事件,不利于整个拓扑的管理和更新。
11、在进行基于pcie switch的多host互联技术研究时,发现现有技术未考虑多个独立pcie拓扑结构互联之后的多host及多ep拓扑管理问题,尤其针对设备热插拔或异常复位等情况出现时的动态拓扑更新问题。
12、基于此,提出本专利技术。
技术实现思路
1、在进行基于pcie switch非透明桥的互联池化设计研究时,发现具备池化功能的互联系统是比较复杂的,最小单元为switch上的partition,其拓扑结果可能为usp+nt+ep的模式,基于此,互联场景可扩展为一个switch内多个partition的情况,再进一步,可扩展为多个switch互联的情况,其中switch起到拓展端口挂接设备的功能,以及最重要的非透明桥隔离多host主机的功能。
2、在进行互联池化系统拓扑管理研究时发现,复杂系统互联相互间的设备状态和异常情况需要被对方感知,尤其针对跨主机数据交互和设备插入拔出的情况,需要让系统中所有的host感知到,并做出正确的处理,才能维护整个系统的稳定运行。
3、在本专利技术的研究过程中,在进行互联池化系统中跨主机数据访问时发现,不同host间需要通过非透明桥ntb进行地址翻译,即host1访问host2子拓扑中的内存时(host2主存或host2对应ep的地址空间),将host2上的远端地址映射到host1的ntb的bar空间,这样host1看到的是同属于同一pcie域的地址,实际访问时是映射到了远端,如果这是host2或者是对应的设备复位或者下电,需要将host1上对这段地址的映射清除,以防止访问时出现异常。这就需要host1能感知到其他主机或者设备的实时状态,并及时做出处理。
4、本专利技术提出了基于pcie switch的互联池化系统拓扑管理装置及方法,用以解决现有技术中的两个问题:1)拓扑连接比较单一;2)拓扑节点热插拔感知弱;具体技术方案如下:
5、基于pcie switch的互联池化系统拓扑管理装置,包括拓扑管理单元、拓扑查询单元、拓扑监测和状态更新单元;
6、所述拓扑管理单元用于管理和维护板卡及host节点信息;
7、所述拓扑查询单元用于查询主机节点是否在位、是否处于工作状态;
8、所述拓扑监测和状态更新单元根据所述拓扑查询单元获取的拓扑结构,监测所有拓扑节点工作状态的变化情况对其状态进行更新,对于新增拓扑节点分配资源,对于移除拓扑节点释放资源。
9、更进一步的改进,采用三个独立模组为分析主体,三个独立模组分别为c0模组、p0模组、p1模组,每个host拥有对应的node_id。
10、更进一步的改进,三个独立模组配置如下:
11、c0模组支持插入4个host主机,配置6个partition,
12、partition0为usp+nt,用于连接主host和ep,
13、partition1/2/3为nt,用于连接host,
14、partition4/6为crosslink nt,用于连接其他模组;
15、p0模组支持插入1个host,配置3个partition,
16、partition0为usp+nt,用于连接主host和ep,
17、partition4/5为crosslink nt,用于连接其他模组;
18、p1模组支持插入1个host,配置3个partition,
19、partition0为usp+nt,用于连接主host和ep,
20、partition5/6为crosslink nt,用于连本文档来自技高网...
【技术保护点】
1.基于PCIe Switch的互联池化系统拓扑管理装置,其特征在于:包括拓扑管理单元、拓扑查询单元、拓扑监测和状态更新单元;
2.根据权利要求1所述的基于PCIe Switch的互联池化系统拓扑管理装置,其特征在于:采用三个独立模组为分析主体,三个独立模组分别为C0模组、P0模组、P1模组,每个HOST拥有对应的Node_id。
3.根据权利要求2所述的基于PCIe Switch的互联池化系统拓扑管理装置,其特征在于,三个独立模组配置如下:
4.基于PCIe Switch的互联池化系统拓扑管理方法,其特征在于,包括以下步骤:
5.根据权利要求4所述的基于PCIe Switch的互联池化系统拓扑管理方法,其特征在于:在拓扑节点管理中,根据板卡类型、板卡编号、partition编号的不同,赋予每个主机不同的节点编号;
6.根据权利要求4所述的基于PCIe Switch的互联池化系统拓扑管理方法,其特征在于:所述拓扑查询单元的检查方法包括以下步骤:
7.根据权利要求4所述的基于PCIe Switch的互联池化系统
8.根据权利要求7所述的基于PCIe Switch的互联池化系统拓扑管理方法,其特征在于,所述拓扑监测和状态更新单元的工作流程包括以下步骤:
...【技术特征摘要】
1.基于pcie switch的互联池化系统拓扑管理装置,其特征在于:包括拓扑管理单元、拓扑查询单元、拓扑监测和状态更新单元;
2.根据权利要求1所述的基于pcie switch的互联池化系统拓扑管理装置,其特征在于:采用三个独立模组为分析主体,三个独立模组分别为c0模组、p0模组、p1模组,每个host拥有对应的node_id。
3.根据权利要求2所述的基于pcie switch的互联池化系统拓扑管理装置,其特征在于,三个独立模组配置如下:
4.基于pcie switch的互联池化系统拓扑管理方法,其特征在于,包括以下步骤:
5.根据权利要求4所述的基于pcie switc...
【专利技术属性】
技术研发人员:闫莉莉,徐木水,李楠,汪木金,师雯,
申请(专利权)人:北京数渡信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。