【技术实现步骤摘要】
本专利技术属于计算机通信,尤其涉及一种pcie链路故障三层预警与自动修复方法及系统。
技术介绍
1、随着数据中心规模化发展及人工智能加速计算的普及,pcie总线作为高速数据传输的核心通道,在gpu集群、存储阵列等场景中得到广泛应用。传统pcie链路故障处理依赖协议层基础机制,包括链路训练状态机(ltssm)重置、物理层重试及操作系统驱动干预等。具体而言,当检测到tlp包crc错误或信号异常时,现有方案通常通过软件触发链路重训练,即驱动程序调用设备重置接口,导致链路暂时中断并重新协商速率与位宽;对于时钟同步问题,依赖cpu主时钟源单一供给,缺乏独立的时钟异常监测与切换机制。此类方案在硬件层仅实现基础信号传输,故障检测与修复逻辑高度依赖上层软件系统。
2、然而,上述传统方案在复杂业务场景中暴露出显著缺陷:其一,修复过程需中断业务并依赖操作系统调度,如链路重训练耗时达数百毫秒,导致ai训练任务数据吞吐量骤降,甚至引发任务中断;其二,故障检测维度单一,仅能识别协议层crc错误或物理层极端信号异常,缺乏对电气层信号摆幅、时钟抖动及业务
...【技术保护点】
1.一种PCIE链路故障三层预警与自动修复方法,其特征在于,包括以下具体步骤:
2.如权利要求1所述一种PCIE链路故障三层预警与自动修复方法,其特征在于,所述PCIEswitch集成硬件仲裁电路,通过解析TLP包头的BDF地址及传输方向标记识别错误方向,识别时间≤2个PCIe时钟周期。
3.如权利要求1所述一种PCIE链路故障三层预警与自动修复方法及系统,其特征在于,所述电气层预警参数包括:BER≥1e-5、信号摆幅<850mV±10%、时钟抖动>UI/8,满足PCI-SIG信号完整性规范。
4.如权利要求1所述一种PCIE链路故
...【技术特征摘要】
1.一种pcie链路故障三层预警与自动修复方法,其特征在于,包括以下具体步骤:
2.如权利要求1所述一种pcie链路故障三层预警与自动修复方法,其特征在于,所述pcieswitch集成硬件仲裁电路,通过解析tlp包头的bdf地址及传输方向标记识别错误方向,识别时间≤2个pcie时钟周期。
3.如权利要求1所述一种pcie链路故障三层预警与自动修复方法及系统,其特征在于,所述电气层预警参数包括:ber≥1e-5、信号摆幅<850mv±10%、时钟抖动>ui/8,满足pci-sig信号完整性规范。
4.如权利要求1所述一种pcie链路故障三层预警与自动修复方法及系统,其特征在于,所述业务层心跳包周期为50ms-500ms,包含64位时间戳,异常判定标准为连续2个周期丢失或时间戳偏差>128ns。
5.一种pcie链路故障三层预警与自动修复系统,其特征在于,包括:
6.如权利要求5...
【专利技术属性】
技术研发人员:张苗苗,梅赛国,朱玉伟,徐亮,马扬眉,鞠荣荣,
申请(专利权)人:百信信创北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。