一种GPU故障检测与处理方法、装置、设备及存储介质制造方法及图纸

技术编号:46561987 阅读:2 留言:0更新日期:2025-10-10 21:14
本申请公开了一种GPU故障检测与处理方法、装置、设备及存储介质,涉及云计算技术领域,包括:基于GPU的上下文切换次数和校验错误计数确定显存异常进程的位置信息;压缩动态关联各应用性能指标与GPU的处理器信息得到的关联结果得到压缩后数据,对压缩后数据进行流处理、时序预测与孪生映射操作得到检测结果;利用基于历史故障数据生成的目标监控规则并基于目标知识图谱与检测结果处理位置信息得到待处理方案;利用基于GPU的区域温度分布数据和任务队列深度生成的预警信号生成快照策略,利用备用计算节点并基于快照策略处理待处理方案得到目标方案。这样能够提高检测GPU的效率。

【技术实现步骤摘要】

本专利技术涉及云计算,特别涉及一种gpu故障检测与处理方法、装置、设备及存储介质。


技术介绍

1、目前,使用多机多卡乃至千卡gpu(graphics processing unit,即图形处理器)集群训练深度学习模型,主要源于以下几个方面的迫切需求和显著优势。

2、首先,随着深度学习技术的飞速发展,模型的复杂度和参数量急剧增加,这对计算资源提出了前所未有的挑战。大型语言模型、图像识别系统等复杂应用往往需要数十亿甚至上千亿的参数,这些庞大的模型在单机单卡环境下几乎无法完成有效的训练。而多机多卡gpu集群则能够充分利用集群中多个gpu的计算能力,通过数据并行或模型并行的方式,将训练任务分散到多个gpu上并行处理,从而显著提升训练速度,缩短训练周期。

3、其次,深度学习模型的训练离不开大规模数据集的支持。随着数据规模的不断扩大,单机单卡的计算能力逐渐难以满足处理大数据集的需求。多机多卡gpu集群能够将大数据集分割成多个小批次,每个gpu处理一个小批次的数据,并行计算梯度并更新模型参数,从而实现对大数据集的高效处理。这种并行处理方式不仅提高本文档来自技高网...

【技术保护点】

1.一种GPU故障检测与处理方法,其特征在于,包括:

2.根据权利要求1所述的GPU故障检测与处理方法,其特征在于,所述利用调试接口集采集GPU对应的处理器信息,并利用预设采集设备采集散热结构的区域温度分布数据,然后获取所述GPU对应的上下文切换次数、任务队列深度与校验错误计数,以利用预设定位技术并基于所述上下文切换次数和所述校验错误计数确定显存异常进程的位置信息,包括:

3.根据权利要求1所述的GPU故障检测与处理方法,其特征在于,所述将各应用性能指标与所述处理器信息进行动态关联,得到关联结果,并利用轻量化模型对所述关联结果进行压缩,得到压缩后数据,包括:...

【技术特征摘要】

1.一种gpu故障检测与处理方法,其特征在于,包括:

2.根据权利要求1所述的gpu故障检测与处理方法,其特征在于,所述利用调试接口集采集gpu对应的处理器信息,并利用预设采集设备采集散热结构的区域温度分布数据,然后获取所述gpu对应的上下文切换次数、任务队列深度与校验错误计数,以利用预设定位技术并基于所述上下文切换次数和所述校验错误计数确定显存异常进程的位置信息,包括:

3.根据权利要求1所述的gpu故障检测与处理方法,其特征在于,所述将各应用性能指标与所述处理器信息进行动态关联,得到关联结果,并利用轻量化模型对所述关联结果进行压缩,得到压缩后数据,包括:

4.根据权利要求1所述的gpu故障检测与处理方法,其特征在于,所述利用预设时空融合分析模型对所述压缩后数据分别进行流处理、时序预测与孪生映射操作,得到检测结果,包括:

5.根据权利要求1所述的gpu故障检测与处理方法,其特征在于,所述构建包含历史故障案例的目标知识图谱,然后利用预设智能体并基于历史故障数据调整初始监控规则,得到目标监控规则,...

【专利技术属性】
技术研发人员:张齐昌任再旺高传集玄德
申请(专利权)人:浪潮企业云科技山东有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1