【技术实现步骤摘要】
本专利技术涉及计算机,特别是涉及一种异常检测方法、计算机程序产品和存储介质。
技术介绍
1、随着人工智能领域深度学习训练和大模型训练的日益普及,对于人工智能云平台的监控告警模块提出了更高的要求,特别是在兼容适配硬件方面,厂商提供的加速卡因其稳定性和高效性而受到青睐,然而,加速卡在长期使用过程中难免会遇到异常状态的问题,目前,相关
尚未公开如何有效检测加速卡异常的方案。
技术实现思路
1、鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种异常检测方法、计算机程序产品和存储介质。
2、为了解决上述问题,本专利技术公开了一种异常检测方法,应用于多个训练节点,多个所述训练节点用于协同执行训练任务;所述训练节点包括加速卡;
3、所述方法包括:
4、采集部署于所述训练节点的加速卡的运行信息;所述运行信息包括健康信息、异常编码信息、显存页状态信息中的至少一种;
5、根据所述运行信息,确定所述加速卡的异常情况;
6、根本文档来自技高网...
【技术保护点】
1.一种异常检测方法,其特征在于,应用于多个训练节点,多个所述训练节点用于协同执行训练任务;所述训练节点包括加速卡;
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述运行信息,确定所述加速卡的异常情况,包括:
4.根据权利要求3所述的方法,其特征在于,所述健康信息包括高速外围互联接口信息、闪存信息、温度信息、功率信息;所述判断所述健康信息是否指示所述加速卡健康状态异常,包括:
5.根据权利要求1所述的方法,其特征在于,所述采集部署于所述训练节点的加速卡的运
...【技术特征摘要】
1.一种异常检测方法,其特征在于,应用于多个训练节点,多个所述训练节点用于协同执行训练任务;所述训练节点包括加速卡;
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述运行信息,确定所述加速卡的异常情况,包括:
4.根据权利要求3所述的方法,其特征在于,所述健康信息包括高速外围互联接口信息、闪存信息、温度信息、功率信息;所述判断所述健康信息是否指示所述加速卡健康状态异常,包括:
5.根据权利要求1所述的方法,其特征在于,所述采集部署于所述训练节点的加速卡的运行信息,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述运行信息,确定所述加速卡的异常情况,包括:
7.根据权利要求6所述的方法,其特征在于,所述根据所述错误码类型,确定所述加速卡的异常情况,包括:
8.根据权利要求7所述的方法,其特征在于,所述错误码类型包括加速卡总线异常、外围组件互联接口异常、扩展识别异常中的至少一种,所述加速卡总线异常用于指示加速卡总线发生故障,所述外围组件互联接口异常用于指示外围组件互联接口运...
【专利技术属性】
技术研发人员:张书博,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。