数据中心中的自动误差预测制造技术

技术编号：38768305 阅读：11 留言：0更新日期：2023-09-10 10:41

本公开涉及数据中心中的自动误差预测。用于预测处理单元中的错误或异常的概率(例如数据中心的那些)的设备、系统和技术。在至少一个实施例中，使用多个经训练的机器学习模型来识别处理单元中发生误差的概率，其中经训练的机器学习模型各自输出例如在不同的预定时间段内发生误差的概率。内发生误差的概率。内发生误差的概率。

全部详细技术资料下载

【技术实现步骤摘要】
数据中心中的自动误差预测

[0001]至少一个实施例涉及训练和使用机器学习模型来预测诸如数据中心的处理单元之类的设备中的误差。

技术介绍

[0002]数据中心可以包括多个节点，其中每个节点可以包括例如一个或更多个中央处理单元(CPU)和/或一个或更多个图形处理单元(GPU)。通常，数据中心的节点可能会遇到由硬件、软件和/或用户应用程序相关问题引起的故障和/或误差(error)。数据中心的一个或更多个节点的故障可能会对数据中心的其他节点产生连锁反应，这可能会触发附加节点的误差和/或故障，在某些情况下会引起数据中心中的故障。数据中心中的故障可能导致资源、金钱和/或数据(例如，故障时处理的工作负载)的损失。此外，一旦发生误差，经历故障和/或误差的节点将被重新启动或修复，这增加了数据中心的节点的停机时间并且不利地影响数据中心的性能。
附图说明
[0003]图1A示出了根据至少一个实施例的推理和/或训练逻辑；
[0004]图1B示出了根据至少一个实施例的推理和/或训练逻辑；
[0005]图2示出了根据至少一个实施例的神经网络的训练和部署；
[0006]图3示出了根据至少一个实施例的示例数据中心；
[0007]图4A示出了根据至少一个实施例的基于数据中心的一个或更多个图形处理单元(GPU)的遥测生成用于训练一个或更多个机器学习模型的特征；
[0008]图4B示出了根据至少一个实施例的基于图4A的所生成的特征来训练一个或更多个机器学习模型以预测在各个预定时间段内的数据中心的G...

【技术保护点】

【技术特征摘要】
1.一种方法，包括：接收设备的遥测数据，其中所述遥测数据指示所述设备的操作的至少一个方面；使用多个经训练的机器学习模型，处理基于所述遥测数据的输入以生成多个误差预测，其中所述多个经训练的机器学习模型包括：第一经训练的机器学习模型，其输出所述多个误差预测中的第一误差预测，所述第一误差预测包括在第一未来时间段内发生误差的第一概率；以及第二经训练的机器学习模型，其输出所述多个误差预测中的第二误差预测，所述第二误差预测包括在第二未来时间段内发生误差的第二概率；以及基于所述多个误差预测确定是否对所述设备执行预防性动作。2.如权利要求1所述的方法，其中所述第一误差预测识别将在所述第一未来时间段内发生的潜在误差的类型，并且其中所述第二误差预测识别将在所述第二未来时间段内发生的潜在误差的类型。3.如权利要求1所述的方法，其中所述多个经训练的机器学习模型还包括：第三经训练的机器学习模型，其输出所述多个误差预测中的第三误差预测，所述第三误差预测包括在第三未来时间段内发生误差的第三概率；以及第四经训练的机器学习模型，其输出所述多个误差预测中的第四误差预测，所述第四误差预测包括在第四未来时间段内发生误差的第四概率。4.如权利要求1所述的方法，其中所述多个经训练的机器学习模型中的每一个都包括递归神经网络。5.如权利要求1所述的方法，其中所述设备包括图形处理单元。6.如权利要求1所述的方法，还包括：基于所述多个误差预测确定何时执行所述预防性动作。7.如权利要求1所述的方法，还包括：基于多个设备的遥测数据，周期性地重新训练所述多个经训练的机器学习模型，所述多个设备共享在最后训练所述多个经训练的机器学习模型之后生成的公共设备类型。8.如权利要求1所述的方法，其中所述遥测数据包括第一参数和第二组参数，所述方法还包括：从所述遥测数据确定所述第一参数的第一值；基于将所述第二组参数的值输入到将所述第一参数与所述第二组参数相关的函数中来估计所述第一参数的第二值；确定所述第一值和所述第二值之间的差值；以及基于所述第一值与所述第二值之间的差值确定是否检测到异常。9.如权利要求1所述的方法，其中执行所述预防性动作包括：提供预测到所述设备将在所述第一未来时间段或所述第二未来时间段内经历误差、故障或错误中的至少一个的通知。10.一种非暂时性计算机可读介质，其包括指令，响应于由处理设备执行所述指令，使所述处理设备执行以下操作，包括：接收共享公共设备类型的多个设备的历史遥测数据；训练多个机器学习模型，以基于所述历史遥测数据为具有所述设备类型的设备生成误
差预测，其中训练所述多个机器学习模型包括：训练第一机器学习模型以输出包括在第一时间段内发生误差的第一概率的第一误差预测；以及训练第二机器学习模型以输出包括在第二时间段内发生误差的第二概率的第二误差预测。11.如权利要求10所述的非暂时性计算机可读介质，其中所述多个设备包括数据中心的多个图形处理单元。12.如权利要求10所述的非暂时性计算机可读介质，还使所述处理设备执行以下操作，包括：使用所述经训练...

【专利技术属性】
技术研发人员：T，
申请(专利权)人：辉达公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人