当前位置: 首页 > 专利查询>辉达公司专利>正文

数据中心中的自动误差预测制造技术

技术编号:38768305 阅读:11 留言:0更新日期:2023-09-10 10:41
本公开涉及数据中心中的自动误差预测。用于预测处理单元中的错误或异常的概率(例如数据中心的那些)的设备、系统和技术。在至少一个实施例中,使用多个经训练的机器学习模型来识别处理单元中发生误差的概率,其中经训练的机器学习模型各自输出例如在不同的预定时间段内发生误差的概率。内发生误差的概率。内发生误差的概率。

【技术实现步骤摘要】
数据中心中的自动误差预测


[0001]至少一个实施例涉及训练和使用机器学习模型来预测诸如数据中心的处理单元之类的设备中的误差。

技术介绍

[0002]数据中心可以包括多个节点,其中每个节点可以包括例如一个或更多个中央处理单元(CPU)和/或一个或更多个图形处理单元(GPU)。通常,数据中心的节点可能会遇到由硬件、软件和/或用户应用程序相关问题引起的故障和/或误差(error)。数据中心的一个或更多个节点的故障可能会对数据中心的其他节点产生连锁反应,这可能会触发附加节点的误差和/或故障,在某些情况下会引起数据中心中的故障。数据中心中的故障可能导致资源、金钱和/或数据(例如,故障时处理的工作负载)的损失。此外,一旦发生误差,经历故障和/或误差的节点将被重新启动或修复,这增加了数据中心的节点的停机时间并且不利地影响数据中心的性能。
附图说明
[0003]图1A示出了根据至少一个实施例的推理和/或训练逻辑;
[0004]图1B示出了根据至少一个实施例的推理和/或训练逻辑;
[0005]图2示出了根据至少一个实施例的神经网络的训练和部署;
[0006]图3示出了根据至少一个实施例的示例数据中心;
[0007]图4A示出了根据至少一个实施例的基于数据中心的一个或更多个图形处理单元(GPU)的遥测生成用于训练一个或更多个机器学习模型的特征;
[0008]图4B示出了根据至少一个实施例的基于图4A的所生成的特征来训练一个或更多个机器学习模型以预测在各个预定时间段内的数据中心的GPU中发生误差的概率;
[0009]图5示出了根据至少一个实施例的基于图4B的经训练机器学习模型来预测在各个预定时间段内的数据中心的GPU中发生误差的概率;
[0010]图6是根据至少一个实施例的预测在各种预定时间段内的数据中心的图形处理单元中发生误差的概率的流程图;
[0011]图7是根据至少一个实施例的训练多个机器学习模型以预测在各种预定时间段内的数据中心的图形处理单元中发生误差的概率的流程图;
[0012]图8示出了根据至少一个实施例确定数据中心的GPU中是否正在发生异常;
[0013]图9是根据至少一个实施例的识别数据中心的图形处理单元中的异常的流程图;
[0014]图10是示出根据至少一个实施例的计算机系统的框图;
[0015]图11示出了根据至少一个实施例的图形处理器;
[0016]图12示出了根据一个或更多个实施例的图形处理器的至少部分;
[0017]图13示出了根据一个或更多个实施例的图形处理器的至少部分;
[0018]图14示出了根据一个或更多个实施例的图形处理器的至少部分;
[0019]图15是根据至少一个实施例的图形处理器的图形处理引擎的框图。
具体实施方式
[0020]本文描述的是用于预测设备队列(fleet)或许多设备的集合中的设备的误差和/或故障的方法、系统和装置。例如,本文描述的方法、系统和装置可以预测可能包括数百或数千个设备的数据中心中的一个或更多个设备(例如,GPU、DPU和/或CPU)的误差和/或故障。在实施例中,可以通过收集从系统和/或驱动程序收集的系统级遥测数据和/或度量并使用一个或更多个训练的机器学习模型来处理系统遥测数据和/或度量来预测误差和/或故障。检测到的误差和/或故障可以包括指示硬件问题的误差和/或故障、指示软件问题的误差和/或故障和/或指示用户应用程序问题的误差和/或故障。然后可以在误差或故障发生之前将预测到误差和/或故障的设备循环离线、维修(例如,通过执行预防性维护)、更新、监控、重新分配等。在数据中心内发生误差和/或故障之前,这种对误差和/或故障的预测以及抢先的动作的执行可以减少数据丢失、增加正常运行时间和/或效率,和/或改进数据中心的功能。
[0021]在一个实施例中,处理逻辑接收设备(例如,数据中心的节点)的遥测数据,其中遥测数据指示设备操作的至少一个方面。处理逻辑使用多个经训练的机器学习模型基于遥测数据来处理输入以生成多个误差预测。第一经训练的机器学习模型可以输出包括在第一未来时间段内发生的误差的第一概率的第一误差预测。第二经训练的机器学习模型可以输出包括在第二未来时间段内发生的误差的第二概率的第二误差预测。一个或更多个附加的经训练机器学习模型可以附加地输出附加的误差预测,包括在其他未来时间段内发生误差的概率。然后,处理逻辑可以使用多个经训练的机器学习模型的输出来确定是否(以及可选地何时)对设备执行预防性动作。因此,处理逻辑可以基于预测未来问题何时发生来在适当的未来时间范围内解决预测的未来问题。结果,可以尽可能长时间地使用设备,同时在误差发生之前仍然对这些设备执行预防性维护和/或其他动作。这可以在数据中心内实现设备使用的最大效率。
[0022]推理和训练逻辑
[0023]在实施例中,训练多个机器学习模型以预测设备(例如,数据中心中的CPU、DPU和/或GPU)的误差和/或故障。图1A示出了根据一个或更多个实施例的用于执行这种机器学习模型的推理和/或训练操作的推理和/或训练逻辑115。下面结合图1A和/或图1B提供关于推理和/或训练逻辑115的细节。
[0024]在至少一个实施例中,推理和/或训练逻辑115可以包括但不限于代码和/或数据存储101,用于存储前向和/或输出权重和/或输入/输出数据,和/或在一个或更多个实施例的方面中配置被训练为和/或用于推理的神经网络的神经元或层的其他参数。在至少一个实施例中,训练逻辑115可以包括或耦合到用于存储图形代码或其他软件以控制时序和/或顺序的代码和/或数据存储101,其中权重和/或其他参数信息被加载以配置逻辑,包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。在至少一个实施例中,代码(诸如图代码)基于该代码所对应的神经网络的架构将权重或其他参数信息加载到处理器ALU中。在至少一个实施例中,代码和/或数据存储101存储在使用一个或更多个实施例的方面训练和/或推理期间的输入/输出数据和/或权重参数的前向传播期间结合一个或更多个实施例训练或
使用的神经网络的每个层的权重参数和/或输入/输出数据。在至少一个实施例中,代码和/或数据存储101的任何部分都可以包括在其他片上或片外数据存储内,包括处理器的L1、L2或L3高速缓存或系统存储器。
[0025]在至少一个实施例中,代码和/或数据存储101的任何部分可以在一个或更多个处理器或其他硬件逻辑设备或电路的内部或外部。在至少一个实施例中,数据存储101可以是高速缓存存储器、动态随机可寻址存储器(“DRAM”)、静态随机可寻址存储器(“SRAM”)、非易失性存储器(例如闪存)或其他存储。在至少一个实施例中,对数据存储101是在处理器的内部还是外部的选择,例如,或者由DRAM、SRAM、闪存或某种其他存储类型组成,可以取决于存储片上或片外的可用存储空间,正在执行训练和/或推理功能的延迟要求,在神经网络的推理和/或训练中使用的数据的批大小或这些因本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:接收设备的遥测数据,其中所述遥测数据指示所述设备的操作的至少一个方面;使用多个经训练的机器学习模型,处理基于所述遥测数据的输入以生成多个误差预测,其中所述多个经训练的机器学习模型包括:第一经训练的机器学习模型,其输出所述多个误差预测中的第一误差预测,所述第一误差预测包括在第一未来时间段内发生误差的第一概率;以及第二经训练的机器学习模型,其输出所述多个误差预测中的第二误差预测,所述第二误差预测包括在第二未来时间段内发生误差的第二概率;以及基于所述多个误差预测确定是否对所述设备执行预防性动作。2.如权利要求1所述的方法,其中所述第一误差预测识别将在所述第一未来时间段内发生的潜在误差的类型,并且其中所述第二误差预测识别将在所述第二未来时间段内发生的潜在误差的类型。3.如权利要求1所述的方法,其中所述多个经训练的机器学习模型还包括:第三经训练的机器学习模型,其输出所述多个误差预测中的第三误差预测,所述第三误差预测包括在第三未来时间段内发生误差的第三概率;以及第四经训练的机器学习模型,其输出所述多个误差预测中的第四误差预测,所述第四误差预测包括在第四未来时间段内发生误差的第四概率。4.如权利要求1所述的方法,其中所述多个经训练的机器学习模型中的每一个都包括递归神经网络。5.如权利要求1所述的方法,其中所述设备包括图形处理单元。6.如权利要求1所述的方法,还包括:基于所述多个误差预测确定何时执行所述预防性动作。7.如权利要求1所述的方法,还包括:基于多个设备的遥测数据,周期性地重新训练所述多个经训练的机器学习模型,所述多个设备共享在最后训练所述多个经训练的机器学习模型之后生成的公共设备类型。8.如权利要求1所述的方法,其中所述遥测数据包括第一参数和第二组参数,所述方法还包括:从所述遥测数据确定所述第一参数的第一值;基于将所述第二组参数的值输入到将所述第一参数与所述第二组参数相关的函数中来估计所述第一参数的第二值;确定所述第一值和所述第二值之间的差值;以及基于所述第一值与所述第二值之间的差值确定是否检测到异常。9.如权利要求1所述的方法,其中执行所述预防性动作包括:提供预测到所述设备将在所述第一未来时间段或所述第二未来时间段内经历误差、故障或错误中的至少一个的通知。10.一种非暂时性计算机可读介质,其包括指令,响应于由处理设备执行所述指令,使所述处理设备执行以下操作,包括:接收共享公共设备类型的多个设备的历史遥测数据;训练多个机器学习模型,以基于所述历史遥测数据为具有所述设备类型的设备生成误
差预测,其中训练所述多个机器学习模型包括:训练第一机器学习模型以输出包括在第一时间段内发生误差的第一概率的第一误差预测;以及训练第二机器学习模型以输出包括在第二时间段内发生误差的第二概率的第二误差预测。11.如权利要求10所述的非暂时性计算机可读介质,其中所述多个设备包括数据中心的多个图形处理单元。12.如权利要求10所述的非暂时性计算机可读介质,还使所述处理设备执行以下操作,包括:使用所述经训练...

【专利技术属性】
技术研发人员:T
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1