分布式系统中的硬件加速器的预检检查技术方案

技术编号:41343190 阅读:21 留言:0更新日期:2024-05-20 09:59
描述了用于执行分布式计算系统的预检检查的方法、系统和装置,包括编码在计算机存储介质上计算机程序。在一个方面,一种方法包括将计算工作负载分配给硬件加速器机器的第一子集,每个硬件加速器机器都具有一个或多个硬件加速器。在执行计算工作负载之前对第一子集执行预检检查以验证第一子集中的每个机器的功能性。对于第一子集的每个硬件加速器机器,安装程序代码包,包括至少部分地基于计算工作负载的特性的任务动作。在硬件加速器机器上执行包括操作序列的任务动作以确定任务动作是否失败。每当任务操作失败时,计算工作负载就被重新分配给与第一子集不同的硬件加速器机器的第二子集。

【技术实现步骤摘要】
【国外来华专利技术】

本说明书涉及对分布式计算系统中的硬件加速器执行预检(preflight)检查。


技术介绍

1、人工智能(ai)是由机器表现出的智能,并且表示计算机程序或机器思考和学习的能力。一个或多个计算机可用于执行人工智能计算,以训练机器执行相应任务。ai计算可以包括由一个或多个机器学习模型表示的计算。

2、神经网络属于机器学习模型的子领域。神经网络可以采用表示多种操作,例如向量或矩阵操作,的一层或多层节点。一个或多个计算机可以被配置为执行神经网络的操作或计算以生成输出,例如对接收的输入的分类、预测或分段。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层,即,下一个隐藏层或输出层,的输入。网络的每一层根据相应网络参数集的当前值从接收到的输入生成输出。

3、与通用中央处理单元(cpu)运行的操作相比,特别设计的硬件加速器可以更快且更有效地执行特定功能和操作,包括在神经网络中指定的操作或计算。硬件加速器可以包括图形处理单元(gpu)、张量处理单元(tpu)、视频处理单元(vpu)、现场可编程门阵列(fpga)或专用集本文档来自技高网...

【技术保护点】

1.一种方法,包括:

2.根据权利要求1所述的方法,其中,所述相应任务动作至少部分地基于所述计算工作负载的特性,其中,验证一个或多个硬件加速器机器的所述第一子集的所述功能性至少部分地基于一个或多个硬件加速器机器的所述第一子集的一个或多个硬件加速器的特性以及所述计算工作负载的所述特性,其中,验证所述功能性还包括检查至少一个或多个算术错误、互连比特错误率、拓扑错误或一个或多个硬件加速器机器的所述第一子集中的一个或多个硬件加速器的互连。

3.根据权利要求1所述的方法,还包括:

4.根据权利要求1所述的方法,还包括:

5.根据权利要求1所述的方法,...

【技术特征摘要】
【国外来华专利技术】

1.一种方法,包括:

2.根据权利要求1所述的方法,其中,所述相应任务动作至少部分地基于所述计算工作负载的特性,其中,验证一个或多个硬件加速器机器的所述第一子集的所述功能性至少部分地基于一个或多个硬件加速器机器的所述第一子集的一个或多个硬件加速器的特性以及所述计算工作负载的所述特性,其中,验证所述功能性还包括检查至少一个或多个算术错误、互连比特错误率、拓扑错误或一个或多个硬件加速器机器的所述第一子集中的一个或多个硬件加速器的互连。

3.根据权利要求1所述的方法,还包括:

4.根据权利要求1所述的方法,还包括:

5.根据权利要求1所述的方法,其中,所述相应任务动作各自包括开始前任务动作或完成后任务动作,其中,所述开始前任务动作包括在执行所述计算工作负载之前要由在所述硬件加速器机器处的所述节点管理器执行的第一操作序列,其中,所述完成后任务包括在完成所述计算工作负载之后要由在所述硬件加速器机器处的所述节点管理器执行的第二操作序列。

6.根据权利要求1所述的方法,还包括:

7.根据权利要求1所述的方法,其中,所述操作序列包括:

8.根据权利要求7所述的方法,其中,所述预检检查器二进制代码的实施方式包括集成在所述计算工作负载中或者作为机器守护程序安装在所述硬件加速器机器上的所述预检检查器二进制代码,其中,至少部分基于磁盘空间消耗的度量、操作系统根特权或发布节奏中的一个或多个确定所述实施方式。

9.根据权利要求7所述的方法,其中,所述预检检查器二进制代码包括指令,所述指令当由所述硬件加速器机器的一个或多个硬件加速器执行时,使所述硬件加速器机器中的所述一个或多个硬件加速器执行所分配的计算工作负载的一部分以生成作业输出。

10.根据权利要求9所述的方法,其中,生成指示所述相应任务动作是否失败的所述输出包括:

11.根据权利要求7所述的方法,其中,所述预检检查器二进制代码是安装在所述硬件加速器机器上的检查器守护程序,所述检查器守护程序当被执行时被配置为确定一个或多个硬件加速器机器的所述第一子集中的一个或多个硬件加速器当中的互连故障,其中,所述互连故障的所述确定基于由集中式拓扑管理器提供的拓扑数据,所述拓扑数据表示一个或多个硬件加速器机器的所述第一子集中的硬件加速器之间的互连。

12.根据权利要求11所述的方法...

【专利技术属性】
技术研发人员:朱佳凡刘剑桥董翔宇张晓唐继开杨可昕赵勇阿里礼萨·加法尔可汗阿拉什·尼扎埃祖亚洲杜达友孔祥灵洪伍·党亚历山大·瓦迪莫维奇·科尔巴索夫
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1