用于机器学习工作负载的跨集群通信制造技术

技术编号:43421919 阅读:23 留言:0更新日期:2024-11-22 17:54
用于跨硬件加速器分发机器学习工作负载的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。系统中的一个包括:通过第一网络互连的第一多个硬件加速器和第一多个硬件加速器的一个或多个对应的主机;以及通过第二网络互连的第二多个硬件加速器和第二多个硬件加速器的一个或多个对应的主机,其中,第一多个硬件加速器和第二多个硬件加速器的对应的主机通过第三网络连接。例如,第一网络和第二网络可以各自是相应的核心间互连(ICI)网络,而第三网络可以是数据中心网络,例如以太网网络。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、本说明书涉及训练机器学习模型,包括神经网络。

2、神经网络是采用非线性单元的一个或多个层来针对所接收的输入预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中的下一层的输入,即用作下一隐藏层或输出层的输入。网络的每个层根据相应的网络参数的集合的当前值从所接收的输入生成输出。


技术实现思路

1、本说明书描述了用于提高两个或更多个硬件加速器集群的网络吞吐量的技术。硬件加速器(或简称“加速器”)是具有专用硬件的计算装置,所述计算装置被配置为执行专门计算,包括例如机器学习计算。加速器的示例包括图形处理单元(“gpu”)、现场可编程门阵列(“fgpa”)和专用集成电路(“asic”),包括张量处理单元(“tpu”)。

2、每个集群内的硬件加速器通过互连网络彼此互连,并通过其对应的主机通过数据中心网络连接到另一个集群内的硬件加速器。在一些实现方式中,两个或更多个硬件加速器集群是包括许多(可能数千个)硬件加速器的更大的基于云的计算系统本文档来自技高网...

【技术保护点】

1.一种系统,包括:

2.如权利要求1所述的系统,其中,所述系统被配置为在所述训练期间的所述多个时间点中的每个时间点处:

3.如权利要求1至2中任一项所述的系统,其中,所述第一网络和所述第二网络各自是与所述第三网络不同的相应的核心间互连(ICI)网络。

4.如权利要求1至3中任一项所述的系统,其中,所述第三网络是数据中心网络,包括以太网网络。

5.如权利要求1至4中任一项所述的系统,其中:

6.如权利要求5所述的系统,其中,通过所述第三网络将所述本地数据传输到所述第二多个硬件加速器包括:

7.如权利要求5至6中任一项...

【技术特征摘要】
【国外来华专利技术】

1.一种系统,包括:

2.如权利要求1所述的系统,其中,所述系统被配置为在所述训练期间的所述多个时间点中的每个时间点处:

3.如权利要求1至2中任一项所述的系统,其中,所述第一网络和所述第二网络各自是与所述第三网络不同的相应的核心间互连(ici)网络。

4.如权利要求1至3中任一项所述的系统,其中,所述第三网络是数据中心网络,包括以太网网络。

5.如权利要求1至4中任一项所述的系统,其中:

6.如权利要求5所述的系统,其中,通过所述第三网络将所述本地数据传输到所述第二多个硬件加速器包括:

7.如权利要求5至6中任一项所述的系统,其中,通过所述第三网络将所述相应远程数据传输到所述第一多个硬件加速器包括:

8.如权利要求1至7中任一项所述的系统,其中,所述第一多个硬件加速器被配置为在所述训练期间的所述多个时间点中的每个时间点处:

9.如权利要求1至8中任一项所述的系统,其中,所述系统还包括所述第一多个硬件加速器或所述第二多个硬件加速器的相应调度器...

【专利技术属性】
技术研发人员:阿坎克沙·乔杜里保罗·罗纳德·巴勒姆
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1