一种面向深度学习的分布式服务器及服务器集群制造技术

技术编号:30786389 阅读:17 留言:0更新日期:2021-11-16 07:48
本发明专利技术提供一种面向深度学习的分布式服务器,包括若干个分布式布置的处理器模组,电源模块以及数据通信模块,其中,任一处理器模组包括若干个并行分布的CPU、深度学习单元、通信模块以及存储模块,电源模块用于为所述处理器模组供电,以及数据通信模块用于实现所述处理器模组与外部设备的通信。理器模组与外部设备的通信。理器模组与外部设备的通信。

【技术实现步骤摘要】
一种面向深度学习的分布式服务器及服务器集群


[0001]本专利技术涉及深度学习
,特别涉及一种面向深度学习的分布式服务器及服务器集群。

技术介绍

[0002]深度学习属于机器学习研究中的一个领域,其主要目的在于建立、模拟人脑进行分析学习的神经网络,通过模仿人脑的机制来解释数据,例如图像,声音和文本。深度机器学习方法包括监督学习与无监督学习,不同的学习框架下建立的学习模型不同。例如,卷积神经网络(Convolutional neural networks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称DBNs)就是一种无监督学习下的机器学习模型。
[0003]基于服务器运行深度学习模型应用非常常见,例如图像识别、信号识别、网络分类等。由于深度学习模型运行本身需要极高的算力,将模型部署于服务器,通过本地网络或者互联网传输模型输入及输出结果是一种常见的应用场景。因此,会有一大部分深度学习模型会以部署在服务器的方式向市场提供人工智能方面的服务。
[0004]由于相较于CPU(Central Processing Unit,中央处理器)而言,GPU(Graphics Processing Unit,图像处理器)具有更强的浮点数运算能力,因此,深度学习通常采用GPU服务器实现。目前,常见的GPU服务器结构如图1所示,采用基于标准的外扩式服务器结构。所述GPU服务器包括多个CPU以及GPU,其中,通用性的计算任务由CPU完成,高度并行的深度学习计算任务由GPU完成,形成异构计算形态。CPU和GPU之间依靠PCIE总线进行通讯和数据交互。
[0005]在深度学习中通常存在一些强交互的场景,CPU与GPU需要进行大量的数据交互,而CPU的运算内存是基于自身所有的DDR接口连接,通常在主板上留有内存条插槽可以根据需要配置DDR内存容量,GPU的运算内存(通常也称为显存),则通常为已固定的容量配置,直接固化在GPU板卡上。CPU外挂内存和GPU显存之间的数据不共享,因此,在计算过程中,需要通过PCIE总线来回搬运,较为耗时,进而影响服务器运算效率。

技术实现思路

[0006]针对现有技术中的部分或全部问题,本专利技术一方面提供一种面向深度学习的分布式服务器,包括:
[0007]若干个处理器模组,其采用分布式布置,且任一所述处理器模组包括若干个并行分布的CPU、深度学习单元、通信模块以及存储模块;
[0008]电源模块,用于为所述处理器模组供电;以及
[0009]数据通信模块,用于实现所述处理器模组与外部设备的通信。
[0010]进一步地,所述数据通信模块包括第一交换机,所述第一交换机与所述处理器模组可通信地连接。
[0011]进一步地,所述第一交换机为网络交换芯片。
[0012]进一步地,任一所述处理器模组均设置有唯一的IP网络地址,并通过以太网协议,与所述第一交换机进行通信。
[0013]基于所述分布式服务器,本专利技术另一方面提供一种服务器集群,包括:
[0014]若干个分布式服务器,任一所述分布式服务器中包含至少一个处理器模组以及一个第一交换机;以及
[0015]第二交换机,连接至各第一交换机,用于将外部设备的数据和/或指令发放至各分布式服务器。
[0016]进一步地,所述分布式服务器通过以太网协议,与所述第二交换机进行通信。
[0017]进一步地,所述处理器模组的运行状态通过外部设备控制。
[0018]进一步地,任一所述布式服务器中处理器模组包括一个主控处理器,所述主控处理器用于接收外部设备的数据和/或指令,并分发至其余处理器模组。
[0019]本专利技术提供的一种面向深度学习的分布式服务器及服务器集群,采用分布式架构,将CPU及深度学习单元集成于处理器模组中,提高了服务器的集成度,以更低的功耗实现了更高的运算性能,使得服务器集群成为可能。各分布式服务器及其内部的处理器模组均通过以太网协议实现与外部设备的通信,提高了信息交互效率。
附图说明
[0020]为进一步阐明本专利技术的各实施例的以上和其它优点和特征,将参考附图来呈现本专利技术的各实施例的更具体的描述。可以理解,这些附图只描绘本专利技术的典型实施例,因此将不被认为是对其范围的限制。在附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。
[0021]图1示出现有技术中的一种GPU服务器的结构示意图;
[0022]图2示出本专利技术一个实施例中一种面向深度学习的分布式服务器的结构示意图;
[0023]图3示出本专利技术一个实施例中处理器模组的功能框图示意图;
[0024]图4示出本专利技术一个实施例中的一种服务器集群的结构示意图;以及
[0025]图5示出本专利技术一个实施例中的一种基于服务器集群的深度学习方法。
具体实施方式
[0026]以下的描述中,参考各实施例对本专利技术进行描述。然而,本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法、材料或组件一起实施各实施例。在其它情形中,未示出或未详细描述公知的结构、材料或操作以免模糊本专利技术的专利技术点。类似地,为了解释的目的,阐述了特定数量、材料和配置,以便提供对本专利技术的实施例的全面理解。然而,本专利技术并不限于这些特定细节。此外,应理解附图中示出的各实施例是说明性表示且不一定按正确比例绘制。
[0027]在本说明书中,对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本专利技术的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。
[0028]需要说明的是,本专利技术的实施例以特定顺序对工艺步骤进行描述,然而这只是为
了阐述该具体实施例,而不是限定各步骤的先后顺序。相反,在本专利技术的不同实施例中,可根据工艺的调节来调整各步骤的先后顺序。
[0029]本专利技术基于专利技术人的如下洞察:随着深度学习计算任务复杂程度的提高,单一的GPU服务器已经难以满足其需求,因此,需要部署GPU服务器集群。然而,很多现有的数据中心或数据机房条件,难以容纳能满足业务需求的GPU服务器集群,这主要是由于GPU服务器的功耗较高,其单机功耗通常在1000瓦以上,这就使得其无法在服务器机架上密集部署,当需要大量部署GPU服务器时,往往对于数据中心的供电和散热有特殊设计要求。
[0030]现有的GPU服务器多采用通过PCIE总线衔接的CPU+GPU架构,CPU与GPU之间通过PCIE总线进行通讯和数据交互。而造成现有的GPU服务器功耗较高的原因,一方面是由于其所采用的CPU及GPU本身的性能,另一方面则是由于CPU与GPU之间的数据搬运。具体而言,现有的GPU服务器中采用的CPU多为x86 CISC架构,其功耗本身较高,同时GPU内部有很多用于图形运算的部分,而这些部分并无法用于人工智能运算,还会造成额外的功耗。在一些CP本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向深度学习的分布式服务器,其特征在于,包括:若干个处理器模组,其采用分布式布置,且任一所述处理器模组包括若干个并行分布的CPU、深度学习单元、通信模块以及存储模块;电源模块,其被配置为能够为所述处理器模组供电;以及数据通信模块,其被配置为能够实现所述处理器模组与外部设备的通信。2.如权利要求1所述的分布式服务器,其特征在于,所述数据通信模块包括第一交换机,所述第一交换机与所述处理器模组可通信地连接。3.如权利要求2所述的分布式服务器,其特征在于,所述第一交换机为网络交换芯片。4.如权利要求2所述的分布式服务器,其特征在于,任一所述处理器模组均设置有唯一的IP网络地址,并通过以太网协议,与所述第一交...

【专利技术属性】
技术研发人员:张震宁陈亮
申请(专利权)人:上海熠知电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1