一种面向深度学习的处理器模组制造技术

技术编号:30762079 阅读:16 留言:0更新日期:2021-11-10 12:16
本发明专利技术提供一种面向深度学习的处理器模组,包括多核CPU模块、深度学习加速引擎阵列、通信模块以及存储模块。其中,多核CPU模块包括若干个并行分布的CPU;深度学习加速引擎阵列包括若干个与CPU可通信地连接的深度学习单元;通信模块包括若干个通信接口,任一通信接口的一端与多核CPU模块和/或深度学习加速引擎阵列可通信地连接;以及存储模块与多核CPU模块和/或深度学习加速引擎阵列可通信地连接。接。接。

【技术实现步骤摘要】
一种面向深度学习的处理器模组


[0001]本专利技术涉及深度学习
,特别涉及一种面向深度学习的处理器模组。

技术介绍

[0002]深度学习属于机器学习研究中的一个领域,其主要目的在于建立、模拟人脑进行分析学习的神经网络,通过模仿人脑的机制来解释数据,例如图像,声音和文本。深度机器学习方法包括监督学习与无监督学习,不同的学习框架下建立的学习模型不同。例如,卷积神经网络(Convolutional neural networks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称DBNs)就是一种无监督学习下的机器学习模型。
[0003]基于服务器运行深度学习模型应用非常常见,例如图像识别、信号识别、网络分类等。由于深度学习模型运行本身需要极高的算力,将模型部署于服务器,通过本地网络或者互联网传输模型输入及输出结果是一种常见的应用场景。因此,会有一大部分深度学习模型会以部署在服务器的方式向市场提供人工智能方面的服务。
[0004]由于相较于CPU(Central Processing Unit,中央处理器)而言,GPU(Graphics Processing Unit,图像处理器)具有更强的浮点数运算能力,因此,深度学习通常采用GPU服务器实现。目前,常见的GPU服务器结构如图1所示,采用基于标准的外扩式服务器结构。所述GPU服务器包括多个CPU以及GPU,其中,通用性的计算任务由CPU完成,高度并行的深度学习计算任务由GPU完成,形成异构计算形态。CPU和GPU之间依靠PCIE总线进行通讯和数据交互。
[0005]在深度学习中通常存在一些强交互的场景,CPU与GPU需要进行大量的数据交互,而CPU的运算内存是基于自身所有的DDR接口连接,通常在主板上留有内存条插槽可以根据需要配置DDR内存容量,GPU的运算内存(通常也称为显存),则通常为已固定的容量配置,直接固化在GPU板卡上。CPU外挂内存和GPU显存之间的数据不共享,因此,在计算过程中,需要通过PCIE总线来回搬运,较为耗时,进而影响服务器运算效率。

技术实现思路

[0006]针对现有技术中的部分或全部问题,本专利技术提供一种面向深度学习的处理器模组,包括:
[0007]多核CPU模块,包括若干个并行分布的CPU;
[0008]深度学习加速引擎阵列,包括若干个深度学习单元,所述深度学习单元与所述多核CPU模块可通信地连接;
[0009]通信模块,包括若干个通信接口,任一所述通信接口的一端与所述多核CPU模块和/或深度学习加速引擎阵列可通信地连接;
[0010]存储模块,与所述多核CPU模块和/或深度学习加速引擎阵列可通信地连接。
[0011]进一步地,所述多核CPU模块采用RISC指令集架构。
[0012]进一步地,所述深度学习单元采用DSA特定领域架构方式搭建形成。
[0013]进一步地,所述通信接口包括PCIE总线接口和/或RGMII接口和/或UART接口。
[0014]进一步地,所述存储模块包括若干个存储芯片。
[0015]进一步的,所述存储芯片包括直接存储芯片和/或内嵌式存储器。
[0016]进一步地,所述深度学习单元与所述CPU通过内部AXI总线可通信地连接。
[0017]进一步地,所述处理器模组包括若干个运算簇,任一所述运算簇包括至少一个CPU核和/或一个深度学习单元以及存储模块。
[0018]本专利技术提供的一种面向深度学习的处理器模组,采用并行的RISC架构CPU形成多核CPU模块。随着技术演进,RISC架构CPU的性能与传统的x86 CISC架构CPU性能相当,但相较于传统的集中式的单个或两个多核x86 CPU,所述多核RISC架构CPU模块集成度更高,计算效能更优。此外,所述处理器模组中的深度学习单元采用特定领域架构(Domain Specific Architecture,DSA)方式搭建形成,为张量运算处理单元,并整合了图像解码能力,能够针对计算特点优化,因此相较于传统的GPU,具有更高的性能但更低的功耗,具有更高的视频解析吞吐能力。基于RISC架构CPU以及DSA架构的深度学习单元,所述处理器中的各运算簇能够支持容器,进而独立完成深度学习计算任务,这也使得出现单点故障时,不会影响到其他运算簇,尽可能小地降低单点故障的影响。同时,所述处理器模组内的各模块之间通过内部AXI总线通信,且所述多核CPU模块以及深度学习加速引擎阵列可共用存储空间,能够访问同一存储空间内的数据,这就使得在深度学习计算任务中,即便是进行异构运算,也不需要进行数据搬运,大大提高了计算能效。此外,内部AXI总线为芯片内部模块的互联结构,其可以利用芯片内部更高的密度实现更宽的总线和更高的速率,相较于PCIE总线而言,具有更优的延迟及速率性能。
附图说明
[0019]为进一步阐明本专利技术的各实施例的以上和其它优点和特征,将参考附图来呈现本专利技术的各实施例的更具体的描述。可以理解,这些附图只描绘本专利技术的典型实施例,因此将不被认为是对其范围的限制。在附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。
[0020]图1示出现有技术中的一种GPU服务器的结构示意图;
[0021]图2示出本专利技术一个实施例中一种面向深度学习的分布式服务器的结构示意图;
[0022]图3示出本专利技术一个实施例中处理器模组的功能框图示意图;
[0023]图4示出本专利技术一个实施例中的一种服务器集群的结构示意图;以及
[0024]图5示出本专利技术一个实施例中的一种基于服务器集群的深度学习方法。
具体实施方式
[0025]以下的描述中,参考各实施例对本专利技术进行描述。然而,本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法、材料或组件一起实施各实施例。在其它情形中,未示出或未详细描述公知的结构、材料或操作以免模糊本专利技术的专利技术点。类似地,为了解释的目的,阐述了特定数量、材料和配置,以便提供对本专利技术的实施例的全面理解。然而,本专利技术并不限于这些特定细节。此外,应理解附图中示出的各
实施例是说明性表示且不一定按正确比例绘制。
[0026]在本说明书中,对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本专利技术的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。
[0027]需要说明的是,本专利技术的实施例以特定顺序对工艺步骤进行描述,然而这只是为了阐述该具体实施例,而不是限定各步骤的先后顺序。相反,在本专利技术的不同实施例中,可根据工艺的调节来调整各步骤的先后顺序。
[0028]本专利技术基于专利技术人的如下洞察:随着深度学习计算任务复杂程度的提高,单一的GPU服务器已经难以满足其需求,因此,需要部署GPU服务器集群。然而,很多现有的数据中心或数据机房条件,难以容纳能满本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向深度学习的处理器模组,其特征在于,包括:多核CPU模块,包括若干个并行分布的CPU;深度学习加速引擎阵列,包括若干个深度学习单元,所述深度学习单元与所述多核CPU模块可通信地连接;通信模块,包括若干个通信接口,任一所述通信接口的一端与所述多核CPU模块和/或深度学习加速引擎阵列可通信地连接;存储模块,与所述多核CPU模块和/或深度学习加速引擎阵列可通信地连接。2.如权利要求1所述的处理器模组,其特征在于,所述CPU采用RISC指令集架构。3.如权利要求1所述的处理器模组,其特征在于,所述深度学习单元采用特定领域架构方式搭建形成。4.如权利要求1所述的处理器模组,其特征在于,所述通信接口包括...

【专利技术属性】
技术研发人员:张震宁陈亮
申请(专利权)人:上海熠知电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1