一种面向深度学习的CPU与GPU混合的集群架构系统技术方案

技术编号:12669961 阅读:55 留言:0更新日期:2016-01-07 14:32
本发明专利技术公开了一种面向深度学习的CPU与GPU混合的集群架构系统,该系统包括:中央处理器CPU集群,用于运行逻辑密集的深度学习应用;图像处理器GPU集群,用于运行计算密集的深度学习应用;与CPU集群相连的第一交换机;与GPU集群相连的第二交换机;与第一交换机和第二交换机相连的第三交换机;与第三交换机相连的并行存储设备,用于为CPU集群和GPU集群提供共用的数据。该系统实现减少资源耗能,提高深度学习处理效率,且降低成本。

【技术实现步骤摘要】

本专利技术涉及互联网高性能计算
,特别是涉及一种面向深度学习的CPU与GPU混合的集群架构系统
技术介绍
在2006年,加拿大多伦多大学教授、机器学习领域泰斗--Geoffrey Hinton和他的学生Ruslan Salakhutdinov在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。自2006年以来,深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据,就是脑神经系统的确具有丰富的层次结构。一个最著名的例子就是Hubel-Wiesel模型,由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。除了仿生学的角度,目前深度学习的理论研究还基本处于起步阶段,但在应用领域已显现出巨大能量。2011年以来,微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20%?30%,是语音识别领域十多年来最大的突破性进展。2012年,DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。在这一年,DNN还被应用于制药公司的Druge Activity预测问题,并获得世界最好成绩,这一重要成果被《纽约时报》报道。如今Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是大数据时代来临,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。深度学习应用包括语音识别、图像识别、自然语言处理、搜索广告CTR预估等,这些应用的计算量十分巨大,其需要大规模计算。目前大规模的深度学习系统由纯CPU集群架构组成,或者由纯GPU集群架构组成,但是采用纯CPU集群架构系统,它完全由CPU构成,需要消耗大量的CPU能耗,资源耗能太大,而且CPU集群只能处理一种应用特征的深度学习,不能处理其他种类的深度学习应用,处理深度学习应用的效率太低,而且CPU本身硬件成本就很高,整个CPU集群的成本太高。
技术实现思路
本专利技术的目的是提供一种面向深度学习的CPU与GPU混合的集群架构系统,以实现减少资源耗能,提高深度学习处理效率,且降低成本。为解决上述技术问题,本专利技术提供一种面向深度学习的CPU与GPU混合的集群架构系统,该系统包括:中央处理器CPU集群,用于运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,所述CPU集群中每个CPU节点均与其它所有的CPU节点相连;图像处理器GPU集群,用于运行计算密集的深度学习应用;所述GPU集群包括至少100个GPU,所述GPU集群中每个GPU节点内GPU卡数为至少2个,所述GPU集群中每个GPU节点均与其它所有的GPU节点相连;与所述CPU集群相连的第一交换机;与所述GPU集群相连的第二交换机;与所述第一交换机和第二交换机相连的第三交换机;与所述第三交换机相连的并行存储设备,用于为所述CPU集群和所述GPU集群提供共用的数据。优选的,所述深度学习应用包括语音深度学习应用、图像深度学习应用或者文字深度学习应用。优选的,所述CPU集群中任意两个CPU节点之间采用万兆以太网互联。优选的,所述GPU集群中任任意两个GPU节点之间采用56Gb/s的高速网络IB互耳关。优选的,所述并行存储设备为高宽带并行Lusre存储设备,用于支持多进程或多线程的并行读写。优选的,所述CPU节点采用双路高主频CPU。优选的,所述GPU节点由中央处理器CPU构成,所述GPU节点采用双路低主频CPU。优选的,所述系统还包括调度机制模块,用于判断数据大小,根据数据大小确定应用规模;当数据小于1GB的数据时,判断数据的应用规模为属于第一级的小规模应用,将数据调度到单个GPU节点运行;当数据大于1GB且小于ITB时,判断数据的应用规模为属于第二级的中等规模应用,将数据调度到4个GPU节点运行;当数据大于ITB时,判断数据的应用规模为属于第三级的大规模应用,将数据调度到整个GPU集群运行。本专利技术所提供的一种面向深度学习的CPU与GPU混合的集群架构系统,包括:中央处理器CPU集群,用于对运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,所述CPU集群中每个CPU节点均与其它所有的CPU节点相连;图像处理器GPU集群,用于运行计算密集的深度学习应用;所述GPU集群包括至少100个GPU,所述GPU集群中每个GPU节点内GPU卡数为至少2个,所述GPU集群中每个GPU节点均与其它所有的GPU节点相连;与所述CPU集群相连的第一交换机;与所述GPU集群相连的第二交换机;与所述第一交换机和第二交换机相连的第三交换机;与所述第三交换机相连的并行存储设备,用于为所述CPU集群和所述GPU集群提供共用的数据。可见,该系统采用CPU与GPU混合的集群架构,GPU集群能够运行计算密集、高度并行的深度学习应用,(PU集群能够运行逻辑密集、并行性不高的深度学习应用,则整个系统能处理不同应用特征的深度学习应用,CPU与GPU协同计算,从而加速深度学习应用处理时间,提升计算效率,提高深度学习处理效率,并且一个GPU节点的数据处理能力相当于4或5个以上CPU节点的数据处理能力,这样不采用纯CPU集群架构系统,在达到同样的数据处理能力的情况下,采用GPU与CPU结合架构系统能够节省成本,也减少系统功耗。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术提供的一种面向深度学习的CPU与GPU混合的集群架构系统的结构示意图。【具体实施方式】本专利技术的核心是提供一种面向深度学习的CPU与GPU混合的集群架构系统,以实现减少资源耗能,提高深度学习处理效率,且降低成本。为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1为本专利技术提供的一种面向深度学习的CPU与GPU混合的集群架构系统的结构示意图,该系统包括:处理器CPU集群11,用于运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,CPU集群中每个CPU节点均与其它所有的CPU节点相连;图像GPU集群12,用于运行计算密集的深度学习应用;GPU集群包括至少100个GPU, GPU集群中每个GPU节点内GPU卡数为至少2个,GPU集群中每个GPU节点均与其它所有的GPU节点相连;其中,深度学习应用包括语音深度学习本文档来自技高网
...

【技术保护点】
一种面向深度学习的CPU与GPU混合的集群架构系统,其特征在于,包括:中央处理器CPU集群,用于运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,所述CPU集群中每个CPU节点均与其它所有的CPU节点相连;图像处理器GPU集群,用于运行计算密集的深度学习应用;所述GPU集群包括至少100个GPU,所述GPU集群中每个GPU节点内GPU卡数为至少2个,所述GPU集群中每个GPU节点均与其它所有的GPU节点相连;与所述CPU集群相连的第一交换机;与所述GPU集群相连的第二交换机;与所述第一交换机和第二交换机相连的第三交换机;与所述第三交换机相连的并行存储设备,用于为所述CPU集群和所述GPU集群提供共用的数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:张清王娅娟
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1