一种高可用的异构服务器制造技术

技术编号:16755288 阅读:164 留言:0更新日期:2017-12-09 01:56
本发明专利技术提供一种高可用的异构服务器,该异构服务器包括多个服务器单元,该多个服务器单元通过传输介质彼此通信地连接,服务器单元中的每个包含CPU、PCIe Switch、一个或多个异构加速卡、多个PCIe适配卡,其中,CPU通过PCIe总线分别与PCIe适配卡中的一个PCIe适配卡以及PCIe Switch通信地连接,异构加速卡与PCIe Switch通信地连接。本发明专利技术具有提高服务器的可靠性、保证服务的高度可用性、降低传输延迟、提供传输效率以及降低系统的复杂度和成本的优点。

A highly available heterogeneous server

The invention provides a high availability of heterogeneous servers, the heterogeneous server includes a plurality of server unit, the multiple server unit through a transmission medium connecting communication to each other, each server unit includes CPU, PCIe Switch, one or more heterogeneous accelerator card, multiple PCIe adapter, wherein, CPU through the PCIe bus and a PCIe PCIe adapter card adapter card and PCIe Switch communication connection, heterogeneous acceleration card and PCIe Switch communication connection. The invention has the advantages of improving server reliability, ensuring high availability of services, reducing transmission delay, providing transmission efficiency and reducing system complexity and cost.

【技术实现步骤摘要】
一种高可用的异构服务器
本专利技术涉及异构计算
,并且更具体地涉及一种高可用的异构服务器。
技术介绍
目前,异构服务器采用CPU+协处理器的架构形式,其中,协处理器具有强大的并行计算能力,负责处理CPU(中央处理器)下发的计算密集型任务。通常,常用的协处理器为GPU(图形处理器)、FPGA(现场可编程逻辑门阵列)或者MIC(集成众核),通常做成PCIe(外围组件快速互连)加速卡的形式,插到服务器主板的PCIe插槽上。CPU作为Host与加速卡采用PCIe总线进行互联。为增强服务器的计算能力,通常一个服务器主板上插多个加速卡,这多个加速卡均受同一CPU管理与支配。当CPU发生故障时,与其相连的所有协处理器都将无法工作,这不仅造成了计算资源的浪费,而且对于一些需要紧急处理的事务会造成严重后果。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种高可用的异构服务器,其可以通过PCIe非透明桥的功能实现多个服务器单元之间的互备功能,以提供服务器的高可用性。为了实现上述目的,本专利技术采用的技术方案如下:一种高可用的异构服务器包括多个服务器单元,该多个服务器单元通过传输介质彼此通信地连接,服务器单元中的每个包含CPU、PCIeSwitch、一个或多个异构加速卡、多个PCIe适配卡,其中,CPU通过PCIe总线分别与PCIe适配卡中的一个PCIe适配卡以及PCIeSwitch通信地连接,异构加速卡与PCIeSwitch通信地连接。根据本专利技术的一个实施例,异构服务器优选地包含两个服务器单元,并且两个服务器单元之间采用Active-Active工作模式。根据本专利技术的一个实施例,服务器单元中的每个优选地包含两个PCIe适配卡,PCIe适配卡中的一个通信地连接到CPU,PCIe适配卡中的另一个通信地连接到PCIeSwitch。根据本专利技术的一个实施例,一个服务器单元中的与CPU通信地连接的PCIe适配卡通过传输介质与另一个服务器单元中的与PCIeSwitch通信地连接的PCIe适配卡通信地连接。根据本专利技术的一个实施例,异构加速卡包含GPU加速卡、FPGA加速卡和/或MIC加速卡。根据本专利技术的一个实施例,PCIe适配卡工作在非透明桥(NTB)模式,并且PCIe适配卡中的一个通信地连接到PCIeSwitch的非透明桥接口。根据本专利技术的一个实施例,每个服务器单元至少包含一个异构加速卡,并且异构加速卡以PCIe设备的形式插在PCIeSwitch的PCIe插槽中以通过PCIe总线与CPU进行通信。根据本专利技术的一个实施例,CPU通过PCIeSwitch扩展出多路PCIe总线接口。根据本专利技术的一个实施例,PCIe适配卡为服务器单元之间的PCIe信号提供retimer功能。根据本专利技术的一个实施例,PCIe总线采用x8通道Gen3。本专利技术中,多个服务器单元之间采用Active-Active的工作模式,当一个服务器单元出现异常时,另一正常工作的服务器单元将接管该异常服务器单元的业务。通过本专利技术的高可用的异构服务器,可以提高服务器的可靠性,保证服务的高度可用性。另外,服务器单元之间采用PCIe总线连接,不需要转换通信协议,不仅降低了传输延迟、提高了传输效率,还降低了系统的复杂度和成本。附图说明图1是根据本专利技术的一个实施例的高可用的异构服务器的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图,对本专利技术进行进一步详细说明。应当理解的是,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,根据本专利技术的高可用的异构服务器包括服务器单元1、服务器单元2,服务器单元1包含CPU1、PCIeSwitch3(例如Broadcom公司的PEX8796型号芯片)、PCIe适配卡11、PCIe适配卡12(例如,Dolphin公司的PXH810模块)、NTB9、异构加速卡10(例如,GPU、FPGA等)以及其他PCIe设备11,其中,CPU1用作服务器单元1的Host,负责对异构加速卡进行管理调度与任务分配以及其他管控工作;CPU1通过一组PCIex8Gen3总线与PCIeSwitch3的upstream端通信地连接以扩展出多个PCIe接口,并且CPU1通过另一组PCIex8Gen3总线与PCIe适配卡11通信地连接并对外提供iPassPCIe接口;PCIeSwitch3具有非透明桥接口9用于连接PCIe适配卡12并对外提供iPassPCIe接口,PCIeSwitch3对连接CPU1和PCIeSwitch3的PCIex8Gen3总线进行扩展以扩展出多路PCIe插槽;异构加速卡10和其他PCIe设备11(例如,SAS控制器、PCIeSSD、BMC控制器、万兆网卡等)插入到PCIe插槽中,用作CPU的协处理器的异构加速卡负责处理CPU下发的计算密集型任务。服务器单元2包含CPU2、PCIeSwitch4(例如Broadcom公司的PEX8796型号芯片)、PCIe适配卡21、PCIe适配卡22(例如,Dolphin公司的PXH810模块)、NTB7、异构加速卡12(例如,GPU、FPGA等)以及其他PCIe设备13,其中,CPU2用作服务器单元2的Host,负责对异构加速卡进行管理调度与任务分配以及其他管控工作;CPU2通过一组PCIex8Gen3总线与PCIeSwitch4的upstream端通信地连接以扩展出多个PCIe接口,并且CPU2通过另一组PCIex8Gen3总线与PCIe适配卡21通信地连接并对外提供iPassPCIe接口;PCIeSwitch4具有非透明桥接口7用于连接PCIe适配卡22并对外提供iPassPCIe接口,PCIeSwitch4对连接CPU2和PCIeSwitch4的PCIex8Gen3总线进行扩展以扩展出多路PCIe插槽;异构加速卡12和其他PCIe设备13(例如,SAS控制器、PCIeSSD、BMC控制器、万兆网卡等)插入到PCIe插槽中,用作CPU的协处理器的异构加速卡负责处理CPU下发的计算密集型任务。服务器单元1的PCIe适配卡11通过传输介质(例如,光纤、电缆等)通信地连接到服务器单元2的PCIe适配卡22,并且服务器单元1的PCIe适配卡12通过传输介质(例如,光纤、电缆等)通信地连接到服务器单元2的PCIe适配卡21。两个服务器单元之间的连接采用PCIex8Gen3信号并采用Active-Active工作模式,在正常工作状态下,服务器单元分别处理各自的事务,并通过非透明桥的doorbell寄存器互相交换心跳信息以监测对方是否存在异常。当检测到一方的心跳信息出现异常时,表明对方的Host(即CPU)出现故障,此时,正常的另一方服务器单元就会立刻接管该异常服务器单元的相关业务,以保证服务的高可用性。此外,两个服务器单元之间采用传输介质进行通信,不需要通信协议的转换,由此,不仅可以降低传输延迟进而提高传输效率,而且还可以降低系统的复杂度以及成本。应当理解的是,上面的描述的目的是说明性的而不是限制性的。在阅读上面的描述时,除了提供的示例外许多本文档来自技高网...
一种高可用的异构服务器

【技术保护点】
一种高可用的异构服务器,其特征在于,所述异构服务器包括多个服务器单元,所述多个服务器单元通过传输介质彼此通信地连接,所述服务器单元中的每个包含CPU、PCIe Switch、一个或多个异构加速卡、多个PCIe适配卡,其中,所述CPU通过PCIe总线分别与所述PCIe适配卡中的一个以及所述PCIe Switch通信地连接,所述异构加速卡与所述PCIe Switch通信地连接。

【技术特征摘要】
1.一种高可用的异构服务器,其特征在于,所述异构服务器包括多个服务器单元,所述多个服务器单元通过传输介质彼此通信地连接,所述服务器单元中的每个包含CPU、PCIeSwitch、一个或多个异构加速卡、多个PCIe适配卡,其中,所述CPU通过PCIe总线分别与所述PCIe适配卡中的一个以及所述PCIeSwitch通信地连接,所述异构加速卡与所述PCIeSwitch通信地连接。2.根据权利要求1所述的高可用的异构服务器,其特征在于,所述异构服务器优选地包含两个服务器单元,并且所述两个服务器单元之间采用Active-Active工作模式。3.根据权利要求2所述的高可用的异构服务器,其特征在于,所述服务器单元中的每个优选地包含两个所述PCIe适配卡,所述PCIe适配卡中的一个通信地连接到所述CPU,所述PCIe适配卡中的另一个通信地连接到所述PCIeSwitch。4.根据权利要求3所述的高可用的异构服务器,其特征在于,一个所述服务器单元中的与所述CPU通信地连接的所述PCIe适配卡通过所述传输介质与另一个所述服务器单元中的与所述PCIe...

【专利技术属性】
技术研发人员:彭福来于治楼陈乃阔李传忠牛玉峰
申请(专利权)人:山东超越数控电子有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1