一种基于硬件NUMA的一致性维护系统和一致性维护服务器技术方案

技术编号:32570339 阅读:17 留言:0更新日期:2022-03-09 16:57
本发明专利技术公开了一种基于硬件NUMA的一致性维护系统,包括多个计算节点,每个计算节点包括:多个CPU;一个控制芯片,控制芯片在计算节点内与多个CPU相连,并与其他计算节点的控制芯片相连;其中,控制芯片包括协议逻辑模块和维护逻辑模块,协议模块配置用于连接计算节点内CPU和其他计算节点的CPU,以进行数据传输和处理,逻辑模块配置用于监测协议逻辑模块是否存在功能隐患/性能隐患,响应于监测到协议逻辑模块存在功能隐患/性能隐患,记录状态信息,并对协议逻辑模块调度策略进行调整。本发明专利技术还公开了一致性维护服务器。本发明专利技术通过在控制芯片增加维护逻辑模块,解决了在高性能计算系统中使用CHI协议的硬件NUMA系统存在的性能和功能隐患,降低设计成本费用。降低设计成本费用。降低设计成本费用。

【技术实现步骤摘要】
一种基于硬件NUMA的一致性维护系统和一致性维护服务器


[0001]本专利技术涉及数据处理
,尤其涉及一种基于硬件NUMA的一致性维护系统和一致性维护服务器。

技术介绍

[0002]随着信息技术和应用场景的快速发展,数据爆发性增长,数据的处理已成为一个突出问题,同时快速的处理数据又对计算性能提出了很高的要求,多CPU协同处理海量数据已经是今年来的研究热点。
[0003]集群计算指的是计算机集群将一组松散集成的计算机软件或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,计算机集群可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网或其他方式连接。集群计算机通常用来改进单个计算机的计算速度和可靠性。集群计算技术实现难度低稳定性高,但是性能稍差。
[0004]NUMA技术(非一致访问分布共享存储技术)则是将多个CPU进行分组,例如CPU总数为16个,将每4个CPU分成一组,就可以分成4组,每一个组就叫一个节点(node),节点之间通过互连模块互相连接起来,每个节点中有独立的本地内存等资源,但是每个节点可以通过互连模块访问其他节点的内存等资源。NUMA技术可以通过软硬件实现,基于软件的NUMA技术实现难度低稳定性高,但是在节点间的延迟仍然比基于硬件的NUMA大几个数量级,性能较差。硬件NUMA技术性能高,但是稳定性差,如果协议设计不合理,性能和功能都会出现极大隐患。

技术实现思路

[0005]有鉴于此,本专利技术实施例的目的在于提出一种基于硬件NUMA的一致性维护系统和一致性维护服务器,通过在控制芯片增加维护逻辑模块,统计总结系统的拥堵及隐患并提前做出调整,解决了在高性能计算系统中使用CHI协议的硬件NUMA系统存在的性能和功能隐患,减少产品迭代次数,降低设计成本费用。
[0006]基于上述目的,本专利技术实施例的一方面提供了一种基于硬件NUMA的一致性维护系统,包括多个计算节点,每个所述计算节点包括:
[0007]多个CPU;
[0008]一个控制芯片,所述控制芯片在所述计算节点内与所述多个CPU相连,并与其他所述计算节点的控制芯片相连;
[0009]其中,所述控制芯片包括协议逻辑模块和维护逻辑模块,所述协议逻辑模块配置用于连接所述计算节点内CPU和其他所述计算节点的CPU,以进行数据传输和处理,所述维护逻辑模块配置用于监测所述协议逻辑模块是否存在功能隐患/性能隐患,响应于监测到所述协议逻辑模块存在功能隐患/性能隐患,记录状态信息,并对所述协议逻辑模块调度策略进行调整。
[0010]在一些实施方式中,所述CPU配置为基于CHI协议的CPU,所述控制芯片配置为CHI
协议控制芯片,所述协议逻辑模块配置为支持CHI协议的协议逻辑模块。
[0011]在一些实施方式中,所述维护逻辑模块还包括存储模块,所述存储模块配置用于:存储所述维护逻辑模块记录的所述状态信息。
[0012]在一些实施方式中,所述存储模块配置为FLASH存储。
[0013]在一些实施方式中,所述维护逻辑模块进一步配置用于:监测所述协议逻辑模块是否运行出错;响应于监测到所述协议逻辑模块运行出错,则判断出错原因是否首次出现;响应于出错原因首次出现,则记录并存储状态信息。
[0014]在一些实施方式中,所述维护逻辑模块进一步配置用于:响应于出错原因不是首次出现,则基于记录的所述状态信息依照无目录一致性协议进行处理。
[0015]在一些实施方式中,所述状态信息包括出错地址、目录状态和外部访问情况。
[0016]在一些实施方式中,所述维护逻辑模块进一步配置用于:对所述协议逻辑模块的资源使用状况进行监测,记录并存储监测到的数据信息;基于所述数据信息判断所述协议逻辑模块是否存在性能隐患;响应于所述协议逻辑模块存在性能隐患,则对所述数据信息进行分析,并基于分析结果向所述协议逻辑模块发送新的调度策略。
[0017]在一些实施方式中,所述数据信息至少包括以下之一:系统带宽、数据处理时延和占用资源情况。
[0018]本专利技术实施例的另一方面,还提供了一种一致性维护服务器,包括如下所述的基于硬件NUMA的一致性维护系统:系统包括多个计算节点,每个所述计算节点包括:多个CPU;一个控制芯片,所述控制芯片在所述计算节点内与所述多个CPU相连,并与其他所述计算节点的控制芯片相连;其中,所述控制芯片包括协议逻辑模块和维护逻辑模块,所述协议逻辑模块配置用于连接所述计算节点内CPU和其他所述计算节点的CPU,以进行数据传输和处理,所述维护逻辑模块配置用于监测所述协议逻辑模块是否存在功能隐患/性能隐患,响应于监测到所述协议逻辑模块存在功能隐患/性能隐患,记录状态信息,并对所述协议逻辑模块调度策略进行调整。
[0019]在一些实施方式中,所述CPU配置为基于CHI协议的CPU,所述控制芯片配置为CHI协议控制芯片,所述协议逻辑模块配置为支持CHI协议的协议逻辑模块。
[0020]在一些实施方式中,所述维护逻辑模块还包括存储模块,所述存储模块配置用于:存储所述维护逻辑模块记录的所述状态信息。
[0021]在一些实施方式中,所述存储模块配置为FLASH存储。
[0022]在一些实施方式中,所述维护逻辑模块进一步配置用于:监测所述协议逻辑模块是否运行出错;响应于监测到所述协议逻辑模块运行出错,则判断出错原因是否首次出现;响应于出错原因首次出现,则记录并存储状态信息。
[0023]在一些实施方式中,所述维护逻辑模块进一步配置用于:响应于出错原因不是首次出现,则基于记录的所述状态信息依照无目录一致性协议进行处理。
[0024]在一些实施方式中,所述状态信息包括出错地址、目录状态和外部访问情况。
[0025]在一些实施方式中,所述维护逻辑模块进一步配置用于:对所述协议逻辑模块的资源使用状况进行监测,记录并存储监测到的数据信息;基于所述数据信息判断所述协议逻辑模块是否存在性能隐患;响应于所述协议逻辑模块存在性能隐患,则对所述数据信息进行分析,并基于分析结果向所述协议逻辑模块发送新的调度策略。
[0026]在一些实施方式中,所述数据信息至少包括以下之一:系统带宽、数据处理时延和占用资源情况。
[0027]本专利技术具有以下有益技术效果:通过在控制芯片增加维护逻辑模块,统计总结系统的拥堵及隐患并提前做出调整,解决了在高性能计算系统中使用CHI协议的硬件NUMA系统存在的性能和功能隐患,减少产品迭代次数,降低设计成本费用。
附图说明
[0028]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
[0029]图1为本专利技术提供的基于硬件NUMA的一致性维护系统的实施例的示意图;
[0030]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于硬件NUMA的一致性维护系统,其特征在于,包括多个计算节点,每个所述计算节点包括:多个CPU;一个控制芯片,所述控制芯片在所述计算节点内与所述多个CPU相连,并与其他所述计算节点的控制芯片相连;其中,所述控制芯片包括协议逻辑模块和维护逻辑模块,所述协议逻辑模块配置用于连接所述计算节点内CPU和其他所述计算节点的CPU,以进行数据传输和处理,所述维护逻辑模块配置用于监测所述协议逻辑模块是否存在功能隐患/性能隐患,响应于监测到所述协议逻辑模块存在功能隐患/性能隐患,记录状态信息,并对所述协议逻辑模块调度策略进行调整。2.根据权利要求1所述的基于硬件NUMA的一致性维护系统,其特征在于,所述CPU配置为基于CHI协议的CPU,所述控制芯片配置为CHI协议控制芯片,所述协议逻辑模块配置为支持CHI协议的协议逻辑模块。3.根据权利要求1所述的基于硬件NUMA的一致性维护系统,其特征在于,所述维护逻辑模块还包括存储模块,所述存储模块配置用于:存储所述维护逻辑模块记录的所述状态信息。4.根据权利要求3所述的基于硬件NUMA的一致性维护系统,其特征在于,所述存储模块配置为FLASH存储。5.根据权利要求1所述的基于硬件NUMA的一致性维护系统,其特征在于,所述维护逻辑模块进一...

【专利技术属性】
技术研发人员:刘同强王朝辉刘刚周玉龙
申请(专利权)人:山东云海国创云计算装备产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1