一种整机柜服务器稳定性测试的方法及系统技术方案

技术编号:19691469 阅读:27 留言:0更新日期:2018-12-08 11:05
本发明专利技术公开了一种整机柜服务器稳定性测试的方法及系统,方法包括S1,控制节点发送开机命令,对GPUBOX和测试节点顺序开机;S2,获取到测试节点开机成功的信息后,控制节点发送测试节点关机命令;S3,在测试节点关机完成后,控制节点获取测试信息,对GPUBOX发送重启或关机命令,若为关机命令,在GPUBOX关机完成后,控制节点对GPUIBOX发送开机命令;S4,在GPUBOX完成开机后,控制节点发送测试节点的开机命令,并判断测试节点的开机完成情况,重复进行步骤S1‑S3的操作,至执行到设定测试次数结束。本发明专利技术的测试过程无需人为参与,提高测试效率且避免出现开关机顺序颠倒的情况。

【技术实现步骤摘要】
一种整机柜服务器稳定性测试的方法及系统
本专利技术涉及整机柜服务器测试
,具体地说是一种整机柜服务器稳定性测试的方法及系统。
技术介绍
为满足客户提出的高性能计算服务器的需求,全新架构的计算型服务器—PCIE-SWITCH(PCIE,peripheralcomponentinterconnectexpress,一种高速串行计算机扩展总线标准;SWITCH,转换)应运而生,该服务器将GPU(GraphicsProcessingUni,图形处理器)池化在一个GPUBOX中,通过PCIEretimer卡和minisashd高速线缆外接多台server使用。此时GPUBOX相当于server端的PCIE设备,在对搭配后的PCIE-SWITCH进行稳定性测试时,GPUBOX需要与server联合测试。为了保证产品质量,在产品开发过程中,服务器的稳定性测试极其重要。现有的稳定性测试过程需要进行1000次,累计时间需要5天,且完全由人工完成整机柜的顺序DC和reboot,十分浪费人力资源,且容易造成开关机顺序颠倒。
技术实现思路
本专利技术的目的在于提供一种整机柜服务器稳定性测试的方法及系统,用于解决现有整机柜服务器稳定性测试中,人工测试花费时间长且容易出错的问题。本专利技术解决其技术问题所采用的技术方案是:一种整机柜服务器稳定性测试的方法,包括以下步骤:S1,控制节点发送开机命令,对GPUBOX和测试节点顺序开机;S2,获取到测试节点开机成功的信息后,控制节点发送测试节点关机命令;S3,在测试节点关机完成后,控制节点获取测试信息,对GPUBOX发送重启或关机命令,若为关机命令,在GPUBOX关机完成后,控制节点对GPUIBOX发送开机命令;S4,在GPUBOX完成开机后,控制节点发送测试节点的开机命令,并判断测试节点的开机完成情况,重复进行步骤S1-S3的操作,至执行到设定测试次数结束。进一步地,所述测试信息包括测试项、测试节点数量、测试节点配置的GPU数量、开关机等待时间、测试节点的IP、GPUBOX的IP,所述测试项为重启测试或关机测试。进一步地,所述GPUBOX和测试节点顺序开机的具体过程为:GPUBOX开机,通过BMC获取GPU的状态信息,并记录开机时间及开机次数,将GPUBOX开机完成信号发送给控制节点;控制节点获取到GPUBOX开机完成的信号后,向测试节点发送开机命令;测试节点执行开机命令,且GPUBOX根据测试信息,为测试节点配置GPU数量,测试节点向控制节点发送开机完成信号;控制节点接收到的测试节点的开机完成信号,同时通过BMC调用测试节点信息获取测试节点开机状态,判断测试节点的开机状况。进一步地,控制节点对测试节点开机状况的判断过程为:获取测试节点的开机完成信号,并查看接收到测试节点开机完成信号的信号数量是否与测试信息中设置的测试节点数量一致;若不一致,按照所述开机等待时间进行等待;若一致,通过BMC调用测试节点信息,获取测试节点开机状态;在BMC返回状态为开机状态时,判定测试节点开机完成。进一步地,若开机等待时间终止后,仍未完成开机操作,则结束测试。进一步地,步骤S3中所述在测试节点关机完成后,控制节点清除所有的开机完成信号。本专利技术实施例还公开了一种整机柜服务器稳定性测试的系统,所述系统包括控制节点、测试节点和GPUBOX,所述控制节点用于设置包括测试项在内的相关测试信息,所述测试节点用于执行控制节点发送的开关机命令,并将开关机信号发送给控制节点,所述GPUBOX用于根据控制节点的测试信息,为测试节点分配GPU数量,并将GPUBOX的开关机信号发送给控制节点。进一步地,所述测试节点和GPUBOX在开机时,分别记录各自的开机时间及开机次数。
技术实现思路
中提供的效果仅仅是实施例的效果,而不是专利技术所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:1、通过搭建测试节点、控制节点和GPUBOX端的测试环境,并通过调用各部分的测试脚本,自动进行整机柜测试节点及GPUBOX的顺序DC及reboot测试,无需人为参与测试过程,提高测试效率,且测试过程中自动进行顺序DC及reboot,避免人为操作中颠倒开关机顺序的情况,保证测试结果的准确性。2、控制节点将测试节点数量设置为变量,在测试开始前,可灵活的选择测试节点的数量,便于对部分测试节点进行针对性测试。3、测试过程中,一旦发生开关机失败的现象,直接停止测试,工作人员通过查看控制端接收到的开关机信号,对故障进行及时的修复,保证出厂产品的质量。4、控制节点通过获取的测试节点发送的开机信号以及BMC检测到的测试节点开机状态双重条件,来判断测试节点是否开机完成,确保测试节点完成了正常开机,保证测试过程的顺利进行和测试结果的准确性。附图说明图1是本专利技术的方法流程图;图2是本专利技术测试方法的应用场景图;图3是本专利技术控制节点对测试过程的控制流程图。具体实施方式为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本专利技术进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本专利技术的不同结构。为了简化本专利技术的公开,下文中对特定例子的部件和设置进行描述。此外,本专利技术可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本专利技术省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本专利技术。如图1所示,本专利技术的一种整机柜服务器稳定性测试的方法,包括以下步骤:S1,控制节点发送开机命令,对GPUBOX和测试节点顺序开机;S2,获取到测试节点开机成功的信息后,控制节点发送测试节点关机命令;S3,在测试节点关机完成后,控制节点获取测试信息,对GPUBOX发送重启或关机命令,若为关机命令,在GPUBOX关机完成后,控制节点对GPUIBOX发送开机命令;S4,在GPUBOX完成开机后,控制节点发送测试节点的开机命令,并判断测试节点的开机完成情况,重复进行步骤S1-S3的操作,至执行到设定测试次数结束。在执行步骤S1之前,还包括测试环境的搭建,搭建测试环境的过程为:为整机柜配置控制节点,设置控制节点与整机柜测试节点的IP在同一网段,并设置测试节点与控制节点间的无密码访问权限;将相应测试脚本分别拷贝至测试节点、控制节点和GPUBOX系统内。控制节点设置的测试信息包括测试项、测试节点数量、测试节点配置的GPU数量、开关机等待时间、测试节点的IP、GPUBOX的IP;其中测试项为DC(关机测试)或reboot(重启)测试。如图2所示,控制节点对整个测试过程进行控制,分别向GPUBOX和测试节点发送测试信息和开关机信号,GPUBOX和测试节点发送配置信息将开机完成信号发送给控制节点。GPUBOX根据控制节点的设置测试信息为测试节点分配CPU。步骤S1中,在测试节点完成开机之前需要GPUBOX已完成开机,GPUBOX的开机测试过程为:S11,GPUBOX执行控制节点发送的开机命令并开机;S12,GPUBOX操作系统通过BMC获取GPU的状态信息,并记录开机时间及开机次数,将GPUBOX开机完成信号发送给控制节点;对测试节点进行DC测试的具体过程为:S13,本文档来自技高网
...

【技术保护点】
1.一种整机柜服务器稳定性测试的方法,其特征是:包括以下步骤:S1,控制节点发送开机命令,对GPUBOX和测试节点顺序开机;S2,获取到测试节点开机成功的信息后,控制节点发送测试节点关机命令;S3,在测试节点关机完成后,控制节点获取测试信息,对GPUBOX发送重启或关机命令,若为关机命令,在GPUBOX关机完成后,控制节点对GPUIBOX发送开机命令;S4,在GPUBOX完成开机后,控制节点发送测试节点的开机命令,并判断测试节点的开机完成情况,重复进行步骤S1‑S3的操作,至执行到设定测试次数结束。

【技术特征摘要】
1.一种整机柜服务器稳定性测试的方法,其特征是:包括以下步骤:S1,控制节点发送开机命令,对GPUBOX和测试节点顺序开机;S2,获取到测试节点开机成功的信息后,控制节点发送测试节点关机命令;S3,在测试节点关机完成后,控制节点获取测试信息,对GPUBOX发送重启或关机命令,若为关机命令,在GPUBOX关机完成后,控制节点对GPUIBOX发送开机命令;S4,在GPUBOX完成开机后,控制节点发送测试节点的开机命令,并判断测试节点的开机完成情况,重复进行步骤S1-S3的操作,至执行到设定测试次数结束。2.根据权利要求1所述的一种整机柜服务器稳定性测试的方法,其特征是:所述测试信息包括测试项、测试节点数量、测试节点配置的GPU数量、开关机等待时间、测试节点的IP、GPUBOX的IP,所述测试项为重启测试或关机测试。3.根据权利要求2所述的一种整机柜服务器稳定性测试的方法,其特征是:所述GPUBOX和测试节点顺序开机的具体过程为:GPUBOX开机,通过BMC获取GPU的状态信息,并记录开机时间及开机次数,将GPUBOX开机完成信号发送给控制节点;控制节点获取到GPUBOX开机完成的信号后,向测试节点发送开机命令;测试节点执行开机命令,且GPUBOX根据测试信息,为测试节点配置GPU数量,测试节点向控制节点发送开机完成信号;控制节点接收到的测试节点的开机完成信号...

【专利技术属性】
技术研发人员:韩超
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1