一种支持多GPU的计算型服务器的自动测试方法技术

技术编号:15329349 阅读:1090 留言:0更新日期:2017-05-16 13:02
本发明专利技术涉及计算机软件开发领域,具体涉及一种支持多GPU的PCIE‑SWITCH计算型服务器的自动检测方法,通过该方法可以对支持多个GPU的PCIE‑SWITCH计算型服务器进行自动测试。本发明专利技术能够自动进行PCIE‑SWITCH服务器搭配GPU进行减耗(Thermal)、PCI Express频带宽度(bandwidth)、服务器承受压力Stress的测试,大大提高工作效率,从而有效地解决上述工作量巨大的问题。整个测试流程测试方法操作简单,自动化程度高,实用性较强,能够节省人力,提高测试效率,是验证产品质量的非常有效的方法。

An automatic test method for multi GPU computing server

The present invention relates to the field of computer software development, in particular to an automatic detection method of multi GPU PCIE SWITCH calculation server, this method can support multiple GPU PCIE SWITCH calculation server for automatic test. The invention can automatically PCIE SWITCH server GPU collocation and consumption reduction (Thermal), PCI Express band width (bandwidth), Stress server pressure testing, greatly improve work efficiency, so as to effectively solve the problem of huge workload. The whole test flow test method is simple, highly automated, practical, and can save manpower and improve test efficiency. It is a very effective method to verify the quality of products.

【技术实现步骤摘要】
一种支持多GPU的计算型服务器的自动测试方法
本专利技术涉及计算机软件开发领域,具体涉及一种支持多GPU的PCIE-SWITCH计算型服务器的自动检测方法,通过该方法对PCIE-SWITCH服务器进行测试,能够有效检测PCIE-SWITCH服务器存在的异常状况,可以减少人力、物力及流程管理的成本,提高测试覆盖率。
技术介绍
目前在整机柜服务器领域,大型高性能、计算型服务器(PCIE-SWITCH)支持16张235瓦功率的GPU(GraphicProcessingUnit图形处理器),通过PCIE(总线和接口标准PeripheralComponentInterfaceExpress)retimer卡(时间修正卡)和MiniSASHD高速线缆外接一台服务器server使用,此时PCIE-SWITCH相当于服务器server端的PCIE设备,测试时PCIE-SWITCH也需要与服务器server联合测试。因为PCIE-SWITCH最多可支持16张GPU卡,当搭配Nvidia的GPU,使用NVQual工具测试GPU时,测试项较多、每个测试项较长,故工作量极大。针对上述问题,本申请专利技术了一种支持多GPU的PCIE-SWITCH计算型服务器的自动化测试方法,能够自动进行PCIE-SWITCH服务器搭配GPU进行减耗(Thermal)、PCIExpress频带宽度(bandwidth)、服务器承受压力Stress的测试,大大提高工作效率,从而有效地解决上述工作量巨大的问题。整个测试流程测试方法操作简单,自动化程度高,实用性较强,能够节省人力,提高测试效率,是验证产品质量的非常有效的方法。
技术实现思路
本专利技术是为提高计算型服务器(PCIE-SWITCH)自动化测试所做的。本申请专利技术一种支持多GPU的PCIE-SWITCH计算型服务器的自动检测方法,该检测方法具体包括如下步骤:a、将PCIE-SWITCH服务器与server连接;b、开启PCIE-SWITCH服务器,1分钟后开启server;c、将测试主程序拷贝在server的操作系统下面;d、根据测试需求配置配置文件;e、运行测试主程序。上述的自动检测方法,其特征还在于,是用MiniSASHD线缆将PCIE-SWITCH服务器与servet连接。所述的测试主程序具体包括如下步骤:读取通过命令行输入的参数;判断参数值,当参数值为f时,传递参数并读取配置文件;卸载操作系统自带的nvidia驱动,安装NVQual测试程序,并启动该测试程序进行GPU测试;当参数值为h时,显示帮助信息;当参数值为v时,显示版本信息;当参数值为h、v、f以外的值时,显示错误信息。上述的自动检测方法,其特征在于,所述的NVQual测试程序,具体包括以下步骤:读取用户设置的减耗循环检测参数,根据用户设定的检测次数,对GPU进行thermal循环检测。所述的NVQual测试程序,还包括以下步骤:读取用户设置的序号参数,如果该参数为序号,则根据用户设定的序号,对该序号的GPU进行qualification测试;如果该参数为“all”,则对所有的GPU进行qualification测试。所述的NVQual测试程序,还包括以下步骤:读取用户设置的带宽参数,如果该参数为序号,则根据用户设定的序号,对该序号的GPU进行bandwidth的测试;如果该参数为“all”,则对所有的GPU进行bandwidth测试。所述的NVQual测试程序,还包括以下步骤:读取用户设置的压力循环检测参数,根据用户设定的检测次数,对GPU进行stress循环检测。所述的NVQual测试程序,减耗循环检测参数可以设置成循环测试10个小时。所述的NVQual测试程序,压力循环检测参数可以设置成循环测试12个小时。上述的测试主程序结束后,收集日志信息,如果日志记录错误信息,则重新检测或者诊断故障原因。附图说明图1、测试主程序mian函数流程图图2、NVQual测试程序流程图具体实施方式下面对本专利技术的内容进行更加详细的阐述:专利技术主要包括四部分,第一部分为测试程序main函数的流程图,第二部分为NVQual测试程序流程图,第三部分为部分代码详解,最后一部分为使用说明。1、测试主程序main函数如图1所示,测试主程序在开始执行的时候根据命令行加入的参数,执行不同的函数。如输入“-h”参数,则show_usage函数会打印出“帮助信息”,指导该程序的使用者使用该程序;“-v”参数,会调用show_version函数,打印出程序的版本信息,有助于使用者了解测试程序的变更记录;“-f”参数后面需要加上“config.file”,程序读取到-f参数后,会读取“config.file”文件的内容保存到变量中,之后程序卸载os自带nvidia的GPU驱动,安装NVQual测试程序,最后程序会根据config.file的配置参数去执行后续测试项;2、NVQual测试程序如图2所示,NVQual测试程序开始时,依据图1中“读取配置参数文件”步骤从config.file中读取到的配置信息进行判断,来决策进行不同的测试。config.file文件格式及内容如下:NVQual_path=/root/nvidia/NVQual-P2081-K40_v07#1.ThermalQualificationTestloops=3#2.PCIExpressQualificationTestloops=1gpu=0#3.PCIExpressBandwidthTestloops=1gpu=all#4.StressTestloops=3该文件中,以#开始的行,表示注释信息,用于解释文件中的内容,不会被程序读取,与测试无关;该文件的主要信息为不以#开头的5行信息,分别表示测试工具路径及具体测试项的测试配置信息;#1.ThermalQualificationTestloops=3该loops=3的信息被传递给loops_thermal变量,如果该项信息为空,表示不进行该项测试,直接进入下一项测试;如果有具体的值,则该值传递给thermal.exp程序,控制测试loop数;#2.PCIExpressQualificationTestloops=1#设置PCIExpressQualificationTesttestloop数gpu=0#设置参与PCIExpressQualificationTesttest的GPU序号该项信息中,loops=1为该项测试的loop数,gpu=0为进行测试的GPU序号;如loops值为空,则不进行该项测试,如gpu值为“all”,则表示测试所有GPU,loops的值与gpu的值一起传递给qualification.exp程序,控制程序运行;#3.PCIExpressBandwidthTestloops=1gpu=all该项信息中,loops=1为该项测试的loop数,gpu=all为进行测试的GPU序号,all表示所有GPU均进行测试;如loops值为空,则不进行该项测试,如loops有具体值,则和gpu的值一起传递给bandwidth.exp程序,控制程序运行;#4.StressTestloops=3该项信息中,loops=3为该项测试的loop数,本文档来自技高网
...
一种支持多GPU的计算型服务器的自动测试方法

【技术保护点】
一种支持多GPU的PCIE‑SWITCH计算型服务器的自动检测方法,该检测方法具体包括如下步骤:a、将PCIE‑SWITCH服务器与server连接;b、开启PCIE‑SWITCH服务器,1分钟后开启server;c、将测试主程序拷贝在server的操作系统下面;d、根据测试需求配置配置文件;e、运行测试主程序。

【技术特征摘要】
1.一种支持多GPU的PCIE-SWITCH计算型服务器的自动检测方法,该检测方法具体包括如下步骤:a、将PCIE-SWITCH服务器与server连接;b、开启PCIE-SWITCH服务器,1分钟后开启server;c、将测试主程序拷贝在server的操作系统下面;d、根据测试需求配置配置文件;e、运行测试主程序。2.如权利要求1所述的自动检测方法,其特征还在于,是用MiniSASHD线缆将PCIE-SWITCH服务器与server连接。3.如权利要求2所述的自动检测方法,其特征还在于,所述的测试主程序具体包括如下步骤:读取通过命令行输入的参数;判断参数值,当参数值为f时,传递参数并读取配置文件;卸载操作系统自带的nvidia驱动,安装NVQual测试程序,并启动该测试程序进行GPU测试;当参数值为h时,显示帮助信息;当参数值为v时,显示版本信息;当参数值为h、v、f以外的值时,显示错误信息。4.如权利要求3所述的自动检测方法,其特征在于,所述的NVQual测试程序,具体包括以下步骤:读取用户设置的减耗循环检测参数,根据用户设定的检测次数,对GPU进行thermal循环检测。5.如权利要求4所述的自动检测方法,其特征在于,所述的NVQua...

【专利技术属性】
技术研发人员:肖欢韩超
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1