一种HL-100推理卡的压力测试方法、系统及设备技术方案

技术编号:24330878 阅读:43 留言:0更新日期:2020-05-29 19:33
本发明专利技术提出的一种HL‑100推理卡的压力测试方法、系统及设备,能够对HL‑100推理卡进行多维度交互性的稳定性测试,分别提供了进行服务器内存与HL‑100推理卡上内存的数据上行及下行传输带宽测试、ResNET50ONNX模型的性能测试、BERT稳定性测试和压力散热测试的方法,并且进行不同测试之间的交互。本发明专利技术从不同角度对HL‑100推理卡进行测试,并相互切换,充分有效地验证了HL‑100推理卡在服务器产品上的兼容性。

Pressure test method, system and equipment of hl-100 reasoning card

【技术实现步骤摘要】
一种HL-100推理卡的压力测试方法、系统及设备
本专利技术涉及计算机测试
,更具体的说是涉及一种HL-100推理卡的压力测试方法、系统及设备。
技术介绍
HL-100推理卡是一种深度神经网络(DNN)PCIe卡,用于大容量推理工作负载。HL-100是一个具有一个HL-1000处理器的双插槽10英寸PCIexpressGen4卡,该卡可基于ResNet-50推理基准实现每秒15000张图片的吞吐量,延迟时间为1.3毫秒,功耗仅为100瓦,比如今数据中心部署的一般解决方案相性能要高出一到三个数量级。HL-100内置4GB/8GB/16GB在线DDR4内存,8MB车载串行闪存,且内存有ECC保护(单错误校正/双错误检测)。TDP总板功率为200W。当前,为了验证HL-100推理卡的兼容性,通常需要进行多种测试,主要有:服务器内存与HL-100推理卡上内存的数据上行及下行传输带宽测试、ResNET50ONNX模型的性能测试、BERT稳定性测试和压力散热测试,但是,上述测试项目相互独立,且需要人工进行切换,费时费力。
技术实现思路
针对以上问题,本专利技术的目的在于提供一种HL-100推理卡的压力测试方法、系统及设备,能够自动HL-100推理卡进行压力和性能的交互切换测试,以及运行长时间压力的稳定性测试,高效的验证了板卡在服务器产品上的兼容性。本专利技术为实现上述目的,通过以下技术方案实现:一种HL-100推理卡的压力测试方法,包括如下步骤:S1:检查HL-100推理卡在当前系统下可以正常识别;S2:获取当前系统下所有HL-100推理卡的总线标识,循环遍历所有HL-100推理卡的总线标识,对HL-100推理卡逐个持续进行压力散热测试、BERT稳定性测试和服务器内存与卡上内存的数据上行及下行传输带宽测试,并保存测试结果;S3:对整机的所有HL-100推理卡分别进行预设时长的压力散热测试;S4:对整机的所有HL-100推理卡分别进行预设时长的BERT稳定性测试。进一步,所述步骤S1还包括:统计当前系统下识别到HL-100推理卡的数量,并保存到HL-100_num.txt中;查看HL-100推理卡PCIe接口工作模式,并保存到PCIeSpeed.txt文件中。进一步,所述步骤S2具体为:通过命令#lspci-d1da3:获取系统下所有HL-100推理卡的busID;使用循环语句遍历所有HL-100推理卡的busID,对HL-100推理卡逐个持续进行1小时压力散热测试、1小时BERT稳定性测试和1小时服务器内存与卡上内存的数据上行及下行传输带宽测试,并保存测试结果,显示pass或者fail。进一步,在步骤S2中,所述对HL-100推理卡逐个持续进行压力散热测试、BERT稳定性测试和服务器内存与卡上内存的数据上行及下行传输带宽测试的具体测试流程为:使用循环语句对HL-100推理卡运行三次时长为20分钟的压力散热测试,;使用循环语句对HL-100推理卡进行三次时长为20分钟的服务器内存与卡上内存的数据上行及下行传输带宽测试;使用循环语句对HL-100推理卡运行三次时长为20分钟的BERT稳定性测试使用循环语句对HL-100推理卡ResNET50ONNX模型运行三次时长为20分钟的性能测试。进一步,所述步骤S3还包括:将所述压力散热测试的测试log保存到all-stress.txt中,查看测试结果保存到result.txt。进一步,所述步骤S4还包括:将所述BERT稳定性测试的测试log保存到all-bert.txt中,查看测试结果保存到result.txt。相应的,本专利技术还公开了一种HL-100推理卡的压力测试系统,包括:检查单元,用于检查HL-100推理卡在当前系统下可以正常识别;循环测试单元,用于获取当前系统下所有HL-100推理卡的busID,循环遍历所有HL-100推理卡的busID,对HL-100推理卡逐个持续进行压力散热测试、BERT稳定性测试和服务器内存与卡上内存的数据上行及下行传输带宽测试,并保存测试结果;第一测试单元,用于对整机的所有HL-100推理卡进行24小时压力散热测试;第二测试单元,用于对整机的所有HL-100推理卡进行24小时BERT稳定性测试。相应的,本专利技术还公开了一种HL-100推理卡的压力测试设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上文任一项所述HL-100推理卡的压力测试方法步骤。对比现有技术,本专利技术有益效果在于:本专利技术提供了一种HL-100推理卡的压力测试方法、系统及设备,能够对HL-100推理卡进行多维度交互性的稳定性测试,分别提供了进行服务器内存与HL-100推理卡上内存的数据上行及下行传输带宽测试、ResNET50ONNX模型的性能测试、BERT稳定性测试和压力散热测试的方法,并且进行不同测试之间的交互。本专利技术从不同角度对HL-100推理卡进行测试,并相互切换,充分有效地验证了HL-100推理卡在服务器产品上的兼容性。本专利技术为HL-100推理卡的稳定性测试提供了一个可行方案,从多维度对板卡进行性能和压力测试,并对压力和性能交互切换执行,充分验证了当执行压力测试后是否会对板卡性能造成影响,有效的测试了部件PCIE硬件链路的切换,最后针对整机所有板卡进行长时间压力散热和BERT稳定性测试,验证HL-100推理卡的稳定性。所有测试可通过自动化测试脚本逐一运行,记录测试结果并收集各种日志,省时省力。本专利技术弥补了目前HL-100兼容性测试的空缺,保障了产品质量,提高了客户满意度。由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。附图1是本专利技术实施例一的方法流程图。附图2是本专利技术实施例二的方法流程图。附图3是本专利技术的系统结构图。具体实施方式下面结合附图对本专利技术的具体实施方式做出说明。实施例一:如图1所示的一种HL-100推理卡的压力测试方法,包括如下步骤:S1:检查HL-100推理卡在当前系统下可以正常识别。具体包括:统计当前系统下识别到HL-100推理卡的数量,并保存到HL-100_num.txt中;查看HL-100推理卡PCIe接口工作模式,并保存到PCIeSpeed.txt文件中。S2:通过命令#lspci-d1da3:获取系统下所有HL-100推理卡的busID;使用for循环遍历所有HL-100推理卡的busID,对H本文档来自技高网...

【技术保护点】
1.一种HL-100推理卡的压力测试方法,其特征在于,包括如下步骤:/nS1:检查HL-100推理卡在当前系统下可以正常识别;/nS2:获取当前系统下所有HL-100推理卡的bus ID,循环遍历所有HL-100推理卡的busID,对HL-100推理卡逐个持续进行压力散热测试、BERT稳定性测试和服务器内存与卡上内存的数据上行及下行传输带宽测试,并保存测试结果;/nS3:对整机的所有HL-100推理卡分别进行预设时长的压力散热测试;/nS4:对整机的所有HL-100推理卡分别进行预设时长的BERT稳定性测试。/n

【技术特征摘要】
1.一种HL-100推理卡的压力测试方法,其特征在于,包括如下步骤:
S1:检查HL-100推理卡在当前系统下可以正常识别;
S2:获取当前系统下所有HL-100推理卡的busID,循环遍历所有HL-100推理卡的busID,对HL-100推理卡逐个持续进行压力散热测试、BERT稳定性测试和服务器内存与卡上内存的数据上行及下行传输带宽测试,并保存测试结果;
S3:对整机的所有HL-100推理卡分别进行预设时长的压力散热测试;
S4:对整机的所有HL-100推理卡分别进行预设时长的BERT稳定性测试。


2.根据权利要求1所述的HL-100推理卡的压力测试方法,其特征在于,所述步骤S1还包括:
统计当前系统下识别到HL-100推理卡的数量,并保存到HL-100_num.txt中;
查看HL-100推理卡PCIe接口工作模式,并保存到PCIeSpeed.txt文件中。


3.根据权利要求1所述的HL-100推理卡的压力测试方法,其特征在于,所述步骤S2具体为:
通过命令#lspci-d1da3:获取系统下所有HL-100推理卡的busID;
使用for循环遍历所有HL-100推理卡的busID,对HL-100推理卡逐个持续进行1小时压力散热测试、1小时BERT稳定性测试和1小时服务器内存与卡上内存的数据上行及下行传输带宽测试,并保存测试结果,显示pass或者fail。


4.根据权利要求3所述的HL-100推理卡的压力测试方法,其特征在于,在步骤S2中,所述对HL-100推理卡逐个持续进行压力散热测试、BERT稳定性测试和服务器内存与卡上内存的数据上行及下行传输带宽测试的具体测试流程为:
使用循环语句对HL-100推理卡运行三次时长为20分钟的压力...

【专利技术属性】
技术研发人员:彭笑笑
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1