一种RAID卡老化测试方法及系统技术方案

技术编号:24330830 阅读:44 留言:0更新日期:2020-05-29 19:32
本发明专利技术公开了一种RAID卡老化测试方法和RAID卡老化测试方法系统,该方法包括加载测试环境,接入待测试RAID卡,并在测试环境下,进行RAID卡状态信息检查;和/或PCIe链路检测;和/或SAS链路检测;和/或RAID卡IO性能测试;和/或RAID卡日志检查;以在出厂前完成这些RAID卡检查,有效拦截硬件损伤、信号差的RAID卡,减少终端用户RAID掉盘事件的发生;在一定程度上提高产品质量,本发明专利技术还提供了用于实施上述本发明专利技术方法的系统,以完成对RAID卡出厂前的自动化检测,以确保出厂的RAID卡处于健康状态,能稳定工作;实现测试的自动化,减轻产线员工的压力;并在检测过程中对RAID卡问题原因快速诊断,有效提高Raid卡老化测试效率,提高测试结果准确性。

【技术实现步骤摘要】
一种RAID卡老化测试方法及系统
本专利技术属于硬盘测试
,具体而言,为一种RAID卡老化测试方法及系统。
技术介绍
RAID(RedundantArrayofIndependentDisks,独立冗余磁盘阵列)是一种把多块独立的物理硬盘按不同方式组合起来形成一个逻辑硬盘,通过磁盘条带化、磁盘镜像等技术从而提供比单个硬盘有着更高的性能和提供数据冗余。RAID卡就是用来实现RAID功能的板卡,通常是由I/O处理器、硬盘控制器、硬盘连接器和缓存等一系列零组件构成的。不同的RAID卡支持的RAID功能不同,主流使用的RAID级别主要有RAID0、RAID1、RAID5、RAID6等。由于使用的芯片质量不佳或者生产过程中连接器压接等制造工艺问题,RAID卡SAS链路质量参差不齐,SAS链路信号质量差的系统会出现RAID磁盘读写性能下降,甚至RAID磁盘无法正常工作甚至离线掉盘等故障。在服务器生产老化测试中,会对RAID卡及其连接的硬盘链路进行老化测试,检测出RAID卡故障,以保证服务器正常运行。传统测试手段主要是测试RAID的创建、手动拔插硬盘模拟RAID掉盘,这种测试方法耗费人力也容易出错,测试内容单一且效率低。例如,申请号为“201110040385.0”的专利技术专利申请文件中,公开了一种RAID自动化测试系统及方法,通过模拟磁盘,插拔的装置,为待测磁盘阵列创建一个RAID卷,逐一检查实体硬盘及RAID卷的状态是否健康,若RAID降级则创新创建RAID,直至所有RAID卷状态都正常时,测试成功。这种方法的缺点是只能检查磁盘阵列RAID的状态,已经不能满足生产需求。有鉴于此,特提出本专利技术。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种RAID卡老化测试方法及系统,以有效提高Raid卡老化测试效率,提高测试结果准确性。为实现上述目的,本专利技术的技术方案如下:1.RAID卡老化测试方法,包括:进行RAID卡的状态信息检查、PCIe链路检测和SAS链路phyerror检测,根据检查和检测结果修复RAID卡直至RAID卡无故障,其中:PCIe链路检测包括:通过Linux系统下第一命令行工具检查RAID卡的PCIe链路理论传输带宽和实际传输带宽是否一致,如果实际传输带宽中的速率与理论带宽中的速率不一致,则执行修复并且重新执行PCIe链路检测;如果实际传输带宽中的速率与理论带宽中的速率一致,则执行SAS链路phyerror检测;SAS链路phyerror检测包括:通过Linux系统下第二命令行工具查看RAID卡的SAS链路phyerror第一项计数、第二项计数和第三项计数,如果SAS链路phyerror第一项计数、第二项计数、第三项计数至少有一项不为0,则执行修复并且重新执行SAS链路phyerror检测;如果SAS链路phyerror第一项计数、第二项计数、第三项计数全部为0,则执行RAID卡IO性能测试。RAID卡老化测试方法还包括:RAID卡IO性能测试和RAID卡日志检查,并且,按照顺序依次执行RAID卡的状态信息检查、PCIe链路检测、SAS链路phyerror检测、RAID卡IO性能测试、RAID卡日志检查中的每一项,每一项没有错误或达到基准值后执行下一步,直至全部测试完成。其中,RAID卡的状态信息检查包括:通过Linux系统下第二命令行工具storcli获取RAID卡的状态信息,其中,RAID卡的状态信息包括RAID卡的固件版本、缓存容量、芯片温度、RAID卷状态的至少一种;如果RAID卡的状态信息检查有错误,则重新刷写固件、更换新卡或查找错误原因修复问题,并且,重新执行RAID卡的状态信息检查;如果RAID卡的状态信息检查没有错误,则执行PCIe链路检测。其中,Linux系统下第一命令行工具是指lspci工具。其中,Linux系统下第二命令行工具是storcli,通过storcli/cx/pallshowall命令查看RAID卡的SAS链路phyerror,SAS链路phyerror第一项计数是指InvalidDwordCount,第二项计数是指RunningDisparityErrorCount,第三项计数是指LossofSyncCount。RAID卡IO性能测试包括使用第三方IO测试软件FIO进行测试,其中:RAID卡IO性能测试包括:RAID卡SAS链路进行顺序读、顺序写BW(带宽)性能测试和随机读、随机写IOPS性能测试;如果RAID卡IO性能测试结果达不到RAID卡IO性能基准值,则更换RAID卡或查找错误原因修复问题,并且,重新执行RAID卡IO性能测试;如果RAID卡IO性能测试结果达到RAID卡IO性能基准值,则执行RAID卡日志检查。RAID卡日志检查包括通过Linux系统下第二命令行工具storcli,利用storcli/cxshowtermlog命令导出RAID卡日志,如果RAID卡日志有错误关键字,则更换RAID卡或查找错误原因修复问题,并且,重新执行RAID卡日志检查;如果RAID卡日志没有错误关键字,则完成测试。一种RAID卡老化测试方法系统,包括存储介质,存储介质存储程序,程序被执行以实现上述的RAID卡老化测试方法。与现有技术相比,本专利技术的有益效果在于:本专利技术提供的RAID卡老化测试方法,基于linux测试系统下的storcli工具实现RAID卡状态信息的检查、phyerror信息的检查、日志收集以及关键字的有效筛选;通过lspci工具进行RAID卡PCIe链路信息检测以及关键字段的有效选择,在出厂前完成RAID卡的状态信息检查、PCIe链路检测、SAS链路检测、IO性能测试以及日志检查,能够有效拦截硬件损伤、信号差的RAID卡,减少终端用户RAID掉盘事件的发生。在一定程度上提高产品质量,提升客户满意度,增加公司产品的竞争力;适用于RAID卡生产测试阶段以及服务器生产老化测试阶段;本专利技术还提供了RAID卡老化测试方法系统,以完成对RAID卡出厂前的自动化检测,以确保出厂的RAID卡处于健康状态,能稳定工作;实现测试的自动化,减轻产线员工的压力;并在检测过程中对RAID卡问题原因快速诊断,有效提高Raid卡老化测试效率,提高测试结果准确性。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1为现有技术中的测试方法流程图;图2为本专利技术一种RAID卡老化测试方法的一个具体实施例示意图;图3为图2中所示进行PCIe链路检测时得到的一个具体实施例中的代码信息示意图;图4为图2中所示进行SAS链路检测时得到的一个具体实施例中的列表信息示意图;图5为本专利技术一种RAID卡老化测试系统的逻辑框图。本文档来自技高网
...

【技术保护点】
1.RAID卡老化测试方法,其特征在于,包括:/n进行RAID卡的状态信息检查、PCIe链路检测和SAS链路phy error检测,根据检查和检测结果修复所述RAID卡直至所述RAID卡无故障,其中:/n所述PCIe链路检测包括:通过Linux系统下第一命令行工具检查RAID卡的PCIe链路理论传输带宽和实际传输带宽是否一致,如果所述实际传输带宽中的速率与所述理论带宽中的速率不一致,则执行修复并且重新执行所述PCIe链路检测;如果所述实际传输带宽中的速率与所述理论带宽中的速率一致,则执行所述SAS链路phy error检测;/n所述SAS链路phy error检测包括:通过所述Linux系统下第二命令行工具查看RAID卡的SAS链路phy error第一项计数、第二项计数和第三项计数,如果所述SAS链路phy error第一项计数、第二项计数、第三项计数至少有一项不为0,则执行修复并且重新执行所述SAS链路phy error检测;如果所述SAS链路phy error第一项计数、第二项计数、第三项计数全部为0,则执行RAID卡IO性能测试。/n

【技术特征摘要】
1.RAID卡老化测试方法,其特征在于,包括:
进行RAID卡的状态信息检查、PCIe链路检测和SAS链路phyerror检测,根据检查和检测结果修复所述RAID卡直至所述RAID卡无故障,其中:
所述PCIe链路检测包括:通过Linux系统下第一命令行工具检查RAID卡的PCIe链路理论传输带宽和实际传输带宽是否一致,如果所述实际传输带宽中的速率与所述理论带宽中的速率不一致,则执行修复并且重新执行所述PCIe链路检测;如果所述实际传输带宽中的速率与所述理论带宽中的速率一致,则执行所述SAS链路phyerror检测;
所述SAS链路phyerror检测包括:通过所述Linux系统下第二命令行工具查看RAID卡的SAS链路phyerror第一项计数、第二项计数和第三项计数,如果所述SAS链路phyerror第一项计数、第二项计数、第三项计数至少有一项不为0,则执行修复并且重新执行所述SAS链路phyerror检测;如果所述SAS链路phyerror第一项计数、第二项计数、第三项计数全部为0,则执行RAID卡IO性能测试。


2.根据权利要求1所述的RAID卡老化测试方法,其特征在于,还包括:RAID卡IO性能测试和RAID卡日志检查,并且,按照顺序依次执行所述RAID卡的状态信息检查、所述PCIe链路检测、所述SAS链路phyerror检测、所述RAID卡IO性能测试、所述RAID卡日志检查中的每一项,所述每一项没有错误或达到基准值后执行下一步,直至全部测试完成。


3.根据权利要求1或2所述的RAID卡老化测试方法,其特征在于,所述RAID卡的状态信息检查包括:通过所述Linux系统下第二命令行工具storcli获取RAID卡的状态信息,其中,所述RAID卡的状态信息包括所述RAID卡的固件版本、缓存容量、芯片温度、RAID卷状态的至少一种;
如果所述RAID卡的状态信息检查有错误,则重新刷写固件、更换新卡或查找错误原因修复问题,并且,重新执行所述RAID卡的状态信息检查;如果...

【专利技术属性】
技术研发人员:周建伟付卿峰秦晓宁
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1