一种海量存储系统的可靠性测试系统及测试方法技术方案

技术编号:6720215 阅读:286 留言:0更新日期:2012-04-11 18:40
一种海量存储系统的可靠性测试系统及方法,包括数据采集单元和数据分析单元,数据采集单元包括静态测试模块、72小时可靠性测试模块、恢复时间测试模块、BER测试模块、MTBF参考数据采集模块;所述数据分析模块包括静态测试评估模块、72小时可靠性测试结果分析模块、马尔科夫分析模块、蒙特卡罗分析模块、MTTDL分析模块;通过上述数据采集和数据分析,从静态测试、72小时可靠性测试和基于故障注入的可靠性测试等方面综合测试,采用马尔科夫模型、蒙特卡罗模型、磁盘阵列MTTDL来进行分析,得到反映被测系统的各项性能指标,解决了现有技术中的可靠性评价系统不能综合反映出海量存储系统的可靠性的技术问题。特别适用于海量存储系统的可靠性测试。

【技术实现步骤摘要】

本专利技术涉及一种存储系统的可靠性评价系统,具体地说是一种海量存储系统的可 靠性测试评价体系。
技术介绍
随着现代信息系统所采用的技术越来越先进,信息系统也趋向于大型化和复杂 化,在数据处理应用领域中就需要极高的数据吞吐量,这就需要海量存储系统以满足需求。 现有的存储测试基准工具大多面向较小规模的存储系统,且大都只关心存储系统的效率。如中国专利文献CN101630534A中公开了一种非易失性存储器可靠性的测试方法 和装置,在K个分别具有Nm个区块的非易失性存储器的每一个中分别选取N个区块,对被 选取的KXN个区块分别执行T次测试程序,得到测试数据;根据测试数据统计执行测试程 序次数与该次数的测试中累计发生失效的区块数目之间的数据关系并绘制测试曲线;确定 等效失效区块数目判断标准;在测试曲线中读出执行次数值对应的失效数目;将得到的失 效数目与等效失效区块数目判断标准相比较,判断是否合格。在该技术方案中虽然给出了 一种测试失效区块来判断存储器可靠性的方法,但是对于海量存储系统,只关心该项性能 是不够的,为了能够考察系统提供全年不间断服务的能力,可靠性需要综合评价整个系统 的多项性能,目前海量存储系统的可靠性测试还没有成熟的测试方案和统一的测试标准。马尔科夫状态转移方法,是在马尔科夫过程的假设前提下,通过分析随机变量的 现时变化情况来预测这些变量未来变化情况的一种预测方法。马尔科夫过程只受到过去有 限时间内的某个事件影响的随机过程的特性,对研究存储系统可靠性很有帮助定义。蒙特卡罗方法又称统计模拟法、随机抽样技术,是一种随机模拟方法,以概率和统 计理论方法为基础的一种计算方法,是使用随机数(或更常见的伪随机数)来解决很多计 算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或 抽样,以获得问题的近似解。
技术实现思路
为此,本专利技术所要解决的技术问题在于现有技术中的可靠性评价系统不能综合反 映出海量存储系统的可靠性,从而提出一种海量存储系统的可靠性测试系统。为解决上述技术问题,本专利技术的一种海量存储系统的可靠性测试系统,包括数据 采集单元和数据分析单元,所述数据采集单元,通过测试采集用于分析的数据,包括(1)静态测试模块对影响系统可靠性的属性进行总结,确定检查项,制定检查 表,并针对检查项进行测试,将测试结果写入检查表;(2) 72小时可靠性测试模块首先进行出厂测试,然后进行72小时压力测试,得到 测试结果;(3)恢复时间测试模块在被测系统中插入故障,测量被测系统在故障情况下的性能变化,得出恢复时间; (4) BER测试模块采集磁盘在读数据过程中产生的错误率;(5)MTBF参考数据采集模块测量单个磁盘运行时的平均无故障时间;所述数据分析单元,对数据采集部分采集到的数据进行处理和分析,包括(1)静态测试评估模块根据静态测试中的检查表分析测试结果;(2) 72小时可靠性测试结果分析模块根据所述72小时可靠性测试中的测试结果 进行分析;(3)马尔科夫分析模块根据阵列正常运行状态、阵列故障状态、阵列恢复状态来 建立马尔科夫模型,计算出被测系统的可靠性;(4)蒙特卡罗分析模块通过蒙特卡罗模拟建模,在已知单个磁盘MTBF的情况下, 根据各个部件的出错率,模拟两个或两个以上部件在同一时间段的运行状态,得出其出错 的概率,最后得到各部件组成的整个系统的MTBF,进而得出系统可用性值。(5)MTTDL分析模块通过数据丢失的方式,将平均无数据丢失时间分为两部分, 一为因磁盘损坏造成的丢失,二为在磁盘良好的状态下,产生的不可恢复的读数据错误,然 后将两部分综合得出总体的MTTDL。一种海量存储系统的可靠性测试方法,包括如下步骤(1)由静态测试模块对影响系统可靠性的属性进行总结,确定检查项,制定检查 表,并针对检查项进行测试,将测试结果写入检查表;然后由静态测试评估模块根据静态测 试中的检查表分析测试结果;(2)由72小时可靠性测试模块对被测系统进行72小时压力测试,得到测试结果; 再通过72小时可靠性测试结果分析模块根据测试结果进行分析;(3)在被测系统中插入故障,由恢复时间测试模块测量被测系统在故障情况下的 性能变化,得出恢复时间;(4)由BER测试模块采集磁盘在读数据过程中产生的错误率;(5)通过MTBF参考数据采集模块测量单个磁盘运行时的平均无故障时间;(6)通过马尔科夫分析模块根据阵列正常运行状态、阵列故障状态、阵列恢复状态 来建立马尔科夫模型,来计算被测系统的可靠性;(7)通过蒙特卡罗模拟建模,在已知单个磁盘MTBF的情况下,根据各个部件的出 错率,由蒙特卡罗分析模块模拟两个或两个以上部件在同一时间段的运行状态,得出其出 错的概率,最后得到各部件组成的整个系统的MTBF,进而得出系统可用性值。(S)MTTDL分析模块通过数据丢失的方式,将平均无数据丢失时间分为两部分,一 为因磁盘损坏造成的丢失,二为在磁盘良好的状态下,产生的不可恢复的读数据错误,通过 上述采集的BER和MTBF,计算出两部分并综合得出总体的MTTDL。步骤(1)中,所述静态测试模块中的检查项包括文档质量、安装和配置的容易程 度、易用性、管理工具的功能、用户的透明性、容错功能、故障诊断功能、数据安全性、卷管理 功能和文件锁机制。所述步骤(2)中的72小时压力测试方法为被测系统在负载压力中,连续不停机运 转72小时,记录在此期间系统出现的导致系统不可正常使用的错误,并评估错误对系统的 可用程度的破坏,得出系统的可靠性。 所述恢复时间测试的步骤如下首先,使用负载测试程序在一个正常状态下执行 测试,记录下性能指标;然后,在负载运行时插入故障负载,同时记录性能指标。所述马尔科夫模型建立涉及的参数包括MTBF、MTTR和R印air_time,MTBF为单个 磁盘的平均无故障时间,MTTR为单个磁盘的平均修复时间,Repair_time为阵列的修复时 间。所述蒙特卡罗模拟建模方法包括镜像部件的蒙特卡罗建模,不同部件冗余的蒙 特卡罗建模,多个冗余部件的蒙特卡罗建模,冗余路径的蒙特卡罗建模。所述步骤(8)中 MTTDL的计算公式如下MTTDL = 1/[(1/MTTDL_DF)+(1/MTTDL_BER)],其中MTTDL_DF为因磁盘损坏造成的丢失,MTTDL_BER为在磁盘良好的状态下产生 的不可恢复的读数据错误。在所述步骤(6)中,所述马尔科夫模型包括RAIDO阵列计算模型、RAIDl阵列计算 模型、RAID6阵列计算模型,镜像冗余部件马尔科夫改进模型。在所述步骤(7)中,所述蒙特卡罗模拟建模包括镜像部件的蒙特卡罗建模、不同 部件冗余的蒙特卡罗建模、多个冗余部件的蒙特卡罗建模、冗余路径的蒙特卡罗建模。本专利技术的上述技术方案相比现有技术具有以下优点,(1)本专利技术所述的海量存储系统的可靠性测试系统及方法,包括数据采集单元和 数据分析单元,数据采集单元包括静态测试模块、72小时可靠性测试模块、恢复时间测试模 块、BER测试模块、MTBF参考数据采集模块;所述数据分析模块包括静态测试评估模块、72 小时可靠性测试结果分析模块、马尔科夫分析模块、蒙特卡罗分析模块、MTTDL分析模块; 通过上述数据采集和数据分析,从静态测试、72小时可靠性测试和基于本文档来自技高网
...

【技术保护点】
一种海量存储系统的可靠性测试系统,包括数据采集单元和数据分析单元,其特征在于:所述数据采集单元,通过测试采集用于分析的数据,包括:(1)静态测试模块:对影响系统可靠性的属性进行总结,确定检查项,制定检查表,并针对检查项进行测试,将测试结果写入检查表;(2)72小时可靠性测试模块:首先进行出厂测试,然后进行72小时压力测试,得到测试结果;(3)恢复时间测试模块:在被测系统中插入故障,测量被测系统在故障情况下的性能变化,得出恢复时间;(4)BER测试模块:采集磁盘在读数据过程中产生的错误率;(5)MTBF参考数据采集模块:测量单个磁盘运行时的平均无故障时间;所述数据分析单元,对数据采集部分采集到的数据进行处理和分析,包括:(1)静态测试评估模块:根据静态测试中的检查表分析测试结果;(2)72小时可靠性测试结果分析模块:根据所述72小时可靠性测试中的测试结果进行分析;(3)马尔科夫分析模块:根据阵列正常运行状态、阵列故障状态、阵列恢复状态来建立马尔科夫模型,计算出被测系统的可靠性;(4)蒙特卡罗分析模块:通过蒙特卡罗模拟建模,在已知单个磁盘MTBF的情况下,根据各个部件的出错率,模拟两个或两个以上部件在同一时间段的运行状态,得出其出错的概率,最后得到各部件组成的整个系统的MTBF,进而得出系统可用性值;(5)MTTDL分析模块:通过数据丢失的方式,将平均无数据丢失时间分为两部分,一为因磁盘损坏造成的丢失,二为在磁盘良好的状态下,产生的不可恢复的读数据错误,然后将两部分综合得出总体的MTTDL。...

【技术特征摘要】
1.一种海量存储系统的可靠性测试系统,包括数据采集单元和数据分析单元,其特征 在于所述数据采集单元,通过测试采集用于分析的数据,包括(1)静态测试模块对影响系统可靠性的属性进行总结,确定检查项,制定检查表,并针 对检查项进行测试,将测试结果写入检查表;(2)72小时可靠性测试模块首先进行出厂测试,然后进行72小时压力测试,得到测试结果;(3)恢复时间测试模块在被测系统中插入故障,测量被测系统在故障情况下的性能变 化,得出恢复时间;(4)BER测试模块采集磁盘在读数据过程中产生的错误率;(5)MTBF参考数据采集模块测量单个磁盘运行时的平均无故障时间;所述数据分析单元,对数据采集部分采集到的数据进行处理和分析,包括(1)静态测试评估模块根据静态测试中的检查表分析测试结果;(2)72小时可靠性测试结果分析模块根据所述72小时可靠性测试中的测试结果进行 分析;(3)马尔科夫分析模块根据阵列正常运行状态、阵列故障状态、阵列恢复状态来建立 马尔科夫模型,计算出被测系统的可靠性;(4)蒙特卡罗分析模块通过蒙特卡罗模拟建模,在已知单个磁盘MTBF的情况下,根据 各个部件的出错率,模拟两个或两个以上部件在同一时间段的运行状态,得出其出错的概 率,最后得到各部件组成的整个系统的MTBF,进而得出系统可用性值;(5)MTTDL分析模块通过数据丢失的方式,将平均无数据丢失时间分为两部分,一为 因磁盘损坏造成的丢失,二为在磁盘良好的状态下,产生的不可恢复的读数据错误,然后将 两部分综合得出总体的MTTDL。2.—种海量存储系统的可靠性测试方法,其特征在于,包括如下步骤(1)由静态测试模块对影响系统可靠性的属性进行总结,确定检查项,制定检查表,并 针对检查项进行测试,将测试结果写入检查表;然后由静态测试评估模块根据静态测试中 的检查表分析测试结果;(2)由72小时可靠性测试模块对被测系统进行72小时压力测试,得到测试结果;再通 过72小时可靠性测试结果分析模块根据测试结果进行分析;(3)在被测系统中插入故障,由恢复时间测试模块测量被测系统在故障情况下的性能 变化,得出恢复时间;(4)由BER测试模块采集磁盘在读数据过程中产生的错误率;(5)通过MTBF参考数据采集模块测量单个磁盘运行时的平均无故障时间;(6)通过马尔科夫分析模块根据阵列正常运行状态、阵列故障状态、阵列恢复状态来建 立马尔科夫模型,来计算被测系统的可靠性;(7)通过蒙特卡罗模拟建模,在已知单个磁盘MTBF的情况下,根据各个部件的出错率, 由蒙特卡罗分析模块模拟两个或两个以上部件在同一时间段的运行状态,得出其出错的概 率,最后得到各部件组成...

【专利技术属性】
技术研发人员:潘清张晓清王霄军庄泽南
申请(专利权)人:中国人民解放军装备指挥技术学院
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1