数据中心数据分析类基准测试程序的应用选取方法及系统技术方案

技术编号:9060641 阅读:143 留言:0更新日期:2013-08-21 23:46
本发明专利技术公开了一种数据中心数据分析类基准测试程序的应用选取方法及系统,该方法执行于数据中心计算机系统中,包括:步骤一,从多种应用领域中分别选取至少一个应用,组成应用集,该应用集覆盖了特定种类的编程模型;步骤二,运行该应用集中的所有应用,针对每个应用,都分别获取预定性能指标的参数值;步骤三,将各个应用所对应的该参数值分别组成一个特征向量,对所有特征向量进行聚类;步骤四,在聚类得到的每个类中,选择距离类中心点最近和最远的两个应用作为基准测试程序的应用进行基准测试。

【技术实现步骤摘要】
数据中心数据分析类基准测试程序的应用选取方法及系统
本专利技术涉及系统测试领域,特别是涉及数据中心的基准测试程序的应用选取方法及系统。
技术介绍
随着互联网、物联网技术的快速发展和数字信息的急剧膨胀,数据中心需要服务的用户数越来越多,需要处理的数据量越来越大。数据中心应用的主要目的是从海量数据中获取信息,并将这些信息提供给用户。数据中心计算机系统,与传统的主要运行并行应用的高性能计算机不同,需要处理大量数目的请求、运行很多相互之间耦合性弱的作业,这些请求本身都是独立的,作业也通常由能够在多个处理器上独立执行的任务组成。与此同时,系统在服务请求或者执行作业时需要处理和分析海量的数据。更为重要的是,提供这样的服务需要严格的成本控制,因而系统必须具有低成本特性,否则服务提供者无法可持续地发展。当前,数据中心越来越多地被一些网络公司,银行,证券等公司所使用。然而如何对数据中心计算机系统进行评测,是业界需要解决的问题。在现有技术中,基准测试是量化数据中心计算机系统架构研究和优化系统架构的基础。具体来说,通过运行基准测试程序(Benchmark),研究人员可以获得数据中心系统整体性能或某一方面性能,来达到评测和比较的目的。基准测试程序(Benchmark)由代表性应用组成。目前在各个较成熟的领域中都有各自的benchmark,如高性能计算中的linpack,联机事务处理中的TPC-C。这些benchmark有各自的特定和相应的特性,已经得到业界的公认。而在数据中心领域中并没有业界公认的benchmark。现有技术中,基准测试程序包括:HadoopGridMix,HiBench和CloudSuite。其中HadoopGridmix是针对hadoop系统的基准测试程序。它具备评测大规模数据处理系统所需的各个功能模块,包括:产生数据,生成并提交作业,统计作业完成时间等。Gridmix通过模拟hadoopcluster中的实际负载来评测hadoop性能。HiBench是Intel对Hadoop集群构造的一套benchmarksuite。HiBench包含MicroBenchmarks,websearch,machinelearning等应用。CloudSuite是用于测试scale-out应用程序性能的标准测试程序集。CloudSuite的第一个版本由6个应用程序组成,这6个应用程序是当前的数据中心中较为常用的应用程序。对于基准测试程序GridMix,从选取的应用的编程模型角度考虑,只选取了MapReduce编程模型,而缺乏其他编程模型。由于所选取的应用的编程模型会对测试结果有很大的影响,因此在评价数据中心计算机系统时如果仅采取一种编程模型的应用,会造成测试结果对特定编程模型的依赖。而基准测试程序GridMix仅简单采用了的几种应用的组合,且未对如何选择应用作出规定。对于基准测试程序HiBench,HiBench选取的应用为基本应用,Web应用,机器学习,HDFSBenchmark。较之gridmix,HiBench选取的应用比较丰富,但是还存在不足:首先,HiBench的构造没有一定说服力的应用选取方法学;从编程模型的角度而言,不具备编程模型的多样性;且选取应用较多。对于基准测试程序CloudSuite,虽然CloudSuite是当前数据中心中比较流行的应用程序,但是仍有缺点。首先,考虑CloudSuite的构造方法而言,缺乏应用选取方法学;从编程模型的角度,不具备编程模型的多样性,因此在实际应用中就有其局限性;从应用选取的角度,选取的应用单一,缺乏基本操作,数据仓库,数据挖掘等在数据分析中广泛使用的应用,因此应用集不具备完备性、丰富性、代表性。WorkLoadsuites是美国加州大学伯克利分校提出的一种用于评价MapReduce性能的Benchmark,该技术的特点是作业满足多样性,作业的密度可变,选取数据大小具有代表性,容易产生预期的负载或者一定规模的负载,集群的配置是独立的,所使用的应用程序是代理程序。WorkLoadsuites虽然是一种综合考虑负载性能的benchmark,但还是存在一些缺点,首先:缺少一种应用选取的方法学,其仅仅根据已有的日志程序来模拟应用,很难有广泛的代表性;其次:该技术使用的程序是代理程序,而非真实的程序,并不能反映真实应用中对计算机系统的需求。综上,现有的基准测试程序在测试数据中心计算机系统时,由于所选取的应用存在缺陷,导致测试结果容易失真。特别是,目前已有的一些benchmark没有考虑编程模型的影响,有的则缺少真实应用程序,使benchmark不具备代表性,导致测试不能完备、全面、准确的评价数据中心的性能,从而降低了测试过程的可靠性。
技术实现思路
本专利技术解决的技术问题在于,获取一组既具有丰富的编程模型类型,又具有广泛的应用领域,且在各自类别中具有代表性的应用来作为数据中心计算机系统的benchmark,以提高测试的可靠性。进一步使得测试结果能够更加完备、全面、准确的评价数据中心的性能。本专利技术公开了一种数据中心数据分析类基准测试程序的应用选取方法,,包括:步骤一,从多种应用领域中分别选取至少一个应用,组成应用集,该应用集覆盖了特定种类的编程模型;步骤二,运行该应用集中的所有应用,针对每个应用,都分别获取预定性能指标的参数值;步骤三,将各个应用所对应的该参数值分别组成一个特征向量,对所有特征向量进行聚类;步骤四,在聚类得到的每个类中,选择距离类中心点最近和最远的两个应用作为基准测试程序的应用进行基准测试。该多种应用领域包括:基本操作、数据挖掘算法、数据仓库操作、生物信息学和音视频处理。该特定种类的编程模型包括:MapReduce、MPI、Workqueu和All-pairs。该预定性能指标包括:程序指令集特性、CPU利用率、指令集并行度、访存数据、磁盘读写数据和传输数据包数据中的一种或多种。步骤三的该聚类采用K-means算法。步骤二进一步包括:通过读取硬件性能计数器获得运行的各种指令的数量以得到该程序指令集特性,该程序指令集特性为运行的各种指令的比例,该指令包括:装载指令、存储指令、浮点操作指令、分支指令和整形操作指令中的任意一种或多种;通过读取硬件性能计数器获取该访存数据,该访存数据包括一级指令缓存缺失率、二级数据缓存缺失率和二级缓存缺失率;通过读取磁盘状态文件获得该磁盘读写数据,该磁盘读写数据分别包括磁盘每秒读取和写入的数据量;通过读取网络参数文件获得该传输数据包数据,该传输数据包数据包括每秒收发的数据包总量。本专利技术还公开了一种数据中心数据分析类基准测试程序的应用选取系统,设置于数据中心计算机系统中,包括:应用选择装置,从多种应用领域中分别选取至少一个应用,组成应用集,该应用集覆盖了特定种类的编程模型;参数获取装置,运行该应用集中的所有应用,针对每个应用,都分别获取预定性能指标的参数值;聚类装置,将各个应用所对应的该参数值分别组成一个特征向量,对所有特征向量进行聚类;类别选择装置,在聚类得到的每个类中,选择距离类中心点最近和最远的两个应用作为基准测试程序的应用进行基准测试。该多种应用领域包括:基本操作、数据挖掘算法、数据仓库操作、生物信息学和音视频处理。该特定种类的编程本文档来自技高网
...
数据中心数据分析类基准测试程序的应用选取方法及系统

【技术保护点】
一种数据中心数据分析类基准测试程序的应用选取方法,执行于数据中心计算机系统中,其特征在于,包括:步骤一,从多种应用领域中分别选取至少一个应用,组成应用集,该应用集覆盖了特定种类的编程模型;步骤二,运行该应用集中的所有应用,针对每个应用,都分别获取预定性能指标的参数值;步骤三,将各个应用所对应的该参数值分别组成一个特征向量,对所有特征向量进行聚类;步骤四,在聚类得到的每个类中,选择距离类中心点最近和最远的两个应用作为基准测试程序的应用进行基准测试。

【技术特征摘要】
1.一种数据中心数据分析类基准测试程序的应用选取方法,执行于数据中心计算机系统中,其特征在于,包括:步骤一,从多种应用领域中分别选取至少一个应用,组成应用集,该应用集覆盖了特定种类的编程模型;步骤二,运行该应用集中的所有应用,针对每个应用,都分别获取预定性能指标的参数值,该预定性能指标包括:程序指令集特性、CPU利用率、指令集并行度、访存数据、磁盘读写数据和传输数据包数据中的一种或多种;步骤三,将各个应用所对应的该参数值分别组成一个特征向量,对所有特征向量进行聚类;步骤四,在聚类得到的每个类中,选择距离类中心点最近和最远的两个应用作为基准测试程序的应用进行基准测试;该步骤二进一步包括:通过读取硬件性能计数器获得运行的各种指令的数量以得到该程序指令集特性,该程序指令集特性为运行的各种指令的比例,该指令包括:装载指令、存储指令、浮点操作指令、分支指令和整形操作指令中的任意一种或多种;通过读取硬件性能计数器获取该访存数据,该访存数据包括一级指令缓存缺失率、二级数据缓存缺失率和二级缓存缺失率;通过读取磁盘状态文件获得该磁盘读写数据,该磁盘读写数据分别包括磁盘每秒读取和写入的数据量;通过读取网络参数文件获得该传输数据包数据,该传输数据包数据包括每秒收发的数据包总量。2.如权利要求1所述的方法,其特征在于,该多种应用领域包括:基本操作、数据挖掘算法、数据仓库操作、生物信息学和音视频处理。3.如权利要求1所述的方法,其特征在于,该特定种类的编程模型包括:MapReduce、MPI、Workqueu和All-pairs。4.如权利要求1所述的方法,其特征在于,步骤三的该聚类采用自适应K-means算法。5.一种数据中心数据分析类基准测试程序的应用选取系统,设...

【专利技术属性】
技术研发人员:贾禛杜翠兰周润林王磊刘文宝詹剑锋张立新
申请(专利权)人:中国科学院计算技术研究所国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1