一种大数据流处理框架的性能基准测试系统及方法技术方案

技术编号:19219505 阅读:53 留言:0更新日期:2018-10-20 08:07
本发明专利技术涉及一种大数据流处理框架的性能基准测试系统及方法,系统由流式负载生成器、流式场景与应用构造器、性能数据采集工具和性能数据分析工具四个部分组成。本发明专利技术通过选取符合流式处理模式计算特征的应用,生成符合流式处理模式数据特征的负载,测试大数据流处理框架在典型场景与应用下的性能表现,采集运行时的反压、吞吐量、延迟、系统资源、节点数据等性能指标,最后通过分析和统计采集数据来诊断流处理框架的瓶颈所在。

【技术实现步骤摘要】
一种大数据流处理框架的性能基准测试系统及方法
本专利技术涉及一种大数据流处理框架的性能基准测试系统及方法,尤其涉及在典型流式场景与应用下框架运行时的性能表现,属于软件

技术介绍
随着互联网时代的到来,移动互联网、社交网络、电子商务等技术的不断发展,数据呈现爆发式增长,大数据已经成为了当今科技界、企业界甚至政府关注的热点。一般来说,数据可分为有界数据和无穷数据。有界数据,也称批数据,指固定有界的存储在持久化介质中的数据,计算时数据量不变化。通常来说,批式大数据处理框架(后文简称为批处理框架)接收用户提交的任务对存储好的数据集进行逻辑处理和分析,最后输出结果。例如,采用机器学习算法对历史数据集进行分析挖掘,建立预测模型。现今已有许多成熟的批处理框架得到运用,如Hadoop、Spark等。但是,随着传感设备、社交网络的兴起或广泛运用,对海量高速数据进行实时分析的需求不断提升,这种持续产生并且无穷的数据被称为无穷数据,又称为流数据。国外咨询机构对企业信息化的调查显示,70%的企业存在对流数据实时处理的需求(LiuX,IftikharN,XieX.Surveyofreal-timeprocessingsystemsforbigdata.InternationalDatabaseEngineering&ApplicationsSymposiumACM.NewYork.USA2014:356-361)。例如,阿里巴巴基于Blink框架,实时更新商品搜索引擎,构建在线机器学习平台;美团网基于Storm框架,分析用户行为,实现准实时的推荐反馈;滴滴出行基于Samza框架,监控订单数据的产生地点,绘制地理热力图预警。但是流数据有着不同于批数据的特征,传统的批处理框架无法很好的对流数据进行处理,于是流式大数据处理框架(后文简称为流处理框架)应运而生。虽然流处理框架还处在发展阶段,但是随着流式处理场景的日趋重要,流处理框架已成为学术界、工业界的关注重点。现今主流的流处理框架有Storm、Flink等。集群环境的越来越大,系统性能问题发生的概率也随之增加,节点可能在无法预知的时间或数据上出现失效、资源不足等问题(孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,(04):839-862.)。在流式处理场景中,负载过大、参数配置不合理等原因,可能造成系统吞吐量下降、延迟上升;节点处理速率不及输入速率,可能出现反压现象;数据分布不均衡,可能导致单点资源瓶颈。流式处理实时性的要求严苛,用户容忍度低,因而保障流式处理中系统性能稳定尤为重要。但是目前针对大数据系统性能问题的解决方案通常都在问题发生之后,如果能事先构建可能发生性能问题的场景与应用,在实际生产集群中进行测试,就能提前发现系统中资源或配置的问题,减少实际运行时的损失。流处理框架近几年才开始发展,因此,针对流处理框架的性能基准测试在行业内并没有成熟的统一标准,并且数量较少。YahooStreamingBenchmarks(YahooSteamingBenchmarkshttps://github.com/yahoo/streaming-benchmarks)是Yahoo公司设计的流处理框架测试基准。它由Kafka产生数据,选取待测的流处理框架执行,同时和外部Redis数据库交互。但是该测试基准只提供了一个过滤操作的测试应用,整体的完成度低。StreamBench(LuR,WuG,XieB,etal.Streambench:Towardsbenchmarkingmoderndistributedstreamcomputingframeworks[C]//UtilityandCloudComputing(UCC),2014IEEE/ACM7thInternationalConferenceon.IEEE,2014:69-78.)也是针对于流处理框架开发的测试基准,它包括7个过滤或统计操作的应用集,用以测试流处理框架的延迟、吞吐量和故障恢复能力。但该基准不支持窗口等复杂的测试应用,也不支持动态变化的数据源。此外一些论文工作也对此领域有过简单涉及,ChintapalliS等人(ChintapalliS,DagitD,EvansB,etal.Benchmarkingstreamingcomputationengines:storm,flinkandsparkstreaming[C]//ParallelandDistributedProcessingSymposiumWorkshops,2016IEEEInternational.IEEE,2016:1789-1792.)为了对比SparkStreaming、Storm和Flink流处理框架的性能,设计了一种简单的以Kafka输入数据,进行过滤、连接、聚合操作的应用;KarimovJ等人(KarimovJ,RablT,KatsifodimosA,etal.BenchmarkingDistributedStreamDataProcessingSystems[J])构建了窗口聚合和窗口连接两种测试应用对流处理框架进行对比分析。但是,这些工作都存在应用测试集覆盖面过小等问题。综上,现有的针对流处理框架的性能基准测试在应用测试集、流式数据源和性能指标方面存在三点的不足,一是不支持动态变化的数据源,二是应用的构造过于简单,对流式处理的特征覆盖程度低,三是绝大多数的性能指标只考虑了延迟和吞吐量,对其它如反压等指标没有涉及。
技术实现思路
本专利技术的技术解决问题:克服现有技术的不足,提供一种大数据流处理框架的性能基准测试系统与方法,特别是针对流式处理模式的特征,构建覆盖特征的数据源,以测试框架在典型流式场景下的性能表现,分析和诊断流处理框架的瓶颈所在。本专利技术技术解决方案涉及一个大数据流处理框架的性能基准测试系统,包括流式负载生成器、流式场景与应用构造器、性能数据采集工具和性能数据分析工具四个模块。流式负载生成器,负责产生符合流式处理模式数据特征的负载。不同于传统批数据生成方式,流式负载生成器包括流速模式的设计和数据集属性的设计两方面任务。流速模式指的是框架输入速率随时间的变化模式,速率可能是一个恒定值也可能是变化值,或符合某一函数的变化。数据集属性指的是每秒流入的数据集的特征,它包括维度、乱序程度、倾斜度等。通过组合流速模式和数据集属性,可以实现流式负载的生成。流式场景与应用构造器,负责构建覆盖流数据计算特征的场景与应用,本测试系统的场景和应用主要来源于两个方面,一是实际生活中经常遇到的流数据处理场景,二是当前的流处理框架测试基准提供的测试用例。同时,构造器特别考虑了流式处理中的窗口机制,构造器通过变化不同的窗口影响参数取值,进行控制变量的参数测试。性能数据采集工具,负责在测试过程中采集测试应用的各性能指标,这些指标除了吞吐率、延迟、反压和系统资源外,还包括一些更加细粒度的节点信息,例如测试中流处理框架各节点的处理速率、处理的数据量、缓冲池使用量等。性能数据分析工具,负责对采集到的数据进行处理,根据自顶向下的分析统计方法,将数据可视化为图表,反映参数变化对吞吐量、延迟、反压、系统性能等指标的影响,本文档来自技高网
...

【技术保护点】
1.一种大数据流处理框架的性能基准测试系统,其特征在于,包括:流式负载生成器、流式场景与应用构造器、性能数据采集工具和性能数据分析工具;所述流式负载生成器,产生包含数据参数的流数据;所述流式场景与应用构造器,构建特定场景与应用,运行所述应用进行不同参数下所述框架在所述场景与应用中处理所述流数据的性能测试;所述性能数据采集工具,采集所述性能测试过程中的性能指标;所述性能数据分析工具,对所述性能收集工具采集的所述性能指标进行处理分析,以反映所述参数变化对所述性能指标的影响,并诊断所述框架进行流数据处理的瓶颈。

【技术特征摘要】
1.一种大数据流处理框架的性能基准测试系统,其特征在于,包括:流式负载生成器、流式场景与应用构造器、性能数据采集工具和性能数据分析工具;所述流式负载生成器,产生包含数据参数的流数据;所述流式场景与应用构造器,构建特定场景与应用,运行所述应用进行不同参数下所述框架在所述场景与应用中处理所述流数据的性能测试;所述性能数据采集工具,采集所述性能测试过程中的性能指标;所述性能数据分析工具,对所述性能收集工具采集的所述性能指标进行处理分析,以反映所述参数变化对所述性能指标的影响,并诊断所述框架进行流数据处理的瓶颈。2.根据权利要求1所述的大数据流处理框架的性能基准测试系统,其特征在于:所述参数包括但不限于数据参数、应用参数或系统参数。3.根据权利要求1或2所述的大数据流处理框架的性能基准测试系统,其特征在于:所述数据参数包括但不限于流式负载特征,所述流速负载特征包括但不限于流速模式或数据技术性,所述流速模式包括但不限于固定速率、随机速率、突变速率或指数速率,所述数据集属性包括但不限于数据维度、数据倾斜度或数据乱序度。4.根据权利要求2所述的大数据流处理框架的性能基准测试系统,其特征在于:所述系统参数包括但不...

【专利技术属性】
技术研发人员:黄涛许利杰魏峻王伟郑莹莹刘重瑞胡家煊
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1