一种分布式流数据处理方法技术

技术编号:16152660 阅读:16 留言:0更新日期:2017-09-06 18:10
本发明专利技术提供一种分布式流数据处理应用在减载下资源感知的方法。本发明专利技术通过对减载情况下的分布式流式数据处理应用的实际负载的建模与分析,预测该应用在不进行减载操作情况下的真实负载。基于真实负载,本发明专利技术能够辅助分布式流式数据处理处理系统的资源管理和调度框架对应用所需要的计算、储存等资源做出正确的测量与分配。

【技术实现步骤摘要】
一种分布式流数据处理方法
本专利技术涉及分布式流式数据处理应用的资源管理与调度领域,更具体涉及分布式流数据处理方法。
技术介绍
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,在越来越多的领域出现了对海量、高速数据进行实时处理的需求.由于此类需求往往超出传统数据处理技术的能力,分布式流处理模式和分布式流处理系统应运而生。作为一种运行于分布式流处理系统上的处理海量实时数据流的应用,分布式流处理应用需要获取相应的计算、存储和传输等硬件资源。而分布式流处理应用的资源管理和调度的作用就是根据不同应用的不同需求而合理的分配有限的硬件资源并对硬件资源进行管理,当流处理应用负载过重时,适当为其增加资源,反之则回收资源。此外,由于实时数据流的不确定性和波动性,在某一时刻可能出现超出系统处理能力的数据规模,为了应对这类突发的紧急情况,流处理系统中往往会采用减载等方法,控制数据流的大小以避免系统崩溃。由于减载的引入,必然导致资源管理调度框架无法准确监控与判断流处理应用的真实负载情况,这就间接导致其无法正确的管理资源。为了解决这一问题,必然需要根据应用在减载下的负载预测真实的负载。基于真实的负载,才能确保资源调度管理框架监测到真实负载情况并正确而合理的管理资源。如图1所示,为一个词频统计的流数据处理应用。其中每个处理单元之前存在一个减载队列,在减载队列中对负载数据进行丢弃等操作。从数据源流出数据10个句子,经减载率为20%的减载后得到8个句子,进入第一个处理单元—切分句子,处理完成后得到40个单词,经第二次10%减载得到36个单词,进入第二个处理单元,统计每个单词的出现频率并将结果存储。流处理应用必须进保证每一个处理单元都能够正常运转,即必须保证每一个处理单元能得到最小的计算资源。减载情况下对真实负载进行还原的难点在于,流处理应用的每一个操作之前都有可能会进行减载,这就导致了下游处理单元的负载情况必然受到上游处理单元的影响。因此预测每一个处理单元的负载情况时必须要考虑到上游处理单元的减载情况,这种级联的预测是相当复杂的。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术分析减载下无法监测应用真实负载从而合理分配应用正常运行所需的最小资源的问题,提供了一种减载状态下真实负载预测和最小资源需求预测的方法。本专利技术的目的在于通过对减载下负载的监测与建模分析,得到真实的负载情况,基于真实的负载辅助资源调度管理框架预测应用所需的最小资源。具体的技术方案如下:本专利技术提供了一种分布式流数据处理方法,包括:步骤一,定义流数据应用处理模型;步骤二,基于减载下的流式数据处理模型确定相关分析参数;步骤三,测量流处理应用相关参数的数值;步骤四,基于测量到的负载参数的数值计算输入输出选择率函数;步骤五,通过所述测量到的参数的数值和所述计算得到的输入输出选择率函数还原应用真实负载;步骤六,基于所述真实负载预测流处理应用所需最小资源。具体的,所述相关分析参数为以下参数的一种或几种:对流处理应用中的每一个数据源都需要测量在数据源发送数据时统计测量并存储初始负载λ(source,m)、i处理单元第t秒内的平均输入到达率在i处理单元接收数据是测量并存储流入数据流平均到达率λ(i,in)、在i处理单元发送数据时测量并存储流出数据流平均到达率λ(i,out)、在j处理单元发送数据时,测量i处理单元的j前驱处理单元发送到i的数据占j总发出数据的比例pji、实时统计测量并存储i处理单元平均处理率μi、在i处理单元测量其减载率si、统计测量并存储i处理单元的所有祖先处理单元集合Ancestor(i);统计数据源个数n,处理单元个数N。具体的,基于测量到的减载情况下的流式数据处理应用瞬时输入负载数据和输入负载数据使用多项式拟合方法计算出客观不变的输入输出选择率fi。具体的,基于流式数据处理应用处理单元的拓扑排序,根据客观不变的每个处理单元的输入输出选择率函数fi,i处理单元的j前驱处理单元发送到i的数据占j总发出数据的比例pji以及应用初始负载λ(source,m),逐个计算出处理单元的真实负载情况具体计算公式如下:不管是否存在减载机制,应用的输入数据流应该是不变的,即:溯源至流式数据处理应用数据源,必然存在1个或多个处理单元g和数据源h有:故可由应用初始负载,客观不变的每个处理单元的输入输出选择率函数fi以及流式数据处理应用处理单元的拓扑排序计算出每个处理单元的真实负载情况。具体的,真实负载情况和平均处理率μi,计算得到最小资源需求κi,其计算公式为:具体的,所述步骤三具体为:步骤31,统计得到应用具体的处理单元个数N,数据源总数n;步骤32,测量与计算每一个处理单元的流入数据流平均到达率λ(i,in)及流出数据流平均到达率λ(i,out)。以及整个流处理应用的外部输入数据流平均到达率λ(source,m);步骤33,测量得到每一个处理单元平均的处理率μi;步骤34,假设在无减载情况下每一个处理单元的输入数据流平均到达率,即真实负载为每一个处理单元的输入数据流平均到达率整个应用的输入数据流具体的,所述步骤四具体为:步骤41,fi是以λ(i,in)为自变量,λ(i,out)为因变量的函数,有:fi(λ(i,in))=λ(i,out)i∈[0,N-1]步骤42,根据实时监测到的每个处理单元的负载数据和输出数据,拟合得到近似的fi函数;步骤43在流处理应用运行过程,周期性的根据实时负载情况不断训练,更新fi函数。具体的,所述步骤五具体为:步骤51,实时获取整个应用的输入数据流λ(source,m),可知不管是否存在减载机制,应用的输入数据流应该是不变的,即:步骤52,在不存在减载情况的流处理应用中,有下一处理单元i的输入数据流为上一处理单元j的输出数据流的一部分,比例为:pji,即:再有:步骤53,不管是否存在减载机制,fi,pji不变;由i处理单元的全部祖先处理单元Ancestor(i)的输入输出选择率函数,以及i处理单元所处理数据的数据源输入数据流平均到达率λ(source,m),推导出i处理单元的真实负载。具体的,所述步骤六具体为:如果需要保证某一处理单元的正常工作,其真实负载和平均的处理率μi以及所需的资源量κi需满足以下条件:可以得到最小资源需求:本专利技术在减载下状态下的分布式流数据处理应用上实时监测负载情况,并计算预测真实负载,实时的汇报正确数据给资源调度管理框架。资源调度管理框架,通过真实的负载情况与现有资源进行比较,动态的合理分配资源,减少资源浪费,维护应用正常运行。本专利技术具有如下的优点和技术效果:轻量级的方法,在减载被触发得情况下对应用负载进行线性的统计计算,对于整个系统的负载情况影响小。在减载未触发的情况下,对处理单元输入输出选择率进行拟合学习,由于学习数据量小,基本不会给系统带来额外的负载。预测准确,随着应用的运行,动态的实时的预测处理单元输入输出选择率,保证了输入输出选择率预测的时效性,从而保证了资源调度管理框架的稳定运行和正确判断。有利于维持分布式流处理系统的资源调度管理框架的稳定运行和正确资源分配,在过载情况下,保证资源调度管理框架能够得到真实负载数值,快速响应,弹性调度资源,确保应用输出的准确性。有利于大数本文档来自技高网
...
一种分布式流数据处理方法

【技术保护点】
一种分布式流数据处理方法,其特征在于,包括:步骤一,定义流数据应用处理模型;步骤二,基于减载下的流式数据处理模型确定相关分析参数;步骤三,测量流处理应用相关参数的数值;步骤四,基于测量到的负载参数的数值计算输入输出选择率函数;步骤五,通过所述测量到的参数的数值和所述计算得到的输入输出选择率函数还原应用真实负载;步骤六,基于所述真实负载预测流处理应用所需最小资源。

【技术特征摘要】
1.一种分布式流数据处理方法,其特征在于,包括:步骤一,定义流数据应用处理模型;步骤二,基于减载下的流式数据处理模型确定相关分析参数;步骤三,测量流处理应用相关参数的数值;步骤四,基于测量到的负载参数的数值计算输入输出选择率函数;步骤五,通过所述测量到的参数的数值和所述计算得到的输入输出选择率函数还原应用真实负载;步骤六,基于所述真实负载预测流处理应用所需最小资源。2.根据权利要求1所述的一种分布式流数据处理方法,其特征在于,所述相关分析参数为以下参数的一种或几种:对流处理应用中的每一个数据源都需要测量在数据源发送数据时统计测量并存储初始负载λ(source,m)、i处理单元第t秒内的平均输入到达率i处理单元第t秒内的平均输出到达率在i处理单元接收数据是测量并存储流入数据流平均到达率λ(i,in)、在i处理单元发送数据时测量并存储流出数据流平均到达率λ(i,out)、在j处理单元发送数据时,测量i处理单元的j前驱处理单元发送到i的数据占j总发出数据的比例pji、实时统计测量并存储i处理单元平均处理率μi、在i处理单元测量其减载率si、统计测量并存储i处理单元的所有祖先处理单元集合Ancestor(i);统计数据源个数n,处理单元个数N。3.根据权利要求1所述的一种分布式流数据处理方法,其特征在于,基于测量到的减载情况下的流式数据处理应用瞬时输入负载数据和输入负载数据使用多项式拟合方法计算出客观不变的输入输出选择率fi。4.根据权利要求2所述的一种分布式流数据处理方法,其特征在于,基于流式数据处理应用处理单元的拓扑排序,根据客观不变的每个处理单元的输入输出选择率函数fi,i处理单元的j前驱处理单元发送到i的数据占j总发出数据的比例pji以及应用初始负载λ(source,m),逐个计算出处理单元的真实负载情况具体计算公式如下:溯源至流式数据处理应用数据源,必然存在1个或多个数据单元g和数据源h有:5.根据权利要求1所述的一种分布式流数据处理方法,其特征在于,真实负载情况和平均处理率μi,计算得到最小资源需求κi,其计算公式为:

【专利技术属性】
技术研发人员:郝志峰唐凯麟蔡瑞初张振杰傅正佳温雯王丽娟陈炳丰
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1