【技术实现步骤摘要】
一种面向实时流数据预测性分析的降载方法及系统
[0001]本专利技术涉及计算机应用
,尤其涉及一种面向实时流数据预测性分析的降载方法及系统。
技术介绍
[0002]随着计算机技术、数据采集技术的广泛应用,数据已不仅仅局限于文件、数据库等传统的静态形式,一种顺序、大量、快速、连续到达的流式数据应运而生。一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合,这个数据集合中的数据只能按下标的递增顺序读取一次。数据流是现象驱动的,数据到达速度与数据项到达的次序无法被控制,常应用于网络监控、传感器网络、工业监控、气象测控、金融证券服务、医药和科研等领域。
[0003]流数据挖掘作为传统数据挖掘的延伸,已成为当前研究的热点问题,在众多领域有着广泛的应用,具有非常重要的现实意义。数据流具有无限快速性、不确定性、时变性、单遍扫描性、结果近似性等特点,这些特点使得数据流无法使用传统的静态数据挖掘方法进行数据挖掘。
[0004]时序数据是数据流的一种,人们在众多领域使用数据科学和机器学习技术来分析时序数据以进行可视化、决策和预测,流数据挖掘具有对数据单次扫描、数据量大和速度快等特点,并且流数据挖掘是CPU密集型任务,容易出现过载、高延迟等问题。
[0005]降载技术可以很好的解决过载和高延迟问题,降载(Load Shedding)是指当输入数据流超出流处理引擎(Stream
‑
processing engines,SPEs)的处理能力时移除多余负载的过程,流处理引擎是一类支持数 ...
【技术保护点】
【技术特征摘要】
1.一种面向实时流数据预测性分析的降载方法,其特征在于:所述方法包括以下步骤:对数据集进行预处理;对预处理后的数据集通过ReliefF方法进行特征选择,选择出用于预测的代表性特征;通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征,构建基于随机森林回归算法的任务执行时间预测模型,以预测任务执行时间。2.根据权利要求1所述的面向实时流数据预测性分析的降载方法,其特征在于:数据集包括任务参数和一系列时间序列数据,一系列时间序列数据为任务执行过程中所收集的任务与资源状态数据;通过以下方式对数据集进行处理:将数据集按照任务执行时间进行不同层次的划分,并对数据集加上相应的类标;划分方法包括按照特定步长离散化划分和将时间按照特定底数为2的幂指数划分。3.根据权利要求2所述的面向实时流数据预测性分析的降载方法,其特征在于:使用ReliefF特征选择算法计算不同数据集特征的权值,通过考察特征在同类近邻样本与异类近邻样本之间的差异,度量特征的区分能力,若特征在同类样本之间差异小,而在异类样本之间差异大,则该变量具有较强的区分能力。4.根据权利要求3所述的面向实时流数据预测性分析的降载方法,其特征在于:ReliefF算法过程为:设X={x1,x2,...,x
N
}是样本全集,样本x
i
={x
i1
,x
i2
,...,x
iM
},其中x
ij
=(j=1,2,...,M)表示第i个样本的第j个特征值,w={w1,w2,...,w
M
}表示M个特征的权值向量;算法执行m次迭代,每次迭代随机抽取一个样本x
i
,找出r个与x
i
同类的最近邻样本h
j
(j=1,2,...,r),在每个与x
i
不同类的样本集中找出r个与x
i
最近邻的样本k
lj
(j=1,2,...,r,l≠class(x
i
)),class(x
i
)表示的x
i
类别,对权值向量进行更新,计算公式为:若特征F
i
为标量型特征,则:若特征F
i
为数值型特征,则:式中,F
i
为第i个特征,value(F
i
,x
i
)为x
i
的第i...
【专利技术属性】
技术研发人员:李晖,闵圣天,丁玺润,
申请(专利权)人:贵州优联博睿科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。