一种面向实时流数据预测性分析的降载方法及系统技术方案

技术编号:30428356 阅读:65 留言:0更新日期:2021-10-24 17:16
本发明专利技术涉及一种面向实时流数据预测性分析的降载方法,所述方法包括:对数据集进行预处理;对预处理后的数据集通过Re l i efF方法进行特征选择,选择出用于预测的代表性特征;通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征。本发明专利技术可以降低处理数据的维度,减少分类的计算量、缩短处理时间,提高分类结果的准确率;并且能够减小预测任务执行时间的误差,提高处理时间序列数据的效率,从而更好的为任务调度、负载均衡等提供支撑。载均衡等提供支撑。载均衡等提供支撑。

【技术实现步骤摘要】
一种面向实时流数据预测性分析的降载方法及系统


[0001]本专利技术涉及计算机应用
,尤其涉及一种面向实时流数据预测性分析的降载方法及系统。

技术介绍

[0002]随着计算机技术、数据采集技术的广泛应用,数据已不仅仅局限于文件、数据库等传统的静态形式,一种顺序、大量、快速、连续到达的流式数据应运而生。一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合,这个数据集合中的数据只能按下标的递增顺序读取一次。数据流是现象驱动的,数据到达速度与数据项到达的次序无法被控制,常应用于网络监控、传感器网络、工业监控、气象测控、金融证券服务、医药和科研等领域。
[0003]流数据挖掘作为传统数据挖掘的延伸,已成为当前研究的热点问题,在众多领域有着广泛的应用,具有非常重要的现实意义。数据流具有无限快速性、不确定性、时变性、单遍扫描性、结果近似性等特点,这些特点使得数据流无法使用传统的静态数据挖掘方法进行数据挖掘。
[0004]时序数据是数据流的一种,人们在众多领域使用数据科学和机器学习技术来分析时序数据以进行可视化、决策和预测,流数据挖掘具有对数据单次扫描、数据量大和速度快等特点,并且流数据挖掘是CPU密集型任务,容易出现过载、高延迟等问题。
[0005]降载技术可以很好的解决过载和高延迟问题,降载(Load Shedding)是指当输入数据流超出流处理引擎(Stream

processing engines,SPEs)的处理能力时移除多余负载的过程,流处理引擎是一类支持数据流处理的应用程序。
[0006]但在现有技术中,无法准确的预测时间,处理时间序列数据的效率不高且处理时间过长,无法达到精确地预测任务执行时间的目的。

技术实现思路

[0007]为了现有技术存在的上述技术缺陷,本专利技术提供了一种面向实时流数据预测性分析的降载方法及系统,可以有效解决
技术介绍
中的问题。
[0008]为了解决上述技术问题,本专利技术提供的技术方案具体如下:
[0009]本专利技术实施例公开了一种面向实时流数据预测性分析的降载方法,所述方法包括:对数据集进行预处理;对预处理后的数据集通过ReliefF进行特征选择,选择出用于预测的代表性特征;通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征,构建基于随机森林回归算法的任务执行时间预测模型,以预测任务执行时间,从而更好的为任务调度、负载均衡等提供支撑。
[0010]在上述任一方案中优选的是,数据集包括任务参数和一系列时间序列数据,一系
列时间序列数据为任务执行过程中所收集的任务与资源状态数据;通过以下方式对数据集进行处理:将数据集按照任务执行时间进行不同层次的划分,并对数据集加上相应的类标;划分方法包括按照特定步长离散化划分和将时间按照特定底数为2的幂指数划分。
[0011]在上述任一方案中优选的是,使用ReliefF特征选择算法计算不同数据集特征的权值,通过考察特征在同类近邻样本与异类近邻样本之间的差异,度量特征的区分能力,若特征在同类样本之间差异小,而在异类样本之间差异大,则该变量具有较强的区分能力。
[0012]在上述任一方案中优选的是,ReliefF算法过程为:设X={x1,x2,...,x
N
}是样本全集,样本x
i
={x
i1
,x
i2
,...,x
iM
},其中x
ij
=(j=1,2,...,M)表示第i个样本的第j个特征值,w={w1,w2,...,w
M
}表示M个特征的权值向量;算法执行m次迭代,每次迭代随机抽取一个样本x
i
,找出r个与x
i
同类的最近邻样本h
j
(j=1,2,...,r),在每个与x
i
不同类的样本集中找出r个与x
i
最近邻的样本k
lj
(j=1,2,...,r,l≠class(x
i
)),class(x
i
)表示的x
i
类别,对权值向量进行更新,计算公式为:
[0013][0014]若特征F
i
为标量型特征,则:
[0015][0016]若特征F
i
为数值型特征,则:
[0017][0018]式中,F
i
为第i个特征,value(F
i
,x
i
)为x
i
的第i个特征的值,max(F
i
)为所有样本中第i个特征的最大值,min(F
i
)为所有样本中第i个特征的最小值;P(l)为第l类出现的概率。
[0019]在上述任一方案中优选的是,在任务执行过程中结合状态数据和任务参数对任务执行时间进行预测,通过使用动态时间规整距离来测量子序列和完整序列之间的相似度,通过使用窗口划分策略来捕捉相似度距离变化的特点,并确定预测所使用的数据以及预测的入口点。
[0020]在上述任一方案中优选的是,将整个序列记为X(X=<x1,x2,...,x
i
>),引入参数α(α∈(0,1))来衡量预测的位置,参数α将整个序列X等分为i个子序列,使用DTW距离测量子序列和整个序列的相似度,设时间序列X,Y的DTW距离为D(X,Y),
[0021]其中,D
base
(x
i
,y
j
)表示向量点x
i
和y1之间的基距离,记D0(x1,y1)为D0;计算等分序列窗口与整个序列的相似度距离,并统计频繁模式的数量。
[0022]在上述任一方案中优选的是,设时间序列其规模为J(J=log2m),在特定尺度j
(j∈[0,1,...,J

1])内分解后,小波系数为其中是在空间尺度V
j
上的投影;为在W
j
,......,W
J
‑1的细节信息。
[0023]在上述任一方案中优选的是,给定时间序列在上述任一方案中优选的是,给定时间序列的能量为:
[0024]在上述任一方案中优选的是,计算所有时间序列的小波系数,对长度不足2
j
的原始序列填充零,通过以下方式对原时间序列做变换处理:分析数据集在不同尺度下低频小波系数的能量损失情况来确定变换尺度,选择在第1尺度下小波变换的低频小波系数代替原序列;对原序列作转换处理,去除序列中干扰因素。
[0025]一种面向实时流数据预测性分析的降载系统,所述系统包括:处理模块,用于对数据集进行预处理;分析模块,用于对预处理后的数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向实时流数据预测性分析的降载方法,其特征在于:所述方法包括以下步骤:对数据集进行预处理;对预处理后的数据集通过ReliefF方法进行特征选择,选择出用于预测的代表性特征;通过DTW距离来度量时间序列的子序列与整个序列的相似度的变化,并使用局部平均和窗口技术对相似性距离进行处理,从而确定用于预测的数据和时间点;使用Haar小波提取时间序列在不同尺度下的小波系数,并计算其能量作为特征,构建基于随机森林回归算法的任务执行时间预测模型,以预测任务执行时间。2.根据权利要求1所述的面向实时流数据预测性分析的降载方法,其特征在于:数据集包括任务参数和一系列时间序列数据,一系列时间序列数据为任务执行过程中所收集的任务与资源状态数据;通过以下方式对数据集进行处理:将数据集按照任务执行时间进行不同层次的划分,并对数据集加上相应的类标;划分方法包括按照特定步长离散化划分和将时间按照特定底数为2的幂指数划分。3.根据权利要求2所述的面向实时流数据预测性分析的降载方法,其特征在于:使用ReliefF特征选择算法计算不同数据集特征的权值,通过考察特征在同类近邻样本与异类近邻样本之间的差异,度量特征的区分能力,若特征在同类样本之间差异小,而在异类样本之间差异大,则该变量具有较强的区分能力。4.根据权利要求3所述的面向实时流数据预测性分析的降载方法,其特征在于:ReliefF算法过程为:设X={x1,x2,...,x
N
}是样本全集,样本x
i
={x
i1
,x
i2
,...,x
iM
},其中x
ij
=(j=1,2,...,M)表示第i个样本的第j个特征值,w={w1,w2,...,w
M
}表示M个特征的权值向量;算法执行m次迭代,每次迭代随机抽取一个样本x
i
,找出r个与x
i
同类的最近邻样本h
j
(j=1,2,...,r),在每个与x
i
不同类的样本集中找出r个与x
i
最近邻的样本k
lj
(j=1,2,...,r,l≠class(x
i
)),class(x
i
)表示的x
i
类别,对权值向量进行更新,计算公式为:若特征F
i
为标量型特征,则:若特征F
i
为数值型特征,则:式中,F
i
为第i个特征,value(F
i
,x
i
)为x
i
的第i...

【专利技术属性】
技术研发人员:李晖闵圣天丁玺润
申请(专利权)人:贵州优联博睿科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1