一种流量分析中的数据降维与特征分析方法技术

技术编号:22330818 阅读:67 留言:0更新日期:2019-10-19 12:24
本发明专利技术涉及计算机通信领域的一种流量分析中的数据降维与特征分析方法,步骤包括:1,对流量序列数据进行内涵模态分解,得到内涵模态函数序列;2,根据流量影响因素变量和所述内涵模态函数,建立样本矩阵;3,对样本矩阵进行主成分分析,得到每个样本矩阵的主成分变量序列,主成分变量序列体现了流量变化的影响因素以及流量的特征。研究结果表明,与通常的数据降维和特征分析方法相比,本发明专利技术提出的方法可以较为准确的分析出流量变化的影响因素和流量特征。

【技术实现步骤摘要】
一种流量分析中的数据降维与特征分析方法
本专利技术涉及计算机通信领域,特别涉及一种流量分析中的数据降维与特征分析方法。
技术介绍
随着计算机网络、无线通信网络技术的快速发展和不断升级换代,网络流量的强度、种类不断增加,数据规模和维度日益复杂,形成海量流量负荷。针对这些流量负荷数据,我们希望找到影响流量变化的影响因素,例如由于交换机中接入用户数变化,用户的使用带宽发生变化,或者交换机流量调度的行为,或是某个设备故障、或是用户习惯的变化,或者是服务中心的某个命令或者某个新闻事件,这些对流量影响因素的分析可以指导数据中心或交换机的资源调度的设计策略,实现更好的服务质量。由于影响流量负荷的因子较多,导致输入空间维数过高,同时影响因素之间本身也存在相关性,也会影响流量负荷分析的计算效率和分析精度。为了提高分析的准确度,需要消除多因素之间的相关性并剔除冗余。数据降维和特征分析通过剔除冗余,提取数据的主要特征信息,尽量用最少的信息反映原始数据的主要信息,从而提高数据挖掘效率。一般地,数据特征越多,数据包含的信息越多越丰富,然而在某些情况下,这些特征之间可能存在潜在的冗余,因此进行数据降维和特征表示具有重要意义。目前数据约简和降维的方法有很多,比如主成分分析(PrincipleComponentsAnalysis,PCA)、离散小波变换(DiscreteWaveletTransform,DWT)、奇异值分解(SingularValueDecomposition,SVD)、流形学习(ManifoldLearning,ML)等。这些传统的方法,在一些变化相对较慢、突发影响因素不多的时间序列数据中,均有较为成功的应用。然后对于信息流,特别是计算机网络的数据流量来说,流量强度变化迅速,流量变化模式非常多样且不同变化模式混杂在一起,流量中既有比较平稳变化的模式,也有趋势性变化模式以及周期性变化模式,同时突发性也很强,某些突发流量甚至占到流量数据的主要成分,而流量影响因素通常只影响少量几个方面的流量模式,当这些流量模式特征混杂在一起时,传统的数据降维分析方法的分析效果大打折扣。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种流量分析中的数据降维与特征分析方法。为了实现上述专利技术目的,本专利技术提供了以下技术方案:一种流量分析中的数据降维与特征分析方法,步骤包括:S1,对流量序列数据进行内涵模态分解,得到内涵模态函数序列;S2,根据流量影响因素变量和内涵模态函数,建立样本矩阵;S3,对样本矩阵进行主成分分析,得到每个样本矩阵的主成分变量序列,主成分变量序列体现了流量变化的影响因素以及流量的特征。步骤S1具体包括:S11、识别出流量序列数据的所有极值点;S12、拟合出流量序列数据的上、下包络线esup(t)和elow(t),并计算出上下包络线平均值m(t);S13、将流量序列数据x(t)减去上下包络线平均值m(t),得到c(t);S14、判断c(t)是否满足预设的两个条件,如果满足,则将c(t)作为第一阶内涵模态函数IMF1(t),执行步骤S15,否则,将c(t)看成新的流量序列数据,返回步骤S11,直到满足预设的两个条件,输出一阶内涵模态函数IMF1(t);S15、将流量序列数据x(t)减去IMF1(t),得到新的原始信号r(t),返回步骤S11;S16、当满足多次迭代的停止条件时,得到各阶内涵模态函数,多次迭代的停止条件为,cn(t)与cn-1(t)满足公式:其中,ε为最小参考值,n为迭代次数,cn(t)为第n次迭代得到的流量序列数据与包络线均值之差,cn-1(t)为第n-1次迭代得到的流量序列数据与包络线均值之差。预设的两个条件为:(1)在整个数据段内,极值点的个数和过零点的个数相等,或者极值点的个数与过零点的个数之差不超过一个;(2)在任意时刻,c(t)中由局部极大值点形成的上包络线和由局部极小值点形成的下包络线的平均值为零。S2的具体步骤为:取1~n阶内涵模态函数序列的数据进行采样,并将采样数据与流量影响因素数据一起组合成相应的各阶内涵模态序列的样本矩阵。主成分分析是针对流量序列数据的每个内涵模态函数采样值与影响因素变量采样值组成的样本矩阵进行的,步骤包括:S21、将样本矩阵标准化,得到标准化样本矩阵;S22、根据标准化的样本矩阵,建立协方差矩阵R,并计算特征值λ和特征向量L;S23、根据特征值λ,计算各主成分的贡献率和累计贡献率,并建立特征值λ、特征向量L和贡献率之间的一一对应关系;S24、根据标准化样本矩阵和各主成分的贡献率对应的特征向量,确定每个内涵模态函数对应的主成分序列向量。将样本矩阵标准化采用的公式为:其中,X'ij为标准化之后的第i个样本的第j个特征的数据,为第j个特征的算术平均值,为第j个特征的标准差,Xij为不同模态函数序列与影响因素变量组成的样本矩阵数据,m为影响因素变量的个数。协方差矩阵R的计算公式为:协方差矩阵R、特征值λ和特征向量L的关系为:RL=λL,其中,X是不同模态函数序列与影响因素变量组成的样本矩阵,m为影响因素变量的个数。主成分贡献率的计算公式为:其中,λi(i=1,2,…,p)为协方差矩阵R的特征值的具体取值。主成分序列向量计算公式为:Zl=Xs·Ll其中,Xs是标准化后的样本矩阵,Ll是对应于第l个贡献率的特征值λl的特征向量。一种采用流量分析中的数据降维与特征分析方法的系统,包括至少一个处理器,以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述任一方法。与现有技术相比,本专利技术的有益效果:本专利技术提出了一种针对复杂的网络流量模式进行数据降维和特征分析的流量分析方法。首先对流量数据进行变化模态的分解,分离出具有不同变化形式的流量模态序列,然后利用主成分分析方法分析出流量特征和主变化因素。研究结果表明,与通常的数据降维和特征分析方法相比,本专利技术提出的方法可以较为准确的分析出流量变化的影响因素和流量特征。附图说明图1为一种流量分析中的数据降维与特征分析方法的流程图。具体实施方式下面结合试验例及具体实施方式对本专利技术作进一步的详细描述。但不应将此理解为本专利技术上述主题的范围仅限于以下的实施例,凡基于本
技术实现思路
所实现的技术均属于本专利技术的范围。实施例1一种流量分析中的数据降维与特征分析方法的流程图如图1所示。首先对负荷流量数据进行内涵模态分解,然后对各模态数据按与流量影响因素相同的时间间隔进行采样,得到各流量模态的数据序列,在此基础上,建立流量和流量影响因素数据的样本矩阵,对反映不同模式的样本矩阵进行主成分分析,从而得到不同模式的主变化模式。具体步骤如下:步骤1:将流量序列x(t)作为初始的原始信号,进行内涵模态分解。首先识别出原始信号的所有极值点,分别拟合出信号的上、下包络线esup(t),elow(t),计算上下包络线平均值:m(t)=[esup(t)+elow(t)]/2(1)步骤2:将原始信号x(t)减去m(t)得到:c(t)=x(t)-m(t)。判断c(t)是否满足下面两个条件:1)在整个数据段内,极值点的个数和过零点的个数相等或相差最多不超过一个。2)在任意时刻,c(t)中由局部极本文档来自技高网
...

【技术保护点】
1.一种流量分析中的数据降维与特征分析方法,其特征在于,步骤包括:S1,对流量序列数据进行内涵模态分解,得到内涵模态函数序列;S2,根据流量影响因素变量和所述内涵模态函数,建立样本矩阵;S3,对所述样本矩阵进行主成分分析,得到每个所述样本矩阵的主成分变量序列,所述主成分变量序列体现了流量变化的影响因素以及流量的特征。

【技术特征摘要】
2019.07.12 CN 20191063201671.一种流量分析中的数据降维与特征分析方法,其特征在于,步骤包括:S1,对流量序列数据进行内涵模态分解,得到内涵模态函数序列;S2,根据流量影响因素变量和所述内涵模态函数,建立样本矩阵;S3,对所述样本矩阵进行主成分分析,得到每个所述样本矩阵的主成分变量序列,所述主成分变量序列体现了流量变化的影响因素以及流量的特征。2.如权利要求1所述的一种流量分析中的数据降维与特征分析方法,其特征在于,步骤S1具体包括:S11、识别出所述流量序列数据的所有极值点;S12、拟合出所述流量序列数据的上、下包络线esup(t)和elow(t),并计算出上下包络线平均值m(t);S13、将流量序列数据x(t)减去上下包络线平均值m(t),得到c(t);S14、判断c(t)是否满足预设的两个条件,如果满足,则将c(t)作为第一阶内涵模态函数IMF1(t),执行步骤S15,否则,将c(t)看成新的流量序列数据,返回步骤S11,直到满足所述预设的两个条件,输出一阶内涵模态函数IMF1(t);S15、将所述流量序列数据x(t)减去IMF1(t),得到新的原始信号r(t),返回步骤S11;S16、当满足多次迭代的停止条件时,得到各阶内涵模态函数,所述多次迭代的停止条件为,cn(t)与cn-1(t)满足公式:其中,ε为最小参考值,n为迭代次数,cn(t)为第n次迭代得到的流量序列数据与包络线均值之差,cn-1(t)为第n-1次迭代得到的流量序列数据与包络线均值之差。3.如权利要求2所述的一种流量分析中的数据降维与特征分析方法,其特征在于,所述预设的两个条件为:(1)在整个数据段内,极值点的个数和过零点的个数相等,或者极值点的个数与过零点的个数之差不超过一个;(2)在任意时刻,c(t)中由局部极大值点形成的上包络线和由局部极小值点形成的下包络线的平均值为零。4.如权利要求3所述的一种流量分析中的数据降维与特征分析方法,其特征在于,S2的具体步骤为:取1~n阶所述内涵模态函数序列的数据进行采样,并...

【专利技术属性】
技术研发人员:龚艳徐佳甘炜李嘉周潘可佳刘萧黄林
申请(专利权)人:国网四川省电力公司信息通信公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1