当前位置: 首页 > 专利查询>东北大学专利>正文

基于特征提取的高维时间序列数据的分析预测方法技术

技术编号:18668699 阅读:21 留言:0更新日期:2018-08-14 20:45
本发明专利技术提供一种基于特征提取的高维时间序列数据的分析预测方法,涉及数据分析技术领域。该方法首先度量高维时间序列数据的条件属性间和条件属性与决策属性间的相关性,并将与决策属性有相关性的条件属性加入属性核集中;再对高维时间序列数据进行特征提取;然后建立多元线性回归模型,再通过基于健康度的粒子群优化算法对模型中的回归系数进行优化;最后根据所构建的多元线性回归模型,得到某一时刻决策属性的值。本发明专利技术提供的基于特征提取的高维时间序列数据的分析预测方法,解决了高维时间序列数据在分析预测过程中所存在的预测效率低、误差大以及容易出现局部最优解的问题,有效提高了多元线性回归分析算法对高维时间序列数据的预测效果。

Analysis and prediction method of high dimensional time series data based on feature extraction

The invention provides an analysis and prediction method for high-dimensional time series data based on feature extraction, which relates to the technical field of data analysis. This method firstly measures the relativity between conditional attributes and decision attributes of high-dimensional time series data, and adds conditional attributes related to decision attributes to the attribute kernel set; then extracts features from high-dimensional time series data; and then establishes multiple linear regression model, and then based on health degree. Particle swarm optimization algorithm optimizes the regression coefficients in the model. Finally, according to the multiple linear regression model, the value of decision attributes at a certain time is obtained. The method for analyzing and predicting high-dimensional time series data based on feature extraction solves the problems of low prediction efficiency, large errors and local optimum easily occurring in the process of analyzing and predicting high-dimensional time series data, and effectively improves the number of high-dimensional time series by multivariate linear regression analysis algorithm. According to the prediction effect.

【技术实现步骤摘要】
基于特征提取的高维时间序列数据的分析预测方法
本专利技术涉及数据分析
,尤其涉及一种基于特征提取的高维时间序列数据的分析预测方法。
技术介绍
随着近代科技的发展和互联网技术的普及,用户所产生的数据总量成指数型增长,在大量的数据中,高维时间序列数据是一种非常常见的时态数据,它被广泛的应用于工业、农业、医疗、金融、交通等行业。高维时间序列数据是指在不同的时间点上所收集到的数据,这类的数据可以反映出某一类的现象或事物随时间变化而表现出的状态和趋势。对于高维时间序列数据的高维性首先表现在收集数据的时间点上,通常一个时间点表示为一个维度,因此高维时间序列数据的一个主要特点为数据量大。其次,对于实际生产活动中的高维时间序列数据多为传感器收集,对于不同种类的传感器所收集的数据为不同属性的数据,因此,对于高维时间序列数据的另一个特点为属性数量多。常见的高维时间序列数据主要应用于异常检测、股票交易、销售系统、气象监测以及量子物理研究等等。对于高维时间序列的预测是指通过当前记录收集的数据来获取到未来一段时间中未发生的数据。它主要可以通过对于条件属性的特征提取后,对决策属性进行预测,也可以通过决策属性的历史数据进行预测。高维时间序列数据的预测已经广泛的应用于经济、医学、气象学等各个领域中,因此,如何提高对于高维时间序列数据预测的准确度,以及降低预测的成本,是目前对高维时间序列数据研究的一大热点。
技术实现思路
针对现有技术的缺陷,本专利技术提供一种基于特征提取的高维时间序列数据的分析预测方法,实现对高维时间序列数据进行分析预测。基于特征提取的高维时间序列数据的分析预测方法,包括以下步骤:步骤1、基于维度关联性分析对高维时间序列数据进行特征提取,具体方法为:步骤1.1、通过使用联合熵的概念来度量高维时间序列数据中条件属性之间的相关性进行度量,并且根据专家学者的经验知识对判断结果进行交互式分析,对具有相关性较大的条件属性进行处理,最后,通过条件属性与决策属性间相关性度量评价条件属性与决策属性之间的相关性并将与决策属性具有相关性的条件属性加入属性核集Core中;所述条件属性间的相关性度量使用如下所示公式进行判断:其中,c1和c2分别为高维时间序列数据的两个条件属性,p(c1,c2)为两个条件属性c1和c2间的概率分布,H(c1,c2)为两个条件属性c1和c2间的相关性度量;所述条件属性与决策属性间的相关性度量使用如下所示公式进行判断:其中,c为条件属性,d为决策属性,p(c,d)为条件属性c和决策属性d的联合概率分布,p(c)和p(d)分别为条件属性c和决策属性d边缘分布,I(c;d)为条件属性c和决策属性d间的相关性度量;对于条件属性与决策属性间相关性度量,若I(C-{ci};D)<I(C;D),其中C={c1,c2,…cn}为含有n个条件属性的条件属性集,ci∈C为条件属性集C中的第i个条件属性,i=1、2…、n,D为决策属性集,说明此条件属性对于决策属性具有相关性,则将条件属性ci加入到集中,结果为Core=Core+{ci},否则对下一个条件属性进行判断直至最后一个条件属性;步骤1.2、基于Granger因果分析对高维时间序列数据进行特征提取,具体方法为:步骤1.2.1:对高维时间序列数据进行预处理;首先利用单位根检验法对高维时间序列数据的平稳性进行检验,对于不平稳的高维时间序列数据,通过差分转换方法进行转换使其平稳;然后,使用周期图法和Fisher精确检验法进行周期性检验,最后,通过贝叶斯信息准则(BayesianInformationCriterion,BIC)对高维时间序列数据进行最优滞后期计算;步骤1.2.2:构建决策属性的自回归模型;高维时间序列数据决策属性y的自回归模型如下式所示:y(t)=a0+a1yt-1+a2yt-2+…+alyt-l其中,y(t)为某一时刻t时决策属性y的属性值,l为决策属性y中滞后期的最大值,a0为常数项,a1,a2,…,al为回归系数;步骤1.2.3:构建加入条件属性后的决策属性的增广型自回归模型;对于加入条件属性x后的决策属性y的增广型自回归模型如下式所示:y(t)=a0+a1yt-1+…+alyt-l+b1xt-1+…+bwxt-w其中,w为条件属性x中滞后期的最大值,b1,b2,…,bw为回归系数;步骤1.2.4:对条件属性与决策属性进行Granger因果关系检验,具体方法为:首先判断此条件属性是否为决策属性的Granger因果关系,如果此条件属性不是此决策属性的Granger因果关系,则执行步骤1.2.6,如果此条件属性是此决策属性的Granger因果关系,则将条件属性与决策属性进行交换,再根据上述步骤1.2.2与步骤1.2.3进行Granger因果关系进行判断,只有条件属性是决策属性的Granger因果关系,而决策属性不是条件属性的Granger因果关系时,执行步骤1.2.5;若此判断的条件属性为最后一个条件属性,则完成高维时间序列数据的特征提取,执行步骤2;步骤1.2.5:对于与决策属性具有因果性的条件属性加入属性核集;步骤1.2.6:对下一条件属性进行因果性判断;步骤2、在基于维度关联性分析的高维时间序列数据特征提取方法基础上,建立多元线性回归模型对高维时间序列数据进行预测,具体方法为:步骤2.1:根据决策属性时间自相关以及条件属性的相关性,建立如下公式所示的多元线性回归模型:其中,yt为决策属性y在t时刻的决策属性值,l为决策属性的y的滞后期最大值,m为步骤1所得到的属性核集的大小,xu,t为属性核集中的条件属性u在时刻t的取值,{a0}+{as|1≤s≤l}+{bus|1≤s≤l∧1≤u≤m}=COEF为系数集合;记系数集合的估计值为COEF'={a0'}+{as'|1≤s≤l}+{bus'|1≤s≤l∧1≤u≤m},则根据该系数集合,决策属性y在时刻t的估计值yt'如下公式所示:在对系数集进行训练的过程中,在已知y在时刻t的观测值的情况下,通过以下公式判断所估计的系数集合的预测精度:如果误差|yt-yt′|越小,表示预测精度越好;将已知决策属性y以及条件属性x在多个时刻的观测值,要找到一个系数集合使得y在所有时刻的观测值与估计值的总的误差最小的问题转化为求解一个多系数取值的组合优化问题,即要找到系数集合中的各个系数的取值,该问题通过建立如下所示的目标函数,并利用粒子群算法进行问题求解:步骤2.2、通过基于健康度的粒子群优化算法对多元线性回归模型中的回归系数进行优化,具体方法为:步骤2.2.1、初始化算法参数,随机产生初始粒子,并对其赋初值;初始化种群规模为K的粒子群,K为设定值;记粒子spv为R维空间中的一个粒子,R为系数集合的估计值COEF'的大小;粒子初始位置的设置采用如下方法:粒子spv在第u维方向的位置即在第u维方向的值随机设置为0到1间的一个数,从而得到粒子spv在R维空间中的位置为随机设置粒子在第u维方向的速度从而得到粒子spv在R维空间的速度其中,it表示当前迭代;粒子的适应度函数定义为如下公式:其中,fitness(spv)为粒子spv的适应度;步骤2.2.2、对群体粒子的进化进行操作,具体方法为:a、根据以下两个公式分别更本文档来自技高网...

【技术保护点】
1.一种基于特征提取的高维时间序列数据的分析预测方法,其特征在于:包括以下步骤:步骤1、基于维度关联性分析对高维时间序列数据进行特征提取,具体方法为:步骤1.1:通过使用联合熵的概念来度量高维时间序列数据中条件属性之间的相关性进行度量,并且根据专家学者的经验知识对判断结果进行交互式分析,对具有相关性较大的条件属性进行处理,最后,通过条件属性与决策属性间相关性度量评价条件属性与决策属性之间的相关性,并将与决策属性具有相关性的条件属性加入属性核集Core中;步骤1.2:基于Granger因果分析对高维时间序列数据进行特征提取;步骤2、在基于维度关联性分析的高维时间序列数据特征提取方法基础上,建立多元线性回归模型对高维时间序列数据进行预测,具体方法为:步骤2.1:根据决策属性时间自相关以及条件属性的相关性,建立多元线性回归模型;步骤2.2:通过基于健康度的粒子群优化算法对多元线性回归模型中的回归系数进行优化;步骤3、根据所构建的多元线性回归模型,将时间序列数据按照模型所需的条件属性值进行输入,得到在某一时刻的决策属性的值,从而完成对某一时刻决策属性值的预测。

【技术特征摘要】
1.一种基于特征提取的高维时间序列数据的分析预测方法,其特征在于:包括以下步骤:步骤1、基于维度关联性分析对高维时间序列数据进行特征提取,具体方法为:步骤1.1:通过使用联合熵的概念来度量高维时间序列数据中条件属性之间的相关性进行度量,并且根据专家学者的经验知识对判断结果进行交互式分析,对具有相关性较大的条件属性进行处理,最后,通过条件属性与决策属性间相关性度量评价条件属性与决策属性之间的相关性,并将与决策属性具有相关性的条件属性加入属性核集Core中;步骤1.2:基于Granger因果分析对高维时间序列数据进行特征提取;步骤2、在基于维度关联性分析的高维时间序列数据特征提取方法基础上,建立多元线性回归模型对高维时间序列数据进行预测,具体方法为:步骤2.1:根据决策属性时间自相关以及条件属性的相关性,建立多元线性回归模型;步骤2.2:通过基于健康度的粒子群优化算法对多元线性回归模型中的回归系数进行优化;步骤3、根据所构建的多元线性回归模型,将时间序列数据按照模型所需的条件属性值进行输入,得到在某一时刻的决策属性的值,从而完成对某一时刻决策属性值的预测。2.根据权利要求1所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:步骤1.1所述条件属性间的相关性度量使用如下所示公式进行判断:其中,c1和c2分别为高维时间序列数据的两个条件属性,p(c1,c2)为两个条件属性c1和c2间的概率分布,H(c1,c2)为两个条件属性c1和c2间的相关性度量;所述条件属性与决策属性间的相关性度量使用如下所示公式进行判断:其中,c为条件属性,d为决策属性,p(c,d)为条件属性c和决策属性d的联合概率分布,p(c)和p(d)分别为条件属性c和决策属性d边缘分布,I(c;d)为条件属性c和决策属性d间的相关性度量;对于条件属性与决策属性间相关性度量,若I(C-{ci};D)<I(C;D),其中C={c1,c2,…cn}为含有n个条件属性的条件属性集,ci∈C为条件属性集C中的第i个条件属性,i=1、2…、n,D为决策属性集,说明此条件属性对于决策属性具有相关性,则将条件属性ci加入到集中,结果为Core=Core+{ci},否则对下一个条件属性进行判断直至最后一个条件属性。3.根据权利要求1所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:所述步骤1.2的具体方法为:步骤1.2.1:对高维时间序列数据进行预处理;首先利用单位根检验法对高维时间序列数据的平稳性进行检验,对于不平稳的高维时间序列数据,通过差分转换方法进行转换使其平稳;然后,使用周期图法和Fisher精确检验法进行周期性检验,最后,通过贝叶斯信息准则BIC对高维时间序列数据进行最优滞后期计算;步骤1.2.2:构建决策属性的自回归模型;步骤1.2.3:构建加入条件属性后的决策属性的增广型自回归模型;步骤1.2.4:对条件属性与决策属性进行Granger因果关系检验,步骤1.2.5:对于与决策属性具有因果性的条件属性加入属性核集;步骤1.2.6:对下一条件属性进行因果性判断。4.根据权利要求3所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:步骤1.2.2所述构建的决策属性的自回归模型如下式所示:y(t)=a0+a1yt-1+a2yt-2+...+alyt-l其中,y(t)为某一时刻t时决策属性y的属性值,l为决策属性y中滞后期的最大值,a0为常数项,a1,a2,…,al为回归系数。所述步骤1.2.3对于加入条件属性后的决策属性的增广型自回归模型如下式所示:y(t)=a0+a1yt-1+...+alyt-l+b1xt-1+...+bwxt-w其中,w为条件属性x中滞后期的最大值,b1,b2,…,bw为回归系数。5.根据权利要求3所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:所述步骤1...

【专利技术属性】
技术研发人员:代钰杨雷韩琳琳张鹏张斌
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1