一种消除复杂系统中回归数据共线性问题的优化分析方法技术方案

技术编号:13491133 阅读:75 留言:0更新日期:2016-08-07 01:39
本发明专利技术公开了一种工程、社会学等领域的数据挖掘技术,具体为联合运用多次主成分分析与回归分析,分析复杂系统中存在回归数据共线性的多个自变量对因变量的关系的优化分析方法。它先利用主成分分析法,对多组存在共线性的自变量进行分析并逐步剔除共线性因素,当剩余的因素之间共线性不显著时停止主成分分析;进而对剩余的自变量和因变量做回归分析得到他们之间的关系。该优化分析方法通过反复多次的主成分分析,剔除相关变量,达到最终用于回归分析的数据之间共线性不显著的结果。

【技术实现步骤摘要】
[
]
本专利技术可以分析复杂系统中回归数据存在共线性的多个自变量对因变量的关系。可用于工程、社会学等各个领域的数据挖掘中。
[
技术介绍
]
近年来,随着在工程、社会学等领域中数据量的爆炸性增长,数据挖掘技术日趋成熟。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。其中回归分析是一种确定两种或两种以上变量间相互依赖的定量关系的统计分析方法,其目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便利用一个或多个自变量来预测研究者感兴趣的因变量。回归数据共线性是指回归模型中某些自变量之间是线性相关的。回归分析要求自变量之间相互独立,而在实际情况中,很难保证已有的数据组之间不存在共线性。
主成分分析(Principalcomponentanalysis,简称PCA)是考察多个变量间相关性的一种多元统计方法,具有数据压缩的作用。能够从原始变量中导出少数几个主要分量,使它们尽可能多地保留原始变量的信息并且彼此不相关。本专利技术使用多次主成分分析与回归分析联合的方法,具体是先将主成分分析法用于回归分析之前的数据处理,保留对主成分贡献最高的一组数据,剔除与这组数据共线性的其余数据。通过反复多次的主成分分析,使剩余的变量之间不相关,再进行回归分析,最终达到用于回归分析的数据之间共线性不显著的结果。
[
技术实现思路
]
本专利技术可以分析存在共线性的多个自变量对另一因变量的关系,并剔除共线性变量,使自变量和因变量之间的相关关系更准确。具体的,使用了多次主成分分析与回归分析联合的方法。
主成分分析法通常被用来探索事物的内在规律,寻找事物或现象的综合指标。例如,水库运行调度的变量之间一般存在线性相关关系,例如库容量是水位的函数,坝下生态需水量是根据多年放水量的历史数据计算得到的、在弃水量很小的情况下发电水量与放水量高度线性相关。如以上变量都用于回归分析,必然得到被共线性变量高度干扰的不准确回归方程。
为处理这种情况,使用多次PCA分析所有变量是否存在共线性,并剔除共线性干扰,建立自变量和因变量之间的相关关系。步骤是:
(1)确定系统变量:从整个系统中选取数据完整、能够体现复杂系统特征的若干组变量作为自变量X,体现研究目标的一组变量为因变量Z;
(2)对所有自变量X和因变量Z进行PCA分析,得到主成分1,对主成分1贡献显著的一组变量中,保留贡献最高的一个,剔除对主成分1高度相关的其余变量;
(3)对其它变量进行第二次PCA分析,得到主成分2,在对主成分2贡献显著的一组变量中保留第一名的,如此循环至所有变量不显著相关;
(4)使用剔除后的变量做散点图分析;
(5)分析变量的正态性、方差齐的问题,当认为各组变量数量级之间差异显著(如一组变量数量级为1,其余各组变量数量级都大于5时)做预处理;
(6)选择回归方法进行回归分析,得到剔除共线性后若干因素对因变量的回归函数,其中根据数据实际情况选择合适的回归方法,可以使用线性回归、非线性回归、一元回归、多元回归、多重线性回归等方法;
(7)使用图示法实施残差分析,分析残差间是否独立、是否为正态。残差均值越接近于0、越接近于正态分布,则说明用于回归分析的数据之间共线性越不显著,模型计算值与实际数据的相关性越好。
[实施例]
以水库调度为例。某水库调度因素有研究时段内:发电水量(VF),水库入流量(IF),水位(H),库存水量(V),弃水量(VQ),出库水量(VO),该时段内95%情况下坝下河流生态需水量(E95)。如以发电量最大为目标,兼顾生态需水的考虑,选取发电水量(VF)为因变量,其余因素为自变量。可知自变量之间存在共线性关系。按照本专利技术的方法,首先选取以上自变量指标的日均值进行主成分分析,结果见表1。
表1典型年变量主成分分析成分矩阵
自变量的相关系数见图1。图1是典型年水库变量相关性散点图和椭圆图,其中上部三角区域为散点图,下部区域为平滑拟合曲线和置信椭圆;主对角面板包含变量最大和最小值;矩阵的行列使用主成分分析法进行了重新排序。使用六个自变量第一次PCA结果可以看出,因变量VF和出库水量VO对主成分1的贡献均大于0.85,存在共线性,故在下一步回归分析中剔除自变量VO;从第二次PCA结果看出,库存水量V和水位H对主成分1的贡献均大于0.9,存在共线性;剔除这两个变量后对其它变量做第三次PCA,可知剩余变量中水库入流量IF和出库水量VO存在共线性。注意到每次PCA分析中E95单独对主成分2做出显著贡献。所以选择水位H和水库入流量IF,另取生态需水量E95做回归分析。
需要注意的是,由于水库调度的变量较少,实质上几个变量之间是存在运算关系的,如果直接选择全部变量进行回归分析,在提出变量时无论选择何种方法(前进、后退、进入)都由于拟合完美而生成错误的结果或者无结果。本文中使用多次PAC方法避免了这一问题的出现、正确剔除了共线性变量得到了较为准确的结果。
根据上一步多次PCA分析结果,选择水库入流量IF、水位H、95%情况坝下河流生态需水量E95回归得到:
VF=0.061IF-5923100.72H+1.001E95+923717838.0式(1)
三个回归系数的显著性水平Sig.=0.000均小于0.05,可以认为以上自变量对因变量VF均有显著影响。
回归标准化残差如图2所示。由图2可以看出,残差均值1.87E-14无限接近0;标准偏差0.996;绝大部分回归的残差呈正态分布,范围在(-3,+3)之间,没有明显偏离。图3是回归标准化正态P-P图,为观测残差值与预计正态分布残差值的回归分析,可以看到观测值的残差分布与假设的正态分布回归情况较好,模型计算值与实际数据的相关性较好。图4回归标准化预计值图,以标准化预测值为x轴,标准化残差作为y轴,第几天作为标签,可以看到残差分布情况。大部分残差分布在原点附近的2个标准差以内,较大偏离值非常少,仅有第238天的数据残差在3个标准差附近偏离。可见,通过反复多次的主成分分析,剔除了相关变量,达到最终用于回归分析的数据之间共线性不显著的结果。
以上所述仅为本专利技术的较佳实施实例,并不用以限制本专利技术,凡在本专利技术的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本专利技术的保护范围之内。
本文档来自技高网
...

【技术保护点】
一种消除复杂系统中回归数据共线性问题的优化分析方法,具体为使用多次主成分分析与回归分析联合的方法,其特征在于,包括以下步骤:(1)确定复杂系统的自变量和因变量:从复杂系统中选取数据完整、能够体现系统特征的若干组变量作为自变量X,自变量是多维的,体现研究目标的一组变量为因变量Z;(2)变量的相关性分析:对所有自变量X和因变量Z进行PCA分析,得到主成分1,对主成分1贡献显著的一组变量中,保留贡献最高的一个,剔除对主成分1高度相关的其余变量;(3)运用多次主成分分析的方法,多次进行变量的相关性分析:对其它变量进行第二次PCA分析,得到主成分2,在对主成分2贡献显著的一组变量中保留第一名的,剔除与主成分2相关的其它变量。如此循环至所有变量不显著相关;(4)使用剔除后的变量做散点图分析;(5)分析变量的正态性、方差齐的问题,当认为各组变量数量级之间差异显著(如一组变量数量级为1,其余各组变量数量级都大于5时做预处理;(6)选择回归方法进行回归分析,得到剔除共线性后若干因素对因变量的回归函数;(7)使用图示法实施残差分析,分析残差间是否独立、是否为正态,检验共线性问题处理效果。

【技术特征摘要】
1.一种消除复杂系统中回归数据共线性问题的优化分析方法,具体为使用多次主成分分
析与回归分析联合的方法,其特征在于,包括以下步骤:
(1)确定复杂系统的自变量和因变量:
从复杂系统中选取数据完整、能够体现系统特征的若干组变量作为自变量X,自变量
是多维的,体现研究目标的一组变量为因变量Z;
(2)变量的相关性分析:
对所有自变量X和因变量Z进行PCA分析,得到主成分1,对主成分1贡献显著的一组
变量中,保留贡献最高的一个,剔除对主成分1高度相关的其余变量;
(3)运用多次主成分分析的方法,多次进行变量的相关性分析:
对其它变量进行第二次PCA分析,得到主成分2,在对主成分2贡献显著的一组变量中
保留第一名的,剔除与主成分2相关的其它变量。如此循环至所有变量不显著相关;
(4)使用剔除后的变量做散点图分析;
(5)分析变量的正态...

【专利技术属性】
技术研发人员:崔瑔王烜杨志峰李春晖蔡宴朋闫胜军
申请(专利权)人:北京师范大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1