【技术实现步骤摘要】
[
]
本专利技术可以分析复杂系统中回归数据存在共线性的多个自变量对因变量的关系。可用于工程、社会学等各个领域的数据挖掘中。
[
技术介绍
]
近年来,随着在工程、社会学等领域中数据量的爆炸性增长,数据挖掘技术日趋成熟。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。其中回归分析是一种确定两种或两种以上变量间相互依赖的定量关系的统计分析方法,其目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便利用一个或多个自变量来预测研究者感兴趣的因变量。回归数据共线性是指回归模型中某些自变量之间是线性相关的。回归分析要求自变量之间相互独立,而在实际情况中,很难保证已有的数据组之间不存在共线性。
主成分分析(Principalcomponentanalysis,简称PCA)是考察多个变量间相关性的一种多元统计方法,具有数据压缩的作用。能够从原始变量中导出少数几个主要分量,使它们尽可能多地保留原始变量的信息并且彼此不相关。本专利技术使用多次主成分分析与回归分析联合的方法,具体是先将主成分分析法用于回归分析之前的数据处理,保留对主成分贡献最高的一组数据,剔除与这组数据共线性的其余数据。通过反复多次的主成分分析,使剩余的变量之间不相关,再进行回归分析,最终达到用于回归分析的数据之间共线性不显著的结果。
[
技术实现思路
]
本专利技术可以分析存在共线性的多个自变量对另一因变量的关系,并剔除共线性变量,使自变量和因变量之间的相关关系更准确。具体的,使用了多次主成分分析与回归分析联合的方法。
...
【技术保护点】
一种消除复杂系统中回归数据共线性问题的优化分析方法,具体为使用多次主成分分析与回归分析联合的方法,其特征在于,包括以下步骤:(1)确定复杂系统的自变量和因变量:从复杂系统中选取数据完整、能够体现系统特征的若干组变量作为自变量X,自变量是多维的,体现研究目标的一组变量为因变量Z;(2)变量的相关性分析:对所有自变量X和因变量Z进行PCA分析,得到主成分1,对主成分1贡献显著的一组变量中,保留贡献最高的一个,剔除对主成分1高度相关的其余变量;(3)运用多次主成分分析的方法,多次进行变量的相关性分析:对其它变量进行第二次PCA分析,得到主成分2,在对主成分2贡献显著的一组变量中保留第一名的,剔除与主成分2相关的其它变量。如此循环至所有变量不显著相关;(4)使用剔除后的变量做散点图分析;(5)分析变量的正态性、方差齐的问题,当认为各组变量数量级之间差异显著(如一组变量数量级为1,其余各组变量数量级都大于5时做预处理;(6)选择回归方法进行回归分析,得到剔除共线性后若干因素对因变量的回归函数;(7)使用图示法实施残差分析,分析残差间是否独立、是否为正态,检验共线性问题处理效果。
【技术特征摘要】
1.一种消除复杂系统中回归数据共线性问题的优化分析方法,具体为使用多次主成分分
析与回归分析联合的方法,其特征在于,包括以下步骤:
(1)确定复杂系统的自变量和因变量:
从复杂系统中选取数据完整、能够体现系统特征的若干组变量作为自变量X,自变量
是多维的,体现研究目标的一组变量为因变量Z;
(2)变量的相关性分析:
对所有自变量X和因变量Z进行PCA分析,得到主成分1,对主成分1贡献显著的一组
变量中,保留贡献最高的一个,剔除对主成分1高度相关的其余变量;
(3)运用多次主成分分析的方法,多次进行变量的相关性分析:
对其它变量进行第二次PCA分析,得到主成分2,在对主成分2贡献显著的一组变量中
保留第一名的,剔除与主成分2相关的其它变量。如此循环至所有变量不显著相关;
(4)使用剔除后的变量做散点图分析;
(5)分析变量的正态...
【专利技术属性】
技术研发人员:崔瑔,王烜,杨志峰,李春晖,蔡宴朋,闫胜军,
申请(专利权)人:北京师范大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。