一种基于降维窗口的主成分分析方法及系统技术方案

技术编号：20160582 阅读：14 留言：0更新日期：2019-01-19 00:13

本发明专利技术提供一种基于降维窗口的主成分分析方法及系统，包括如下步骤：1.输入待处理数据集X；S2.初始化降维窗口参数e和结束条件参数a；3.根据输入数据集X计算得到初始相关系数矩阵B；4.根据初始相关系数矩阵B计算得到相关系数矩阵P；5.根据相关系数矩阵P判断是否符合结束条件；若是，进入步骤6；若否，进入步骤7；6.输出降维结果数据集X`；7.为相关系数矩阵P添加降维窗口，并将相关系数矩阵P每行元素按大小排列；8.判断是否出现窗口溢出，或者，出现窗口宽度优化后无变化；若是，进入步骤9；若否，进入步骤10；9.优化降维窗口参数；返回步骤7；10.在降维窗口内对数据进行降维处理；返回步骤3。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于降维窗口的主成分分析方法及系统
本专利技术属于数据分析处理领域，具体涉及一种基于降维窗口的主成分分析方法及系统。
技术介绍
当今世界正处于基于信息技术的第三次工业革命中，同时人类社会也步入大数据时代，信息技术高速发展，数据呈爆发式的增长态势，越来越多的企业、科研单位、政府看到了大数据中蕴藏的巨大财富，数据挖掘技术以及机器学习成为当下入门的研究领域，面对通过技术手段收集的未处理的巨量原始数据，直接对其进行挖掘分析既浪费时间、浪费硬件资源，结果也不一定准确，因为这些数据中会存在很大程度的冗余信息、噪声、错误数据等，我们需要在进行数据挖掘或者学习之前对原始数据进行一个预处理，对冗余数据的清理，目前也已经发展出各种降维算法如主成分分析(PCA)，基于核函数的主成分分析(KPCA)，针对稀疏矩阵的鲁棒主成分分析(RPCA)等，它们在线性降维、非线性降维以及去噪提高鲁棒性等方面都有良好的性能，但都存在一个问题，就是降维后数据映射到另一空间内，通过聚类和分类的结果失去了原空间的信息，对人们分析结果带来困难，而且数据返映射也很困难。此为现有技术的不足，因此，针对现有技术中的上述缺陷，在原数据空间尽量保留主要信息的基础上直接降维，提供一种基于降维窗口的主成分分析方法及系统，是非常有必要的。
技术实现思路
本专利技术的目的在于，针对上述现有主成分分析算法的降维结果失去原数据空间结构，可能改变原数据空间信息以及分析结果不便于人工理解的缺陷，提供一种基于降维窗口的主成分分析方法及系统，以解决上述技术问题。为实现上述目的，本专利技术给出以下技术方案：一种基于降维窗口的主成分分析...

【技术保护点】
1.一种基于降维窗口的主成分分析方法，其特征在于，包括如下步骤：S1.输入待处理数据集X；S2.初始化降维窗口参数e和结束条件参数a；S3.根据输入数据集X计算得到初始相关系数矩阵B；S4.根据初始相关系数矩阵B计算得到相关系数矩阵P；S5.根据相关系数矩阵P判断是否符合结束条件；若是，进入步骤S6；若否，进入步骤S7；S6.输出降维结果数据集X`；S7.为相关系数矩阵P添加降维窗口，并将相关系数矩阵P每行元素按大小排列；S8.判断是否出现窗口溢出，或者，出现窗口宽度优化后无变化；若是，进入步骤S9；若否，进入步骤S10；S9.优化降维窗口参数；返回步骤S7；S10.在降维窗口内对数据进行降维处理；返回步骤S3。

【技术特征摘要】
1.一种基于降维窗口的主成分分析方法，其特征在于，包括如下步骤：S1.输入待处理数据集X；S2.初始化降维窗口参数e和结束条件参数a；S3.根据输入数据集X计算得到初始相关系数矩阵B；S4.根据初始相关系数矩阵B计算得到相关系数矩阵P；S5.根据相关系数矩阵P判断是否符合结束条件；若是，进入步骤S6；若否，进入步骤S7；S6.输出降维结果数据集X`；S7.为相关系数矩阵P添加降维窗口，并将相关系数矩阵P每行元素按大小排列；S8.判断是否出现窗口溢出，或者，出现窗口宽度优化后无变化；若是，进入步骤S9；若否，进入步骤S10；S9.优化降维窗口参数；返回步骤S7；S10.在降维窗口内对数据进行降维处理；返回步骤S3。2.如权利要求1所述的一种基于降维窗口的主成分分析方法，其特征在于，步骤S1中输入的待处理数据集构成n维m个对象的矩阵X＝[x1,x2,……，xn]，其中xi是m维的属性向量，1≤i≤n。3.如权利要求2所述的一种基于降维窗口的主成分分析方法，其特征在于，步骤S3的具体步骤如下：S31.根据待处理数据集X＝[x1,x2,……，xn]，得到属性向量方差D(xi)和D(xj)，1≤i,j≤n；S32.根据待处理数据集X＝[x1,x2,……，xn]，得到两个属性向量的协方差Cov(xi，xj)；S33.根据随机变量之间的相关系数公式得到初始相关系数矩阵B，B中元素用bij表示，4.如权利要求1所述的一种基于降维窗口的主成分分析方法，其特征在于，步骤S4的具体步骤如下：S41.将初始相关系数矩阵B减去跟B同阶的单位方阵E，得到B`＝B-E；S42.将矩阵B`的所有元素取绝对值得相关系数矩阵P。5.如权利要求1所述的一种基于降维窗口的主成分分析方法，其特征在于，S5具体步骤如下：S51.计算相关系数矩阵P各行元素的和，并取出其中的最大值与最小值做差得到差值d；S52.根据结束条件End_con＝a*(b_max-b_min)判断d是否小于End_con，其中b_max和b_min分别表示初始时P矩阵对每行的元素进行求和后，其中的最大值和最小值，0.01≤a≤0.1；若是，进入步骤S6；若否，进入步骤S7。6.如权利要求1所述的一种基于降维窗口的主成分分析方法，其特征在于，步骤S7具体步骤如下：S71.在相关系数矩阵P右侧添加降维窗口Widthwin＝floor(n*e)，其中n表示数据维数，e为降维窗口参数，floor()...

【专利技术属性】
技术研发人员：张瑞，杜韬，曲守宁，许婧文，王玉栋，武奎，
申请(专利权)人：济南大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人