【技术实现步骤摘要】
一种基于降维窗口的主成分分析方法及系统
本专利技术属于数据分析处理领域,具体涉及一种基于降维窗口的主成分分析方法及系统。
技术介绍
当今世界正处于基于信息技术的第三次工业革命中,同时人类社会也步入大数据时代,信息技术高速发展,数据呈爆发式的增长态势,越来越多的企业、科研单位、政府看到了大数据中蕴藏的巨大财富,数据挖掘技术以及机器学习成为当下入门的研究领域,面对通过技术手段收集的未处理的巨量原始数据,直接对其进行挖掘分析既浪费时间、浪费硬件资源,结果也不一定准确,因为这些数据中会存在很大程度的冗余信息、噪声、错误数据等,我们需要在进行数据挖掘或者学习之前对原始数据进行一个预处理,对冗余数据的清理,目前也已经发展出各种降维算法如主成分分析(PCA),基于核函数的主成分分析(KPCA),针对稀疏矩阵的鲁棒主成分分析(RPCA)等,它们在线性降维、非线性降维以及去噪提高鲁棒性等方面都有良好的性能,但都存在一个问题,就是降维后数据映射到另一空间内,通过聚类和分类的结果失去了原空间的信息,对人们分析结果带来困难,而且数据返映射也很困难。此为现有技术的不足,因此,针对现有技术中的上述缺陷,在原数据空间尽量保留主要信息的基础上直接降维,提供一种基于降维窗口的主成分分析方法及系统,是非常有必要的。
技术实现思路
本专利技术的目的在于,针对上述现有主成分分析算法的降维结果失去原数据空间结构,可能改变原数据空间信息以及分析结果不便于人工理解的缺陷,提供一种基于降维窗口的主成分分析方法及系统,以解决上述技术问题。为实现上述目的,本专利技术给出以下技术方案:一种基于降维窗口的主成分分析 ...
【技术保护点】
1.一种基于降维窗口的主成分分析方法,其特征在于,包括如下步骤:S1.输入待处理数据集X;S2.初始化降维窗口参数e和结束条件参数a;S3.根据输入数据集X计算得到初始相关系数矩阵B;S4.根据初始相关系数矩阵B计算得到相关系数矩阵P;S5.根据相关系数矩阵P判断是否符合结束条件;若是,进入步骤S6;若否,进入步骤S7;S6.输出降维结果数据集X`;S7.为相关系数矩阵P添加降维窗口,并将相关系数矩阵P每行元素按大小排列;S8.判断是否出现窗口溢出,或者,出现窗口宽度优化后无变化;若是,进入步骤S9;若否,进入步骤S10;S9.优化降维窗口参数;返回步骤S7;S10.在降维窗口内对数据进行降维处理;返回步骤S3。
【技术特征摘要】
1.一种基于降维窗口的主成分分析方法,其特征在于,包括如下步骤:S1.输入待处理数据集X;S2.初始化降维窗口参数e和结束条件参数a;S3.根据输入数据集X计算得到初始相关系数矩阵B;S4.根据初始相关系数矩阵B计算得到相关系数矩阵P;S5.根据相关系数矩阵P判断是否符合结束条件;若是,进入步骤S6;若否,进入步骤S7;S6.输出降维结果数据集X`;S7.为相关系数矩阵P添加降维窗口,并将相关系数矩阵P每行元素按大小排列;S8.判断是否出现窗口溢出,或者,出现窗口宽度优化后无变化;若是,进入步骤S9;若否,进入步骤S10;S9.优化降维窗口参数;返回步骤S7;S10.在降维窗口内对数据进行降维处理;返回步骤S3。2.如权利要求1所述的一种基于降维窗口的主成分分析方法,其特征在于,步骤S1中输入的待处理数据集构成n维m个对象的矩阵X=[x1,x2,……,xn],其中xi是m维的属性向量,1≤i≤n。3.如权利要求2所述的一种基于降维窗口的主成分分析方法,其特征在于,步骤S3的具体步骤如下:S31.根据待处理数据集X=[x1,x2,……,xn],得到属性向量方差D(xi)和D(xj),1≤i,j≤n;S32.根据待处理数据集X=[x1,x2,……,xn],得到两个属性向量的协方差Cov(xi,xj);S33.根据随机变量之间的相关系数公式得到初始相关系数矩阵B,B中元素用bij表示,4.如权利要求1所述的一种基于降维窗口的主成分分析方法,其特征在于,步骤S4的具体步骤如下:S41.将初始相关系数矩阵B减去跟B同阶的单位方阵E,得到B`=B-E;S42.将矩阵B`的所有元素取绝对值得相关系数矩阵P。5.如权利要求1所述的一种基于降维窗口的主成分分析方法,其特征在于,S5具体步骤如下:S51.计算相关系数矩阵P各行元素的和,并取出其中的最大值与最小值做差得到差值d;S52.根据结束条件End_con=a*(b_max-b_min)判断d是否小于End_con,其中b_max和b_min分别表示初始时P矩阵对每行的元素进行求和后,其中的最大值和最小值,0.01≤a≤0.1;若是,进入步骤S6;若否,进入步骤S7。6.如权利要求1所述的一种基于降维窗口的主成分分析方法,其特征在于,步骤S7具体步骤如下:S71.在相关系数矩阵P右侧添加降维窗口Widthwin=floor(n*e),其中n表示数据维数,e为降维窗口参数,floor()...
【专利技术属性】
技术研发人员:张瑞,杜韬,曲守宁,许婧文,王玉栋,武奎,
申请(专利权)人:济南大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。