当前位置: 首页 > 专利查询>济南大学专利>正文

一种基于降维窗口的主成分分析方法及系统技术方案

技术编号:20160582 阅读:14 留言:0更新日期:2019-01-19 00:13
本发明专利技术提供一种基于降维窗口的主成分分析方法及系统,包括如下步骤:1.输入待处理数据集X;S2.初始化降维窗口参数e和结束条件参数a;3.根据输入数据集X计算得到初始相关系数矩阵B;4.根据初始相关系数矩阵B计算得到相关系数矩阵P;5.根据相关系数矩阵P判断是否符合结束条件;若是,进入步骤6;若否,进入步骤7;6.输出降维结果数据集X`;7.为相关系数矩阵P添加降维窗口,并将相关系数矩阵P每行元素按大小排列;8.判断是否出现窗口溢出,或者,出现窗口宽度优化后无变化;若是,进入步骤9;若否,进入步骤10;9.优化降维窗口参数;返回步骤7;10.在降维窗口内对数据进行降维处理;返回步骤3。

【技术实现步骤摘要】
一种基于降维窗口的主成分分析方法及系统
本专利技术属于数据分析处理领域,具体涉及一种基于降维窗口的主成分分析方法及系统。
技术介绍
当今世界正处于基于信息技术的第三次工业革命中,同时人类社会也步入大数据时代,信息技术高速发展,数据呈爆发式的增长态势,越来越多的企业、科研单位、政府看到了大数据中蕴藏的巨大财富,数据挖掘技术以及机器学习成为当下入门的研究领域,面对通过技术手段收集的未处理的巨量原始数据,直接对其进行挖掘分析既浪费时间、浪费硬件资源,结果也不一定准确,因为这些数据中会存在很大程度的冗余信息、噪声、错误数据等,我们需要在进行数据挖掘或者学习之前对原始数据进行一个预处理,对冗余数据的清理,目前也已经发展出各种降维算法如主成分分析(PCA),基于核函数的主成分分析(KPCA),针对稀疏矩阵的鲁棒主成分分析(RPCA)等,它们在线性降维、非线性降维以及去噪提高鲁棒性等方面都有良好的性能,但都存在一个问题,就是降维后数据映射到另一空间内,通过聚类和分类的结果失去了原空间的信息,对人们分析结果带来困难,而且数据返映射也很困难。此为现有技术的不足,因此,针对现有技术中的上述缺陷,在原数据空间尽量保留主要信息的基础上直接降维,提供一种基于降维窗口的主成分分析方法及系统,是非常有必要的。
技术实现思路
本专利技术的目的在于,针对上述现有主成分分析算法的降维结果失去原数据空间结构,可能改变原数据空间信息以及分析结果不便于人工理解的缺陷,提供一种基于降维窗口的主成分分析方法及系统,以解决上述技术问题。为实现上述目的,本专利技术给出以下技术方案:一种基于降维窗口的主成分分析方法,包括如下步骤:S1.输入待处理数据集X;S2.初始化降维窗口参数e和结束条件参数a;S3.根据输入数据集X计算得到初始相关系数矩阵B;S4.根据初始相关系数矩阵B计算得到相关系数矩阵P;S5.根据相关系数矩阵P判断是否符合结束条件;若是,进入步骤S6;若否,进入步骤S7;S6.输出降维结果数据集X`;S7.为相关系数矩阵P添加降维窗口,并将相关系数矩阵P每行元素按大小排列;S8.判断是否出现窗口溢出,或者,出现窗口宽度优化后无变化;若是,进入步骤S9;若否,进入步骤S10;S9.优化降维窗口参数;返回步骤S7;S10.在降维窗口内对数据进行降维处理;返回步骤S3。进一步地,步骤S1中输入的待处理数据集构成n维m个对象的矩阵X=[x1,x2,……,xn],其中xi是m维的属性向量,1≤i≤n。本专利技术对输入数据集X进行降维,使其属性之间的相关性尽可能的小,使得剩下的属性最大程度的代表主要成分,输出的降维结果数据集X`中的维度向量时原数据集X内的原本向量,X’=[xj,xk,……,xl],其中1≤j≤k≤l<n。进一步地,步骤S3的具体步骤如下:S31.根据待处理数据集X=[x1,x2,……,xn],得到属性向量方差D(xi)和D(xj),1≤i,j≤n;S32.根据待处理数据集X=[x1,x2,……,xn],得到两个属性向量的协方差Cov(xi,xj);S33.根据随机变量之间的相关系数公式得到初始相关系数矩阵B,B中元素用bij表示,要得到属性之间的相关性或相关程度,通过统计学的随机变量之间相关系数公式得到初始相关系数矩阵B。进一步地,步骤S4的具体步骤如下:S41.将初始相关系数矩阵B减去跟B同阶的单位方阵E,得到B`=B-E;S42.将矩阵B`的所有元素取绝对值得相关系数矩阵P。因为当i=j时,即矩阵B的对角线元素为1,为了后续的计算,需要将其置零得到矩阵B`:B`=B-E;进一步地,S5具体步骤如下:S51.计算相关系数矩阵P每各行元素的和,并取出其中的最大值与最小值做差得到差值d;例如相关系数矩阵P一共M行,将各行内元素相加,就有M个和值,然后在这M个值中取一个最大值和最小值,最大值和最小值做差值;S52.根据结束条件End_con=a*(b_max-b_min)判断d是否小于End_con,其中b_max和b_min分别表示初始时P矩阵对每行元素进行求和后,其中的最大值和最小值0.01≤a≤0.1;若是,进入步骤S6;若否,进入步骤S7。在每次迭代中求每个属性对于其他所有相关系数的和,并取其中的最大值和最小值做差,如果这个值小于End_con,即可认为收敛,此时输出降维结果。进一步地,步骤S7具体步骤如下:S71.在相关系数矩阵P右侧添加降维窗口Widthwin=floor(n*e),其中n表示数据维数,e为降维窗口参数,floor()是一个MATLAB函数,用来做向上取整运算,当两个参数相乘不为整数时,其值去掉小数部分加一即为函数值,窗口高度即维数;S72.将相关系数矩阵P每行元素按值的大小升序排列;S73.相关系数矩阵重新排列后对属性重新编号。进一步地,步骤S10具体步骤如下:S101.统计在窗口内的有序元素对应的属性号出现的次数;S102.按统计序号出现的次数升序将属性号进行排序;S103.将值最大的前Width_win个属性从原数据集中去掉。对矩阵P的每行元素进行求和运算,得到每个属性对其他各个属性相关性的和,这个值越高说明这个属性被别人代替的可能性越大,有可能被其他属性线性表示,从而将其归入冗余信息里的可能性越大,因此需要将每行元素中最大的几个数去掉。进一步地,步骤S8具体步骤如下:S81.判断是否出现窗口溢出,即相关系数矩阵P的宽度比降维窗口宽度小;若是,进入步骤S9;若否,进入步骤S10;S82.判断是否出现窗口宽度优化后无变化,此时陷入无限循环;若是,进入步骤S9;若否,进入步骤S10。出现窗口溢出,是窗口设置过大,出现无线循环是窗口设置过小,均需重新调整窗口宽度。进一步地,步骤S9的具体步骤如下:S91.获取降维窗口宽度调整强度其中是f(t)关于调整次数t的函数,用来控制窗口宽度调整的强度,随着次数增多,调整力度趋缓;S92.获取调整后降维窗口参数值e(t+1)=e(t)±f(t),其中函数e(t)的值表示第t次调整窗口宽度时的降维窗口参数值;其中,当窗口宽度调整原因为窗口溢出时,“±”取-,e(t+1)=e(t)-f(t);当窗口宽度调整原因为窗口宽度优化后无变化时,“±”取+,e(t+1)=e(t)-f(t)。优化调整过程是作为一种检测机制而存在,如果降维窗口参数初始化较合适,优化降维窗口参数可以不执行,一旦降维窗口参数设置过大,在降维分析过程中,还未到达结束条件时出现窗口溢出情况就需要根据优化函数对参数进行调整,如某次迭代中出现矩阵P的宽度比降维窗口宽度小,此时就是窗口溢出,需要使用优化函数对降维窗口参数进行调整,窗口收敛速度快于降维收敛速度或者降维在窗口溢出前收敛都可以,即窗口存在溢出的趋势但是在溢出之前达到了程序结束条件。采用对数函数对参数进行调整,通常开始调整幅度要较大一些,之后随着一次次迭代,调整强度会慢慢趋缓,尽量找到一个收敛平衡点,即刚好不会出现窗口溢出,又能顺利完成降维工作而输出结果。本专利技术还给出如下技术方案:一种基于降维窗口的主成分分析系统,包括待处理数据集输入模块,用于输入待处理数据集X;参数初始化模块,用于初始化降维窗口参数e和结束条件参数a;初始相关系数矩阵计算模块,用于根据本文档来自技高网...

【技术保护点】
1.一种基于降维窗口的主成分分析方法,其特征在于,包括如下步骤:S1.输入待处理数据集X;S2.初始化降维窗口参数e和结束条件参数a;S3.根据输入数据集X计算得到初始相关系数矩阵B;S4.根据初始相关系数矩阵B计算得到相关系数矩阵P;S5.根据相关系数矩阵P判断是否符合结束条件;若是,进入步骤S6;若否,进入步骤S7;S6.输出降维结果数据集X`;S7.为相关系数矩阵P添加降维窗口,并将相关系数矩阵P每行元素按大小排列;S8.判断是否出现窗口溢出,或者,出现窗口宽度优化后无变化;若是,进入步骤S9;若否,进入步骤S10;S9.优化降维窗口参数;返回步骤S7;S10.在降维窗口内对数据进行降维处理;返回步骤S3。

【技术特征摘要】
1.一种基于降维窗口的主成分分析方法,其特征在于,包括如下步骤:S1.输入待处理数据集X;S2.初始化降维窗口参数e和结束条件参数a;S3.根据输入数据集X计算得到初始相关系数矩阵B;S4.根据初始相关系数矩阵B计算得到相关系数矩阵P;S5.根据相关系数矩阵P判断是否符合结束条件;若是,进入步骤S6;若否,进入步骤S7;S6.输出降维结果数据集X`;S7.为相关系数矩阵P添加降维窗口,并将相关系数矩阵P每行元素按大小排列;S8.判断是否出现窗口溢出,或者,出现窗口宽度优化后无变化;若是,进入步骤S9;若否,进入步骤S10;S9.优化降维窗口参数;返回步骤S7;S10.在降维窗口内对数据进行降维处理;返回步骤S3。2.如权利要求1所述的一种基于降维窗口的主成分分析方法,其特征在于,步骤S1中输入的待处理数据集构成n维m个对象的矩阵X=[x1,x2,……,xn],其中xi是m维的属性向量,1≤i≤n。3.如权利要求2所述的一种基于降维窗口的主成分分析方法,其特征在于,步骤S3的具体步骤如下:S31.根据待处理数据集X=[x1,x2,……,xn],得到属性向量方差D(xi)和D(xj),1≤i,j≤n;S32.根据待处理数据集X=[x1,x2,……,xn],得到两个属性向量的协方差Cov(xi,xj);S33.根据随机变量之间的相关系数公式得到初始相关系数矩阵B,B中元素用bij表示,4.如权利要求1所述的一种基于降维窗口的主成分分析方法,其特征在于,步骤S4的具体步骤如下:S41.将初始相关系数矩阵B减去跟B同阶的单位方阵E,得到B`=B-E;S42.将矩阵B`的所有元素取绝对值得相关系数矩阵P。5.如权利要求1所述的一种基于降维窗口的主成分分析方法,其特征在于,S5具体步骤如下:S51.计算相关系数矩阵P各行元素的和,并取出其中的最大值与最小值做差得到差值d;S52.根据结束条件End_con=a*(b_max-b_min)判断d是否小于End_con,其中b_max和b_min分别表示初始时P矩阵对每行的元素进行求和后,其中的最大值和最小值,0.01≤a≤0.1;若是,进入步骤S6;若否,进入步骤S7。6.如权利要求1所述的一种基于降维窗口的主成分分析方法,其特征在于,步骤S7具体步骤如下:S71.在相关系数矩阵P右侧添加降维窗口Widthwin=floor(n*e),其中n表示数据维数,e为降维窗口参数,floor()...

【专利技术属性】
技术研发人员:张瑞杜韬曲守宁许婧文王玉栋武奎
申请(专利权)人:济南大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1