【技术实现步骤摘要】
本专利技术属于高维数据预处理领域,更为具体地讲,是一种基于信息熵改进的超高维数据降维算法。
技术介绍
随着信息科学技术的飞速发展,信息的表示越来越全面,人们获取数据越来越容易、关注的数据对象日渐复杂,业界对数据分析、处理技术的需求最为迫切,特别是对高维数据的分析与处理技术。直接处理高维数据会面临以下困难:维数灾难、空空间、不适定、算法失效。本专利技术针对数据特征维太高,内存受限,不能一次性读入内存分析计算的问题,采用分块处理方法,处理流程如图1所示。但结果显示,运行耗时太长,不能满足应用需求,在此基础上,引入信息熵,首先做特征筛选,大大降低了特征数量,再做降维处理,具体流程如图2所示,具体算法如图3所示,整个过程运行耗时减少数倍,降维结果保留了大部分主成分,依然能满足应用需求。
技术实现思路
本专利技术的最终目的是对原始超高维数据进行降维处理,使得降维后的数据可以在较低内存,用时较少的情况下得以继续分析处理。本专利技术对主要利用了信息熵在信息处理上的意义,对PCA算法进行了改进。所谓的数据维数就是每条记录数据的属性个数。为实现上述目的,本专利技术基于信息熵对PCA算法做了改进,其算法构成如下:1)Matrix=getMatrix(rdata)2)计算信息熵,做筛选3)分割数据矩阵[B,C]=randomSplit(Matrix)//B为训练集,C为检验集4)样本B矩阵中心化:即每一维度减去该维度的均值X=B–repmat(mean(B,2),1,m1)5)计算不同维度之间的协方差,构成协方差矩阵:C=(X*XT)/size(X,2)6)计算协方差矩阵的特征向 ...
【技术保护点】
信息熵可以度量信息量大小,高维数据降维是解决直接处理高维数据面临的四大难题的有效方法,对超高维数据进行分析计算,更要进行降维处理,一种基于信息熵的超高维数据降维算法由以下特征构成://Input(输入)需要降维的数据矩阵Un×m(或者非矩阵形式rdata),信息熵阈值et,特征值贡献率f//Output(输出)原始数据降维后的结果Yk×m/*getMatrix函数,将原始数据rdata转换为矩阵形式,记录含有的属性置为1,没有的属性为0,输出n×m的0、1矩阵,某些原始数据非矩阵形式的时候使用*/Matrix=getMatrix(rdata)/*getEntropy函数,计算属性αi的信息熵值*/H(i)=getEntropy(αi)/*randomSplit函数,将转换为矩阵的数据Matrix按比随机抽取相应的记录作为训练集,剩下的为检验集*/[B,C]=randomSplit(Matrix)/*eig函数,计算矩阵的特征值和特征向量*/[eigenVe,eigenVa]=eig(Cov)/*变量f,计算特征值贡献率,表征主成分占原始数据信息的比例*/。
【技术特征摘要】
1.信息熵可以度量信息量大小,高维数据降维是解决直接处理高维数据面临的四大难题的有效方法,对超高维数据进行分析计算,更要进行降维处理,一种基于信息熵的超高维数据降维算法由以下特征构成://Input(输入)需要降维的数据矩阵Un×m(或者非矩阵形式rdata),信息熵阈值et,特征值贡献率f//Output(输出)原始数据降维后的结果Yk×m/*getMatrix函数,将原始数据rdata转换为矩阵形式,记录含有的属性置为1,没有的属性为0,输出n×m的0、1矩阵,某些原始数据非矩阵形式的时候使用*/Matrix=getMatrix(rdata)/*getEntropy函数,计算属性αi的信息熵值*/H(i)=getEntropy(αi)/*randomSplit函数,将转换为矩阵的数据Matrix按比随机抽取相应的记录作为训练集,剩下的为检验集*/[B,C]=randomSplit(Matrix)/*eig函数,计算矩阵的特征值和特征向量*/[eigenVe,eigenVa]=eig(Cov)/*变量f,计算...
【专利技术属性】
技术研发人员:何兴高,李蝉娟,张效藩,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。