【技术实现步骤摘要】
本专利技术涉及信号与图像处理领域,特别涉及一种从高维非对称数据中提取分类信息的方法。
技术介绍
从两类样本数据中提取分类信息的方法具有十分重要的实际应用价值。例如,用被提取的分类信息来区分人脸和非人脸图像、区分疾病样本和非疾病样本以及鉴别有用信息和无用信息等。随着获取信息的技术和手段日益先进,需要分类的两类数据维度愈来愈庞大,再加上获取的两类样本数量通常不均衡,使得传统的两类样本分类方法受到较大限制。因此,迫切需要一种能够从高维、两类样本数不对称的大数据中提取分类信息的方法,以满足海量信息化社会各个领域发展的需要。主成分分析(principal component analysis,PCA)是一种目前最常用的非监督式多元统计分析方法,该方法主要是对数据集的协方差矩阵进行特征分析,在最小化重构误差的条件下分离出数据中的主要成分,作为分类信息。PCA具有简化数据能力强和实现难度较低的特点。然而,当PCA在面对不均衡样本的时候,虽然它能够在主成分空间中将重构信息最大化,但不能很好的保留有利于分类的信息,这会导致整个应用系统的分类性能下降。干扰PCA正确分类的元凶在于:当一类数据(称为阳性样本)的样本量小于另一类数据(称为阴性样本)的样本量时,阳性类条件协方差矩阵中小特征值对应的特征向量会发生严重偏移。为了改进PCA的缺陷,一种非对称PCA(Asymmetric Principal Component Analysis,简称为APCA)方法被提出。APCA重点剔除了干扰PCA正确分类的因素,对阳性类条件协方差矩阵和阴性类条件协方差 ...
【技术保护点】
一种从高维非对称数据中提取分类信息的方法,其特征在于包括如下步骤:步骤A:获取高维非对称数据,所述高维非对称数据由阳性样本和阴性样本组成,分析得到所述高维非对称数据的维度n、所述高维非对称数据的总样本数量q、所述阳性样本的样本数量qo、所述阴性样本的样本数量qc,设置待提取的分类信息的维数m;步骤B:计算高维非对称样本数据的均值向量M、阳性类样本的均值向量Mo、阴性类样本的均值向量Mc,分别中心化阳性样本和阴性样本得到中心化后的阳性样本集合矩阵So、中心化后的阴性样本集合矩阵Sc;步骤C:分别构建矩阵Xo、矩阵Xc、矩阵Xmo、矩阵Xmc,其中αo=qc/q、Xc=αc/qcSc,]]>αc=qo/q、Xmo=αc(Mo-M),Xmc=αoMc-M;]]>步骤D:计算矩阵XoTXo的非零特征值和对应的特征向量矩阵XcTXc的非零特征值和对应的特征向量XmoTXmo的特征值λmo和对应的特征向量umo、矩阵XmcTXmc的特征值λmc和对应的特征向量umc;步骤E:根据步骤D中得到的特征向量拼凑出对角化矩阵U和对角阵Λ,并构建矩阵其中U=[uo(1), ...
【技术特征摘要】
1.一种从高维非对称数据中提取分类信息的方法,其特征在于包括如下步
骤:
步骤A:获取高维非对称数据,所述高维非对称数据由阳性样本和阴性样
本组成,分析得到所述高维非对称数据的维度n、所述高维非对称数据的总样本
数量q、所述阳性样本的样本数量qo、所述阴性样本的样本数量qc,设置待提
取的分类信息的维数m;
步骤B:计算高维非对称样本数据的均值向量M、阳性类样本的均值向量
Mo、阴性类样本的均值向量Mc,分别中心化阳性样本和阴性样本得到中心化
后的阳性样本集合矩阵So、中心化后的阴性样本集合矩阵Sc;
步骤C:分别构建矩阵Xo、矩阵Xc、矩阵Xmo、矩阵Xmc,其中αo=qc/q、Xc=αc/qcSc,]]>αc=qo/q、Xmo=αc(Mo-M),Xmc=αoMc-M;]]>步骤D:计算矩阵XoT...
【专利技术属性】
技术研发人员:刘丁赟,饶妮妮,刘汉明,郑洁,黎桑,曾伟,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。