从高维非对称数据中提取分类信息的方法技术

技术编号：12258602 阅读：232 留言：0更新日期：2015-10-28 21:01

本发明专利技术涉及信号与图像处理领域，提供一种从高维非对称数据中提取分类信息的方法，以解决现有相关分类信息提取方法要么不适合样本不对称的数据，要么计算复杂高、处理高维数据时容易发生计算量溢出的问题，该方法包括：获取高维非对称数据；对Σo和Σc赋以新的权重，组成新的协方差矩阵Σα代替Σt进行特征分解，求解其特征值和特征向量；组合得到降维矩阵，将高维非对称数据通过降维矩阵进行投影得到降维后的分类信息。本发明专利技术提出的技术方案计算复杂度低、准确性高、运行速度快、稳定性好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信号与图像处理领域，特别涉及一种从高维非对称数据中提取分类信息的方法。
技术介绍
从两类样本数据中提取分类信息的方法具有十分重要的实际应用价值。例如，用被提取的分类信息来区分人脸和非人脸图像、区分疾病样本和非疾病样本以及鉴别有用信息和无用信息等。随着获取信息的技术和手段日益先进，需要分类的两类数据维度愈来愈庞大，再加上获取的两类样本数量通常不均衡，使得传统的两类样本分类方法受到较大限制。因此，迫切需要一种能够从高维、两类样本数不对称的大数据中提取分类信息的方法，以满足海量信息化社会各个领域发展的需要。主成分分析(principal component analysis，PCA)是一种目前最常用的非监督式多元统计分析方法，该方法主要是对数据集的协方差矩阵进行特征分析，在最小化重构误差的条件下分离出数据中的主要成分，作为分类信息。PCA具有简化数据能力强和实现难度较低的特点。然而，当PCA在面对不均衡样本的时候，虽然它能够在主成分空间中将重构信息最大化，但不能很好的保留有利于分类的信息，这会导致整个应用系统的分类性能下降。干扰PCA正确分类的元凶在于：当一类数据(称为阳性样本)的样本量小于另一类数据(称为阴性样本)的样本量时，阳性类条件协方差矩阵中小特征值对应的特征向量会发生严重偏移。为了改进PCA的缺陷，一种非对称PCA(Asymmetric Principal Component Analysis，简称为APCA)方法被提出。APCA重点剔除了干扰PCA正确分类的因素，对阳性类条件协方差矩阵和阴性类条件协方差...

【技术保护点】
一种从高维非对称数据中提取分类信息的方法，其特征在于包括如下步骤：步骤A：获取高维非对称数据，所述高维非对称数据由阳性样本和阴性样本组成，分析得到所述高维非对称数据的维度n、所述高维非对称数据的总样本数量q、所述阳性样本的样本数量qo、所述阴性样本的样本数量qc，设置待提取的分类信息的维数m；步骤B：计算高维非对称样本数据的均值向量M、阳性类样本的均值向量Mo、阴性类样本的均值向量Mc，分别中心化阳性样本和阴性样本得到中心化后的阳性样本集合矩阵So、中心化后的阴性样本集合矩阵Sc；步骤C：分别构建矩阵Xo、矩阵Xc、矩阵Xmo、矩阵Xmc，其中αo＝qc/q、Xc=αc/qcSc,]]>αc＝qo/q、Xmo=αc(Mo-M),Xmc=αoMc-M;]]>步骤D：计算矩阵XoTXo的非零特征值和对应的特征向量矩阵XcTXc的非零特征值和对应的特征向量XmoTXmo的特征值λmo和对应的特征向量umo、矩阵XmcTXmc的特征值λmc和对应的特征向量umc；步骤E：根据步骤D中得到的特征向量拼凑出对角化矩阵U和对角阵Λ，并构建矩阵其中U=[uo(1),...

【技术特征摘要】
1.一种从高维非对称数据中提取分类信息的方法，其特征在于包括如下步
骤：
步骤A：获取高维非对称数据，所述高维非对称数据由阳性样本和阴性样
本组成，分析得到所述高维非对称数据的维度n、所述高维非对称数据的总样本
数量q、所述阳性样本的样本数量qo、所述阴性样本的样本数量qc，设置待提
取的分类信息的维数m；
步骤B：计算高维非对称样本数据的均值向量M、阳性类样本的均值向量
Mo、阴性类样本的均值向量Mc，分别中心化阳性样本和阴性样本得到中心化
后的阳性样本集合矩阵So、中心化后的阴性样本集合矩阵Sc；
步骤C：分别构建矩阵Xo、矩阵Xc、矩阵Xmo、矩阵Xmc，其中αo＝qc/q、Xc=αc/qcSc,]]>αc＝qo/q、Xmo=αc(Mo-M),Xmc=αoMc-M;]]>步骤D：计算矩阵XoT...

【专利技术属性】
技术研发人员：刘丁赟，饶妮妮，刘汉明，郑洁，黎桑，曾伟，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人