当前位置: 首页 > 专利查询>东华大学专利>正文

一种标签缺失情况下的低秩投影特征提取方法技术

技术编号:24458622 阅读:24 留言:0更新日期:2020-06-10 16:18
本发明专利技术公开了一种标签缺失情况下的低秩投影特征提取方法,所提方法逐一对样本数据和标签进行检测,获得当前样本和对应的标签。若当前样本标签属于正常范围,则继续检测下一个样本,若当前样本标签为缺失时,则计算每个样本在原始空间中距离该样本的欧氏距离,通过k近邻原则求得可能性最大的标签,并把对应于该样本的标签写入原始数据集中。在标签补偿后,构造最近邻图矩阵,通过PCA算法学习投影矩阵,并将投影矩阵应用到测试集上,用分类器执行归类。所提方法能够自适应地为各种归类模型提供更准确合理的训练数据,以帮助分类器生成更好的归类模型,提高图像分类的准确度和鲁棒性。

A low rank projection feature extraction method in case of label missing

【技术实现步骤摘要】
一种标签缺失情况下的低秩投影特征提取方法
本专利技术涉及一种标签缺失情况下的低秩投影特征提取方法,特别是通过恢复标签来确保低秩投影特征提取的方法,属于机器视觉与模式识别领域。
技术介绍
图像分类常常需要对高维数据进行降维和特征提取以满足归类器的需要,而降维会引起信息丢失和能量降低的问题,典型的主元分析(PrincipalComponentAnalysis,PCA)算法是一种无监督分类投影学习算法,旨在从训练数据中学习一个最优的低秩投影矩阵,把学到的投影矩阵作用到训练集和测试集上,可以同时对训练集和测试集起到降维和提取特征的目的。利用PCA算法获得的投影矩阵可以在有效降维的同时保留绝大部分的能量,以提高特征提取的计算速度。而在学习投影矩阵中保持全局和局部结构对特征提取非常重要。低秩表示可以获取数据的全局结构性信息,能纠正误差并将所有样本分配到对应的子空间中,除此之外,低秩表示对噪声干扰更加鲁棒,可以区分噪声和有用信息。投影学习的最近邻图正则化因其在揭示数据的局部几何结构的优越性,被广泛应用于模式识别和机器视觉领域,使用该方法可以揭示样本数据的局部结构信息。k近邻准则通过某种距离度量找到样本周围最近的k个邻居,根据类别标签的多数原则,作为预测结果来确定样本所属标签。在图像分类领域,为了学习一个分类模型,往往需要对一个数据集分成训练集和测试集,分别用来学得模型和判断模型的优劣。因此除了样本本身的实际值数据以外,样本标签数据在产生归类模型的时候也是十分重要的。对于数据集而言,难免会出现少数样本标签缺失的情况。PCA算法在学习投影矩阵时,训练集是随机选择的,如果训练集中选取的样本出现标签缺失的情况,则会影响学习到的投影矩阵效果,并进而影响分类的准确性。
技术实现思路
本专利技术要解决的技术问题是如何为标签缺失的样本找到准确的标签,提高分类准确度。为了解决上述技术问题,本专利技术的技术方案是提供了一种标签缺失情况下的低秩投影特征提取方法,对于样本容量为M、样本类别数为N的原始数据集,i表示当前第i个样本(0<i≤M)的序号,xi∈Rm×n表示第i个图像样本的数据矩阵,原始数据集X={x1,…,xi,…,xM},初始化i=1,所提方法包括以下六个步骤:步骤一、预处理缺失的标签,读取第i个样本数据和标签,判断第i个样本的标签:若标签是正常值,则i=i+1,此时当i>M,跳到步骤四,否则继续步骤一;若标签缺失,则跳转步骤二;步骤二、第i样本在原始空间中的点为xi,计算出xi点与其它样本点的欧氏距离表示xi中第l个m维向量;将求得的欧氏距离按从小到大的顺序进行排序,选取前k个欧氏距离,记为:Di,1、Di,2、…、Di,j、…、Di,k,(1≤j≤k);步骤三、利用获得的欧氏距离Di,j,分别求出前k个距离权重根据前k个距离权重所对应样本点的可用原始标签,将标签相同的样本对应的距离权重相加,得到每一类标签的权值和,找到最大权值和对应的标签,将该标签数据写入第i个样本的标签位置,令i=i+1,若i≤M,则跳转到步骤一继续执行;否则执行步骤四;步骤四、在N类样本中每类样本随机选取β%作为训练样本,其余作为测试样本,并对数据进行归一化操作;步骤五、利用PCA算法求出训练集归一化后各个数据矩阵的特征向量矩阵,降维维度设置为d;之后再对训练集的所有数据矩阵施加邻图约束,获得最近邻图矩阵W,并生成低秩投影矩阵Q;步骤六、对测试集利用Q进行低秩投影,获得各个样本的特征数据,利用分类器进行归类。本专利技术优点在于本专利技术针对缺失标签的训练数据,为训练集中标签缺失的样本设计了一种恢复标签的方法,可提高获得的低秩投影矩阵的有效性。所提方法引入k近邻的思想,利用距离权重最大选取合适标签来恢复数据集中个别样本所缺失的标签,从而在执行PCA算法时,通过确保训练集样本数据的准确可靠,帮助分类器获得更优的归类模型。附图说明图1为本专利技术所提方法的主流程图;图2为样本标签恢复的步骤图。具体实施方式为使本专利技术更明显易懂,兹以优选实施例,并配合附图作详细说明如下。实施例对于样本容量为M、样本类别数为N的原始数据集,i表示当前第i个样本(0<i≤M)的序号,初始化i=1,xi∈Rm×n表示第i个图像样本的数据矩阵,原始数据集X={x1,…,xi,…,xM};对于原始数据集X,图1给出了标签缺失情况下的低秩投影特征提取方法的总体流程。所提方法先检测所有样本标签是否存在,若标签缺失则利用如图2所示的步骤进行标签恢复;所提方法利用k近邻原则为标签缺失的样本寻找合适的标签,通过寻找与该样本最接近的k个样本,利用欧氏距离作为中间变量,求取距离权重最大的标签,以此来恢复样本所缺失的标签。之后再随机对每一类样本选取β%作为训练集,其余样本作为测试集,将两个数据集的数据归一化以减小计算量。对归一化后的训练数据执行PCA操作,获取各个样本的特征向量矩阵Pi;对数据矩阵xi施加近邻图约束,获取最近邻图矩阵W,最后把xi、Pi、W作为输入,求出训练集的低秩投影矩阵Q。具体可分为以下六个步骤:步骤一、预处理缺失的标签。图2是样本标签恢复的步骤图,读取第i个样本的数据和标签,检查对应的标签是否正常。若标签是正常值,则i=i+1,此时当i>M,跳到步骤四,否则继续步骤一;若标签缺失,则跳转步骤二。步骤二、第i个样本在原始空间中的点为xi,计算出xi点与其它样本点的欧氏距离,将求得的距离按从小到大的顺序进行排序,选取前k个数据,记为:Di,1、Di,2、…、Di,j、…、Di,k,表示xi中第l个m维向量(1≤j≤k),其中欧氏距离的求取公式为:步骤三、利用获得的距离Di,j,分别求出前k个距离权重ωi,j,由于距离的远近程度代表了样本的相似度,欧氏距离越近,对应的标签信息就越接近,因此距离权重ωi,j的计算原则是欧氏距离越小则权重越大,具体的距离权重计算公式为:根据前k个距离权重所对应样本点的可用原始标签,将标签相同的样本对应的权值相加。参数k一般选取较小的值,可用交叉验证法来选取最优的k,本实例中k=5。将属于同类标签的距离权重相加,得到每一类标签的权值和,比较所得的权值和,找到最大的权值和所对应的标签,将该标签数据写入第i个样本的标签位置。令i=i+1,若i≤M,则跳转到步骤一继续执行,若i>M,则执行步骤四。步骤四、随机选取训练集和测试集,并归一化数据。在N类样本中每类样本随机选取β%作为训练样本,其余作为测试样本,并对数据进行归一化操作。步骤五、对训练集执行PCA操作,获取各个样本的特征向量矩阵。PCA算法是一种无监督分类投影学习方法,在保持数据结构的时候无需引入额外的正则化参数。所提方法利用PCA算法求出归一化后的训练集各个样本的特征向量矩阵,本实例的降维维度设置为d=140,从而获得140维的特征向量矩阵。之后,再对训练集施加邻图约束,获得最近邻图矩阵W。利用训练集的特征向量矩阵、最近邻图矩本文档来自技高网
...

【技术保护点】
1.一种标签缺失情况下的低秩投影特征提取方法,对于样本容量为M、样本类别数为N的原始数据集,i表示当前第i个样本(0<i≤M)的序号,x

【技术特征摘要】
1.一种标签缺失情况下的低秩投影特征提取方法,对于样本容量为M、样本类别数为N的原始数据集,i表示当前第i个样本(0<i≤M)的序号,xi∈Rm×n表示第i个图像样本的数据矩阵,原始数据集X={x1,...,xi,...,xM},初始化i=1,所提方法包括以下六个步骤:
步骤一、预处理缺失的标签,读取第i个样本数据和标签,判断第i个样本的标签:若标签是正常值,则i=i+1,此时当i>M,跳到步骤四,否则继续步骤一;若标签缺失,则跳转步骤二;
步骤二、第i样本在原始空间中的点为xi,计算出xi点与其它样本点的欧氏距离表示xi中第l个m维向量;将求得的欧氏距离按从小到大的顺序进行排序,选取前k个欧氏距离,记为:Di,1、Di,2、…、Di,j、…、Di,k,(1≤...

【专利技术属性】
技术研发人员:沈港刘浩王凯巡时庭庭应晓清魏国林黄震廖荣生周健魏冬田伟
申请(专利权)人:东华大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1