基于深度子空间自表达的多标签分类方法技术

技术编号:26172865 阅读:34 留言:0更新日期:2020-10-31 13:52
本发明专利技术公开了一种基于深度子空间自表达的多标签分类方法,具体为:首先利用深度子空间神经网络结构表示数据间的相似程度,接着利用数据相似性与训练数据的标签集合构建数据的实数值标签预测值,最后利用深度分类网络实现多标签数据的分类。本发明专利技术的基于深度子空间自表达的多标签分类方法,利用数据间的相似程度构建数据的实数值标签,再利用深度神经网络可自动对无标注的多标签数据进行标注,提高了多标签数据分类的精度与效果。

【技术实现步骤摘要】
基于深度子空间自表达的多标签分类方法
本专利技术属于数据挖掘与模式识别
,涉及一种基于深度子空间自表达的多标签分类方法。
技术介绍
随着互联网与存储技术的不断提高,数据的收集与呈现形式更加便捷与丰富。传统的二值分类,即将数据与互不相交的标签集合中的一个标签元素相对应的分类方式无法有效表达现实中的许多问题。例如例如一位患者可能患有多种疾病,一篇新闻报道可能涉及多个领域,一位用户可能购买多种商品等。这种同时具有多重语义的分类问题为多标签分类问题。多标签分类已成功应用于多媒体内容的自动标注、关联规则挖掘、信息检索、标签推荐、推荐系统等领域。多标签分类概念自提出以来,一直是国内外的研究热点。Wright等人提出基于稀疏表示的分类(ClassificationBasedonSparseRepresentation,SRC)算法(文献1:WrightJ,YangAY,GaneshA,etal.Robustfacerecognitionviasparserepresentation[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2008,31(2):210-227.),将稀疏表示理论应用到分类中。由于超完备字典能用尽可能稀疏的方式表示数据,并且冗余系统对噪声与误差的容忍更为稳健,因而算法取得较为显著的效果。由于基于稀疏表示的分类算法取得较为显著的效果,学者们将其改编为一系列基于稀疏表示的多标签分类算法。这一系列的算法通过计算测试样本与所有训练样本之间的重构关系,获得每一个训练样本对应的系数,这些系数构成对测试数据的表示。这样的处理过程,可充分考虑测试样本的全局信息,但并没有考虑样本的局部信息。此外,这一类方法未能考虑标签之间的关联。张敏灵等人将K近邻与最大后验概率原理结合,提出基于K近邻的多标签分类算法(Multi-labelKNearestNeighbor,ML-KNN)(文献2:ZhangML,ZhouZH.ML-KNN:Alazylearningapproachtomulti-labellearning[J].PatternRecognition,2007,40(7):2038-2048.)。后续又涌现一系列针对该算法没有考虑标签相关性、类别不一致、类别不平衡等问题提出的改进算法和将KNN与其它算法或理论相结合的算法。虽然基于局部的多标签分类系列算法在实际应用中取得较好的分类效果,但存在着只考虑测试数据的局部信息,未能考虑测试数据的全局信息、对噪声和K值比较敏感、未能利用标签间的高阶关联等缺点。
技术实现思路
本专利技术的目的是提供一种基于深度子空间自表达的多标签分类方法,利用数据间的相似程度构建数据的实数值标签,再利用深度神经网络可自动对无标注的多标签数据进行标注,提高了多标签数据分类的精度与效果。本专利技术所采用的技术方案是,基于深度子空间自表达的多标签分类方法,具体按照如下步骤实施:步骤1,预训练自动编码器神经网络读取多标签数据并进行预处理,使用深度自动编码器神经网络,以数据重构为目标,以经预处理的多标签数据作为输入数据,对输入数据进行训练获得网络参数的初始值;步骤2,训练深度子空间自表达神经网络构建深度子空间自表达神经网络,以步骤1预训练的结果权值作为初始值赋值于深度子空间自表达神经网络,以数据重构误差、线性层的权值稀疏度以及稀疏表示的重构误差最小化为目标进行训练,训练深度子空间自表达神经网络;步骤3,将经步骤2训练好的深度子空间自表达神经网络中的第三层自表达层参数取出,获得数据间相似关系的实数值表示;步骤4,构建深层全连接分类网络,利用数据的相似关系与训练数据的二值标签构建数据的实数值预测标签,并以此实数值标签为输入,真实的二值标签为输出,训练深层全连接分类网络,直到达到终止条件。本专利技术的特征还在于,步骤1中读取多标签数据并进行预处理具体为:忽视数据标签仅读取数据特征,将缺失特征的数据剔除,然后对多标签数据进行归一化处理,以进行归一化处理的多标签数据作为输入数据,即就是训练数据,用X=[x1,x2,...,xm]表示经归一化处理的多标签数据的集合,Y={l1,l2,...,lq}表示由q个标签组成的标签空间,S={(xi,yi)|1≤i≤m}表示训练数据集合,其中,xi∈X为数据特征向量,为数据xi的标签集合,X=RD表示D维特征空间。步骤1中的深度自动编码器神经网络为具有输入结点数、输出结点数与训练数据特征维数相同的网络结构,深度自动编码器神经网络具有四个全连接层,目标函数为最小化重构误差,即其中,X表示输入数据,表示输出数据,||.||F表示Frobenius范数。预训练深度自动编码器神经网络的步骤为:将训练数据的数据特征输入至未经训练的深度自动编码器神经网络中,然后以最小数据重构误差为目标,在GPU上进行训练,采用随机梯度下降方法进行求解,待训练达到终止条件后,保存深度自动编码器神经网络的权值。深度子空间自表达神经网络的结构为:前两层为全连接层,第三层为自表达层,第三层中的响应函数为线性函数;第四、五层为全连接层。深度子空间自表达网络的训练过程为:深度子空间自表达神经网络的第一、二、四、五层的网络参数初始化为步骤1保存的深度自动编码器神经网络的权值,随机赋值给第三层,以如下目标进行训练:s.t.diag(ΘS)=0.求解上述公式获得通过学习得到的网络参数的最优值,其中,表示通过深度子空间自表达神经网络后的重构数据,表示网络参数,包含编码参数Θe、自表达层参数ΘS,X表示输入数据,表示输入数据X经过神经网络的编码层后的输出数据,||.||F表示Frobenius范数,diag(·)表示取矩阵的主对角线元素操作,λ1与λ2为平衡参数。步骤3中将训练好的深度子空间自表达神经网络中的第三层自表达层参数取出,获得数据间相似关系的实数值表示具体为:通过步骤2训练完成的深度子空间自表达神经网络所有参数的值后,读取网络自表达层,即第三层的参数ΘS,ΘS为矩阵,其中,第三层中结点i与结点j之间连接的权值表示为ΘSij,即就是矩阵ΘS中第i行、第j列的元素值,数据间的相似关系采用矩阵W表示,数据i与数据j之间的相似度,即就是数据i与数据j的相似关系的实数值用矩阵W的第i行、第j列的元素值表示,矩阵W的通过ΘS计算获得,即将W矩阵中的第i行,第j列的元素值赋值为其中|·|表示绝对值函数,ΘSji为第三层中结点j与结点i之间连接的权值。步骤4中利用数据的相似关系与训练数据的二值标签构建数据的实数值预测标签,具体为利用如下公式计算实数值预测标签ri:其中,wij为表示数据i与数据j相似关系的相似度,yi为训练数据xi的二值标签,ri为xi的实数值预测标签。深层全连接分类网络的结构为:网络共五层,包括依次相连的输入层、三层中间层、输出层,输入层的结点数与输出层的结点个本文档来自技高网
...

【技术保护点】
1.基于深度子空间自表达的多标签分类方法,其特征在于,具体按照如下步骤实施:/n步骤1,预训练自动编码器神经网络/n读取多标签数据并进行预处理,使用深度自动编码器神经网络,以数据重构为目标,以经预处理的多标签数据作为输入数据,对输入数据进行训练获得网络参数的初始值;/n步骤2,训练深度子空间自表达神经网络/n构建深度子空间自表达神经网络,以步骤1预训练的结果权值作为初始值赋值于深度子空间自表达神经网络,以数据重构误差、线性层的权值稀疏度以及稀疏表示的重构误差最小化为目标进行训练,训练深度子空间自表达神经网络;/n步骤3,将经步骤2训练好的深度子空间自表达神经网络中的第三层自表达层参数取出,获得数据间相似关系的实数值表示;/n步骤4,构建深层全连接分类网络,利用数据的相似关系与训练数据的二值标签构建数据的实数值预测标签,并以此实数值标签为输入,真实的二值标签为输出,训练深层全连接分类网络,直到达到终止条件。/n

【技术特征摘要】
1.基于深度子空间自表达的多标签分类方法,其特征在于,具体按照如下步骤实施:
步骤1,预训练自动编码器神经网络
读取多标签数据并进行预处理,使用深度自动编码器神经网络,以数据重构为目标,以经预处理的多标签数据作为输入数据,对输入数据进行训练获得网络参数的初始值;
步骤2,训练深度子空间自表达神经网络
构建深度子空间自表达神经网络,以步骤1预训练的结果权值作为初始值赋值于深度子空间自表达神经网络,以数据重构误差、线性层的权值稀疏度以及稀疏表示的重构误差最小化为目标进行训练,训练深度子空间自表达神经网络;
步骤3,将经步骤2训练好的深度子空间自表达神经网络中的第三层自表达层参数取出,获得数据间相似关系的实数值表示;
步骤4,构建深层全连接分类网络,利用数据的相似关系与训练数据的二值标签构建数据的实数值预测标签,并以此实数值标签为输入,真实的二值标签为输出,训练深层全连接分类网络,直到达到终止条件。


2.根据权利要求1所述的基于深度子空间自表达的多标签分类方法,其特征在于,所述步骤1中读取多标签数据并进行预处理具体为:
忽视数据标签仅读取数据特征,将缺失特征的数据剔除,然后对多标签数据进行归一化处理,以进行归一化处理的多标签数据作为输入数据,即就是训练数据,用X=[x1,x2,...,xm]表示经归一化处理的多标签数据的集合,Y={l1,l2,...,lq}表示由q个标签组成的标签空间,S={(xi,yi)|1≤i≤m}表示训练数据集合,其中,xi∈X为数据特征向量,为数据xi的标签集合,X=RD表示D维特征空间。


3.根据权利要求2所述的基于深度子空间自表达的多标签分类方法,其特征在于,所述步骤1中的深度自动编码器神经网络为具有输入结点数、输出结点数与训练数据特征维数相同的网络结构,所述深度自动编码器神经网络具有四个全连接层,目标函数为最小化重构误差,即其中,X表示输入数据,表示输出数据,||.||F表示Frobenius范数。


4.根据权利要求3所述的基于深度子空间自表达的多标签分类方法,其特征在于,所述预训练深度自动编码器神经网络的步骤为:
将训练数据的数据特征输入至未经训练的深度自动编码器神经网络中,然后以最小数据重构误差为目标,在GPU上进行训练,采用随机梯度下降方法进行求解,待训练达到终止条件后,保存深度自动编码器神经网络的权值。


5.根据权利要求4所述的基于深度子空间自表达的多标签分类方法,其特征在于,所述深度子空间自表达神经网络的结构为:前两层为全连接层,第三层为自表达层,第三层中的响应函数为线性函数;第四、五层为全连接层。

【专利技术属性】
技术研发人员:杨博
申请(专利权)人:西安工程大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1