【技术实现步骤摘要】
基于深度子空间自表达的多标签分类方法
本专利技术属于数据挖掘与模式识别
,涉及一种基于深度子空间自表达的多标签分类方法。
技术介绍
随着互联网与存储技术的不断提高,数据的收集与呈现形式更加便捷与丰富。传统的二值分类,即将数据与互不相交的标签集合中的一个标签元素相对应的分类方式无法有效表达现实中的许多问题。例如例如一位患者可能患有多种疾病,一篇新闻报道可能涉及多个领域,一位用户可能购买多种商品等。这种同时具有多重语义的分类问题为多标签分类问题。多标签分类已成功应用于多媒体内容的自动标注、关联规则挖掘、信息检索、标签推荐、推荐系统等领域。多标签分类概念自提出以来,一直是国内外的研究热点。Wright等人提出基于稀疏表示的分类(ClassificationBasedonSparseRepresentation,SRC)算法(文献1:WrightJ,YangAY,GaneshA,etal.Robustfacerecognitionviasparserepresentation[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2008,31(2):210-227.),将稀疏表示理论应用到分类中。由于超完备字典能用尽可能稀疏的方式表示数据,并且冗余系统对噪声与误差的容忍更为稳健,因而算法取得较为显著的效果。由于基于稀疏表示的分类算法取得较为显著的效果,学者们将其改编为一系列基于稀疏表示的多标签分类算法。这一系列的算法通过计算测试样本与所有训练 ...
【技术保护点】
1.基于深度子空间自表达的多标签分类方法,其特征在于,具体按照如下步骤实施:/n步骤1,预训练自动编码器神经网络/n读取多标签数据并进行预处理,使用深度自动编码器神经网络,以数据重构为目标,以经预处理的多标签数据作为输入数据,对输入数据进行训练获得网络参数的初始值;/n步骤2,训练深度子空间自表达神经网络/n构建深度子空间自表达神经网络,以步骤1预训练的结果权值作为初始值赋值于深度子空间自表达神经网络,以数据重构误差、线性层的权值稀疏度以及稀疏表示的重构误差最小化为目标进行训练,训练深度子空间自表达神经网络;/n步骤3,将经步骤2训练好的深度子空间自表达神经网络中的第三层自表达层参数取出,获得数据间相似关系的实数值表示;/n步骤4,构建深层全连接分类网络,利用数据的相似关系与训练数据的二值标签构建数据的实数值预测标签,并以此实数值标签为输入,真实的二值标签为输出,训练深层全连接分类网络,直到达到终止条件。/n
【技术特征摘要】
1.基于深度子空间自表达的多标签分类方法,其特征在于,具体按照如下步骤实施:
步骤1,预训练自动编码器神经网络
读取多标签数据并进行预处理,使用深度自动编码器神经网络,以数据重构为目标,以经预处理的多标签数据作为输入数据,对输入数据进行训练获得网络参数的初始值;
步骤2,训练深度子空间自表达神经网络
构建深度子空间自表达神经网络,以步骤1预训练的结果权值作为初始值赋值于深度子空间自表达神经网络,以数据重构误差、线性层的权值稀疏度以及稀疏表示的重构误差最小化为目标进行训练,训练深度子空间自表达神经网络;
步骤3,将经步骤2训练好的深度子空间自表达神经网络中的第三层自表达层参数取出,获得数据间相似关系的实数值表示;
步骤4,构建深层全连接分类网络,利用数据的相似关系与训练数据的二值标签构建数据的实数值预测标签,并以此实数值标签为输入,真实的二值标签为输出,训练深层全连接分类网络,直到达到终止条件。
2.根据权利要求1所述的基于深度子空间自表达的多标签分类方法,其特征在于,所述步骤1中读取多标签数据并进行预处理具体为:
忽视数据标签仅读取数据特征,将缺失特征的数据剔除,然后对多标签数据进行归一化处理,以进行归一化处理的多标签数据作为输入数据,即就是训练数据,用X=[x1,x2,...,xm]表示经归一化处理的多标签数据的集合,Y={l1,l2,...,lq}表示由q个标签组成的标签空间,S={(xi,yi)|1≤i≤m}表示训练数据集合,其中,xi∈X为数据特征向量,为数据xi的标签集合,X=RD表示D维特征空间。
3.根据权利要求2所述的基于深度子空间自表达的多标签分类方法,其特征在于,所述步骤1中的深度自动编码器神经网络为具有输入结点数、输出结点数与训练数据特征维数相同的网络结构,所述深度自动编码器神经网络具有四个全连接层,目标函数为最小化重构误差,即其中,X表示输入数据,表示输出数据,||.||F表示Frobenius范数。
4.根据权利要求3所述的基于深度子空间自表达的多标签分类方法,其特征在于,所述预训练深度自动编码器神经网络的步骤为:
将训练数据的数据特征输入至未经训练的深度自动编码器神经网络中,然后以最小数据重构误差为目标,在GPU上进行训练,采用随机梯度下降方法进行求解,待训练达到终止条件后,保存深度自动编码器神经网络的权值。
5.根据权利要求4所述的基于深度子空间自表达的多标签分类方法,其特征在于,所述深度子空间自表达神经网络的结构为:前两层为全连接层,第三层为自表达层,第三层中的响应函数为线性函数;第四、五层为全连接层。
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。