一种基于视角类属特征学习的多视角多标记分类方法技术

技术编号:21606912 阅读:41 留言:0更新日期:2019-07-13 18:41
本发明专利技术涉及机器学习领域的多标记学习技术,涉及一种基于视角类属特征学习的多视角多标记分类方法,包括:S1、获取训练数据,建立类别标记矩阵;S2、构建类别标记后各视角特征数据映射到类别标记矩阵的线性模型;S3、在线性模型基础上,建立各视角特征贡献度模型;S4、采用正则项约束视角特征贡献度模型,使每个视角特征数据在预测结果上具有一致性;S5、采用流行正则约束相关类别标记对应的模型系数的相似性;S6、标记预测,给定一个测试样本t,将测试样本t带入步骤S1‑S5中得融合预测值。本申请的技术方案实现有效利用多源信息,学习每个视角中不同特征对类别标记的判别性能,更好的进行多标记学习任务。

A Multi-view and Multi-label Classification Method Based on View Generic Feature Learning

【技术实现步骤摘要】
一种基于视角类属特征学习的多视角多标记分类方法
本专利技术涉及机器学习领域的多标记学习技术,涉及针对多视角多标记学习中的视角类属特征学习及分类技术,特别涉及一种基于视角类属特征学习的多视角多标记分类方法。
技术介绍
在大数据环境下,数据的语义和知识往往通过多种模态或视角的内容信息进行表达,并且每个数据样本可能同时属于多个语义标记。例如,在文本分类任务中,一个文档可能包含文本、图像、视频和超链接等多种数据类型,并且同时包含多个语义主题,如“机器学习”、“数据挖掘”和“多标记学习”等。多视角多标记学习是数据挖掘和机器学习领域的重要研究方向。对于多视角多标记学习任务,充分利用多视角数据的互补性和一致性,挖掘各个视角数据表示的判别能力,提出有效的融合和表示机制,提升多视角多标记学习模型的鲁棒性和准确性极为重要。目前多视角多标记学习研究主要分为前端融合和后端融合。前端融合或是将多视角数据表示融合为一个数据表示,然后再建立分类器,如通过矩阵分解,将多视角数据都映射到同一个子空间表示,并约束子空间表示正交和低秩,最后通过矩阵填充的方式对未标记数据进行预测。但该方法中子空间表示学习独立于预测过程,没有有效用到标记信息。或是将所有视角的特征拼接在一起构成一个特征表示进行分类器学习,此过程中通过对分类器系数做L2,1范数约束来选择特征,同时通过对每个视角的系数进行F范数约束来优化各个视角的重要性。但该方法选择的特征将被所有标记所共享,没有考虑每个视角中单个特征对类别的判别力。或是利用每个多视角数据的结构信息以及类别标记的语义结构信息学习一个子空间表示,并且将子空间表示学习和SVM支持向量机分类器训练这两步同时进行优化。保存多个视角数据的结构信息和语义结构信息,但这种方式空间复杂度较高,不适用于大规模数据。或是通过非负矩阵分解将多视角数据映射到同一个子空间表示,然后再构建一个线性分类器。该方法没有考虑单个视角特征数据的贡献度。或是首先对每个视角数据构建一个k近邻图,然后通过一个线性组合将所有视角上的k近邻图融合成一个新的k近邻图,最后将这个融合后的k近邻图作为所有数据的特征表示,并在此基础上学习一个线性分类器。保存多个视角数据的k近邻结构信息信息,空间复杂度较高,不适用于大规模数据。后端融合主要是先对每个视角数据学习一个模型,然后再讲多个模型得到的预测结果进行融合,如一种直推式多视角多标记学习方法,将训练样本的交集信息传播给未标记样本,对每个视角建立k近邻图,约束相似样本具有相似标记。该算法复杂度为样本个数的5次方,很难应用于大规模多视角多标记数据。又如通过Boosting(提升)和Bagging(装袋)的策略,对每个视角数据学习若干个SVM支持向量机分类器,最终融合所有视角上所有分类器的结果来进行预测。也有在训练阶段,对每个视角数据学习一个SVM分类器,然后通过SVM对训练样本进行预测,根据训练样本的预测结果以及它的近邻样本的标记信息,综合学习出每个视角的融合权值。在测试阶段,将每个SVM分类器的预测结果以及测试样本的近邻样本的标记信息,根据融合权重得到最终预测标记。后两种方法虽然考虑了单个视角特征数据的贡献度,但是没有考虑单个视角数据中每个特征对类别标记的贡献度。综上所述,多标记数据由多个视角或模态的信息表达,维度通常较高,各个视角数据的物理意义和统计特性不同,每个视角的数据表示具有不同的判别能力,并且单个视角数据的不同特征对每个类别的判别力也不同。现有方法虽然考虑了单个视角特征数据的贡献度,但是由于多视角数据中存在噪声和冗余特征等,可能导致直接学习到的视角贡献度权重不准确。并且现有方法都没有考虑单个视角数据中每个特征对类别标记的贡献度。因此,如何有效利用多源信息,学习每个视角中不同特征对类别标记的判别性能,更好的进行多标记学习任务极为关键。
技术实现思路
本专利技术提供一种基于视角类属特征学习的多视角多标记分类方法,实现有效利用多源信息,学习每个视角中不同特征对类别标记的判别性能,更好的进行多标记学习任务。为实现上述技术目的,本申请采用的技术方案为,一种基于视角类属特征学习的多视角多标记分类方法,包括如下步骤:S1、获取训练数据,并将训练数据进行类别标记,建立类别标记矩阵;S2、构建类别标记后各视角特征数据映射到类别标记矩阵的线性模型,以作为分类器;S3、在线性模型基础上,根据视角特征数据的贡献度,建立各视角特征贡献度模型;S4、采用正则项约束视角特征贡献度模型,使每个视角特征数据在预测结果上具有一致性;S5、利用类别标记间的相关性对线性模型的模型系数的影响:如果两个类别标记相关性较强,则它们对应的模型系数会很接近,反之则越不相似;采用流行正则约束相关类别标记对应的模型系数的相似性;S6、标记预测,给定一个测试样本t,将测试样本t带入步骤S1-S5中得融合预测值。作为本专利技术改进的技术方案,获取训练数据包括设定训练数据有m种特征表示m为任意正整数,第v种视角特征表示为一个实数矩阵Xv,其中,n表示样本个数,dv表示特征个数,表示实数域。作为本专利技术改进的技术方案,将训练数据进行类别标记包括,设定Y∈{0,1}n×q是训练数据的类别标记矩阵,q表示总的类别标记个数,其中Yii表示矩阵Y中的第i行j列的元素,Tij=1则表示第i个样本属于第j个类别标记,否则Yij=0,i为1到n之间的正整数,j为1到q之间的正整数。作为本专利技术改进的技术方案,步骤S2包括建立基于任意第v种视角特征表示Xv学习一个映射到类别标记矩阵Y的线性分类模型fv(Xv,Wv)=XvWv,并对模型参数做L1正则约束来学习每个视角特征数据表示中的类属特征,得到最小化目标公式:式一中,为待求解的m个模型参数,λ1为非负权重系数,取值域为{10-5,10-4,10-3,10-2,10-1,100,101}。作为本专利技术改进的技术方案,步骤S3中建立各视角特征贡献度模型包括,定义视角特征数据的贡献度集为θ=[θ1,θ2,...,θm],定义每个视角特征数据的贡献度θv≥0,v为1到m之间的正整数,取值越大,说明第v种视角特征数据表示的贡献度越大,反之则越小,并约束所有视角特征数据的总贡献度之和为1;基于各视角特征贡献度模型的最小化目标公式其中,和θ为待求解的模型参数,λ2为非负权重系数,取值域为{104,105,106}。作为本专利技术改进的技术方案,步骤S4中包括:约束任意两个视角特征数据分类器的输出的相似性,其中,和θ为待求解的模型参数,λ3为非负权重系数,取值域为{100,101,102,103};令其中|·|为绝对值函数,θi为第i个视角特征数据的贡献度,θv为第v个视角特征数据的贡献度;s=1/m为平滑系数,防止θi与θv相等时分母为零;为正则项,用来约束任意两个视角分类器的输出的相似性;Xi是第i种视角特征表示,Wi是基于第i种视角特征表示xi学习的模型系数。作为本专利技术改进的技术方案,步骤S5中包括:利用流行正则约束相关标记对应的模型系数的相似性,其中,和θ为待求解的模型参数,λ4为非负权重系数,取值域为{103,104,105,106};tr(·)表示矩阵迹范数,为类别标记相关性矩阵的拉普拉斯矩阵,类别标记相关性矩阵P通过类别标记矩阵Y中的列计算余弦相似本文档来自技高网
...

【技术保护点】
1.一种基于视角类属特征学习的多视角多标记分类方法,其特征在于,包括如下步骤:S1、获取训练数据,并将训练数据进行类别标记,建立类别标记矩阵;S2、构建类别标记后各视角特征数据映射到类别标记矩阵的线性模型,以作为分类器;S3、在线性模型基础上,根据视角特征数据的贡献度,建立各视角特征贡献度模型;S4、采用正则项约束视角特征贡献度模型,使每个视角特征数据在预测结果上具有一致性;S5、利用类别标记间的相关性对线性模型的模型系数的影响:如果两个类别标记相关性较强,则它们对应的模型系数会很接近,反之则越不相似;采用流行正则约束相关类别标记对应的模型系数的相似性;S6、标记预测,给定一个测试样本t,将测试样本t带入步骤S1‑S5中得融合预测值。

【技术特征摘要】
1.一种基于视角类属特征学习的多视角多标记分类方法,其特征在于,包括如下步骤:S1、获取训练数据,并将训练数据进行类别标记,建立类别标记矩阵;S2、构建类别标记后各视角特征数据映射到类别标记矩阵的线性模型,以作为分类器;S3、在线性模型基础上,根据视角特征数据的贡献度,建立各视角特征贡献度模型;S4、采用正则项约束视角特征贡献度模型,使每个视角特征数据在预测结果上具有一致性;S5、利用类别标记间的相关性对线性模型的模型系数的影响:如果两个类别标记相关性较强,则它们对应的模型系数会很接近,反之则越不相似;采用流行正则约束相关类别标记对应的模型系数的相似性;S6、标记预测,给定一个测试样本t,将测试样本t带入步骤S1-S5中得融合预测值。2.根据权利要求1所述的一种基于视角类属特征学习的多视角多标记分类方法,其特征在于,获取训练数据包括设定训练数据有m种特征表示m为任意正整数,第v种视角特征表示为一个实数矩阵Xv,其中,n表示样本个数,dv表示特征个数,表示实数域。3.根据权利要求1所述的一种基于视角类属特征学习的多视角多标记分类方法,其特征在于,将训练数据进行类别标记包括,设定Y∈{0,1}n×q是训练数据的类别标记矩阵,q表示总的类别标记个数,其中Yij表示矩阵Y中的第i行j列的元素,Yij=1则表示第i个样本属于第j个类别标记,否则Yij=0,i为1到n之间的正整数,j为1到q之间的正整数。4.根据权利要求1所述的一种基于视角类属特征学习的多视角多标记分类方法,其特征在于,步骤S2包括建立基于任意第v种视角特征表示Xv学习一个映射到类别标记矩阵Y的线性分类模型fv(Xv,Wv)=XvWv,并对模型参数做L1正则约束来学习每个视角特征数据表示中的类属特征,得到最小化目标公式:式一中,为待求解的m个模型参数,λ1为非负权重系数,取值域为{10-5,10-4,10-3,10-2,10-1,100,101}。5.根据权利要求1所述的一种基于视角类属特征学习的多视角多标记分类方法,其特征在于,步骤S3中建立各视角特征贡献度模型包括,定义视角特征数据的贡献度集为θ=[θ1,θ...

【专利技术属性】
技术研发人员:黄俊屈喜文秦锋郑啸陶陶袁志祥
申请(专利权)人:安徽工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1