一种基于标记和特征局部相关性的多标记学习方法技术

技术编号:30141549 阅读:129 留言:0更新日期:2021-09-23 15:05
本发明专利技术公开了一种基于标记和特征局部相关性的多标记学习方法,属于机器学习技术领域;本发明专利技术在考虑利用局部标记相关性的同时加入局部特征相关性进行多标记的分类,通过聚类将训练数据分解成若干个数据子集,在每个数据子集中利用标记流形正则化和特征流形正则化获取局部标记相关性和局部特征相关性,分别为每组实例学习一个模型系数,并加入一个新的正则项考虑各个聚类数据子集之间的关系;特征相关性有助于去除冗余的特征,标记相关性和特征相关性并非是全局共享的,因此通过局部标记相关性和局部特征相关性为不同的实例分配不同的标记相关性和特征相关性,从而提升多标记分类模型的分类性能,更好的进行多标记学习任务。务。务。

【技术实现步骤摘要】
一种基于标记和特征局部相关性的多标记学习方法


[0001]本专利技术涉及机器学习
,更具体地说,涉及一种基于标记和特征局部相关性的多标记学习方法。

技术介绍

[0002]在传统的监督学习中,一个实例通常只对应一个类别标记,但是在现实的生活中,一个对象往往存在多个语义。例如一篇新闻报道会同时涵盖多个主题,从不同的角度分析可以将其划分为“政治类”、“经济类”、“体育类”等不同的类别;电影“刺杀小说家”同时属于“动作”、“奇幻”和“冒险”等三个电影类别;发表的学术论文中一般包含多个关键词,以此来提高其在检索系统中的检索效率。多标记学习即是用来解决上述标记多个关键词的文本分类问题的。随着越来越多学者的关注,多标记得到了快速的发展,目前多标记学习已经成功运用到了各个研究领域,例如信息检索、图像分类、临床数据分析和生物医学分类等。
[0003]多标记学习是机器学习和数据挖掘中一项很重要的研究课题,多标记学习的目的是训练一个分类模型,利用训练的模型为不可见的实例预测所有相关的标记。目前已经有很多关于解决多标记学习问题的算法,根据多标记学习算法中利用标记相关性的策略可以将现有的方法分为采用一阶、二阶和三阶策略的方法。一阶策略主要假定不同的标记完全独立,在进行多标记的分类时将每个标记分开训练,但却忽视了标记之间的交互作用,如BR算法。二阶策略考虑成对标记之间的相关性,如CLR、LPLC,这些算法利用了两个标记之间的关系,但是一个标记可能同时依赖于多个标记,导致分类不准确。三阶策略考虑随机标记子集之间的交互性或者每个标记和其余标记之间的关联性,如CC、LLSF

DL,虽然三阶策略挖掘了很强的标记相关性,但是其会导致计算更为复杂。
[0004]在大数据环境下,数据的语义更为复杂,整个数据集的标记个数较多,使得标注过程困难,给多标记学习带来巨大的挑战。在多标记的学习中,标记和特征存在一定的相关性,标记相关性的学习有助于提高模型的泛化性能,而特征相关性的学习则有助于去除冗余的特征。在实际的应用中,标记和特征的相关性可能只由实例的子集而不是所有实例共享,因此利用全局的标记和特征的相关性,可能会对不包含这种相关性的实例添加不必要的约束,进而损害模型的性能。
[0005]目前的多标记学习方法没有考虑到标记和特征局部相关性相结合的情况,不能为给定的数据学习准确的相关性。学者们已经提出了很多考虑特征和标记相关性的多标记学习方法,如具有全局和局部标记相关性的多标记学习方法(GLOCAL)通过标记流形正则化来整合全局和局部标记相关性,对全标记和缺失标记的情况进行处理,该方法的有利之处是为了避免缺失标记对标记相关性的影响,直接学习拉普拉斯矩阵而不是指定任何相关度量或标记相关矩阵,同时将标记相关性控制在输出上,但是该方法只考虑到了标记相关性,不能很好的提高模型性能。而基于双图的鲁棒多标记特征选择方法(DRMFS)利用特征图正则化和标记图正则化来获取标记相关性和特征相关性,但该方法仅考虑了标记和特征的全局相关性,并未考虑标记与特征局部的相关性相结合。基于标记压缩和局部特征相关性的缺
失标记特征选择方法(FSLCLC)通过流形正则化来获取特征的局部相关性,该方法在利用特征流形正则化的时候为所有子集求解相同的系数矩阵,考虑到各个子集中的特征相关性和标记相关性可能不同,对应的系数矩阵应该也是不同的,但该方法在学习相同的系数矩阵时,会导致模型性能的下降。
[0006]综合以上问题本专利技术致力于探索特征和标记的局部相关性,同时为不同数据子集学习不同的模型系数,能够为不同的子集分配更加准确的相关性,进一步提高模型的分类性能。
[0007]经检索,中国专利申请号ZL201911306128.X,申请日为2019年12月18日,专利技术名称为一种多标记分类中潜在类别发现和分类方法,该申请案将已知标记分类和潜在标记发现及分类融合在统一框架中,利用非负矩阵分解技术,将特征矩阵分解为完整类别标记矩阵的近似解和系数矩阵,并约束近似解的已知部分结果与真实值一致,同时构建从样本特征到完整标记的分类模型,发现潜在的标记类型;通过潜在标记发现,挖掘出数据中有价值的隐含信息,利用已知标记和潜在标记之间的关联性,约束相关性较强的任意类别具有相似的分类模型系数,得到近似的分类预测结果,使已知标记分类和潜在标记分类相互指导,共同促进,最终提升已知标记和潜在标记的分类性能,更好的进行多标记学习任务,但该申请案致力于挖掘潜在的标记,根据潜在标记和已知的类别标记进行多标记的学习,并未考虑到与特征局部相关性进行结合。

技术实现思路

[0008]1.专利技术要解决的技术问题
[0009]针对目前大多数多标记学习方法在进行多标记的分类时,仅考虑标记的全局或局部相关性,而未考虑到特征之间的相关性,在实际的应用中特征相关性和标记相关性一般不适用于全局,只适用于数据的子集,因此考虑全局相关性会影响类别标记分类的准确性的问题,本专利技术提供了一种基于标记和特征局部相关性的多标记学习方法,结合标记和特征的局部相关性,为不同的数据子集分配不同的相关性,去除特征中的冗余特征,为每个数据子集求解一个模型系数,从而使多标记分类更加准确。
[0010]2.技术方案
[0011]为达到上述目的,本专利技术提供的技术方案为:
[0012]本专利技术的一种基于标记和特征局部相关性的多标记学习方法,其步骤为:
[0013]S1、对训练数据进行特征提取,获得数据的特征表示矩阵X,并对训练数据进行类别标记,建立数据的已知类别标记矩阵Y;
[0014]S2、利用k均值法将特征表示矩阵X聚类分割为g个数据子集{X1,...,X
g
},并根据特征表示矩阵X的数据子集将已知类别标记矩阵Y分割为与之对应的g个标记子集{Y1,...,Y
g
},同时得到聚类中心C;
[0015]S3、计算g个数据子集中每个子集对应的标记相关性矩阵B
m
和特征相关性矩阵S
m
,并计算相应矩阵的拉普拉斯矩阵和根据S2中所得的聚类中心矩阵C计算数据子集之间的相似性;
[0016]S4、构建将数据子集X
m
映射到类别标记Y
m
的线性模型W
m
,作为分类器;
[0017]S5、在第m个数据子集中,先后对局部标记相关性和局部特征相关性进行建模;将
局部标记相关性控制在输出上,采用标记流行正则化约束标记子集Y
m
中相关的标记对应的模型的输出相似;将局部特征相关性控制在模型系数上,采用特征流行正则化约束数据子集X
m
中相似的特征对应的模型系数相似;
[0018]S6、利用正则项约束相似的子集所得的模型系数的相似性,利用“相似的分组对应的模型系数相似”添加正则约束,得到最终需要求解的目标模型;
[0019]S7、经过步骤S1

S6学习得到g个最终分类模型,给定一个测试样本t,求测试样本t本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标记和特征局部相关性的多标记学习方法,其特征在于,其步骤为:S1、对训练数据进行特征提取,获得数据的特征表示矩阵X,并对训练数据进行类别标记,建立数据的已知类别标记矩阵Y;S2、利用k均值法将特征表示矩阵X聚类分割为g个数据子集{X1,...,X
g
},并根据特征表示矩阵X的数据子集将已知类别标记矩阵Y分割为与之对应的g个标记子集{Y1,...,Y
g
},同时得到聚类中心C;S3、计算g个数据子集中每个子集对应的标记相关性矩阵B
m
和特征相关性矩阵S
m
,并计算相应矩阵的拉普拉斯矩阵和根据S2中所得的聚类中心矩阵C计算数据子集之间的相似性;S4、构建将数据子集X
m
映射到类别标记Y
m
的线性模型W
m
,作为分类器;S5、在第m个数据子集中,先后对局部标记相关性和局部特征相关性进行建模;将局部标记相关性控制在输出上,采用标记流行正则化约束标记子集Y
m
中相关的标记对应的模型的输出相似;将局部特征相关性控制在模型系数上,采用特征流行正则化约束数据子集X
m
中相似的特征对应的模型系数相似;S6、利用正则项约束相似的子集所得的模型系数的相似性,利用“相似的分组对应的模型系数相似”添加正则约束,得到最终需要求解的目标模型;S7、经过步骤S1

S6学习得到g个最终分类模型,给定一个测试样本t,求测试样本t和根据步骤S2中所得的g个聚类中心之间的距离,选取前r个距离较近的聚类子集对应的分类模型,将测试样本t带入这r个分类模型,融合并输出测试样本类别的最终结果。2.根据权利要求1所述的一种基于标记和特征局部相关性的多标记学习方法,其特征在于:所述的步骤S1中,数据特征表示矩阵X为一个实数矩阵,其中,n表示样本个数,d表示特征个数,表示实数域;已知类别标记矩阵Y∈{0,1}
n
×
q
,q表示已知的类别标记个数y
ij
表示矩阵Y中的第i行j列的元素,y
ij
=1则表示第i个样本属于第j个类别标记,否则y
ij
=0,i为1到n之间的正整数,j为1到q之间的正整数。3.根据权利要求2所述的一种基于标记和特征局部相关性的多标记学习方法,其特征在于:所述的步骤S2中,g表示聚类的数据子集的数量,将训练数据的特征表示矩阵X通过k均值聚类划分为g个数据子集{X1,...,X
g
},每组对应的特征矩阵n
m
表示第m个数据子集X
m
中样本个数,根据所得的数据子集将Y划分为g个标记子集{Y1,...,Y
g
},Y
m
是X
m
对应的Y中的标记子集,1≤m≤g;根据对训练数据X的聚类获得聚类中心矩阵心矩阵C中的第i行表示第i个数据子集X
i
的聚类中心向量。4.根据权利要求3所述的一种基于标记和特征局部相关性的多标记学习方法,其特征在于:所述的步骤S3中,设定为第m个数据子集对应的标记相关性矩阵,其中任意第i行第j列元素通过式(1)计算余弦相似度,得到标记相关性矩阵:式(1)中,表示Y
m
中第h行第i列元素值,表示Y
m
中第h行第j列元素值;标记相关性矩阵B
m
对应的拉普拉斯矩阵为:
其中,sum(B
m
)表示分别对B
m
的每一行元素进行相加,返回的一个列向量,diag(sum(B
m
))返回一个维度和sum(B
m
)的行数一样的方阵,并且对角线元素和sum(B
m
)一一对应,其余元素值均为0;设定为第m个数据子集对应的特征相关性矩阵其中任意第i行第j列元素通过(2)式计算余弦相似度得到特征相关性矩阵:式(2)中,表示X
m
中第h行第i列元素值,表示X
m
中第h行第j列元素值;特征相关性矩阵S
m
对应的拉普拉斯矩阵为:其中,sum(S
m
)表示分别对S
m
的每一行元素进行相加,返回的一个列向量,diag(sum(S
m
))返回一个维度和sum(S
m
)的行数一样的方阵,并且对角线元素和sum(S
m
)一一对应,其余元素值均为0;设定为g个数据子集之间的相似性矩阵,其中任意第i行和第j列元素a
ij
表示第i个数据子集和第j个数据子集之间的相似性,利用(3)式计算余弦相似度得到数据子集之间的相似性矩阵:式(3)中,c
ih
表示C中第i行第h列的元素值,c
jh
表示C中第j行第h列的元素值。5.根据权利要求4所述的一种基于标记和特征局部相关性的多标记学习方法,其特征在于:所述...

【专利技术属性】
技术研发人员:程倩倩黄俊张辉宜
申请(专利权)人:安徽工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1