The invention relates to the field of machine learning, in particular to a multi-label classification method based on gravity model, which includes: acquiring a labeled sample set as a training sample set; calculating the distance between the training sample and other training samples and sorting them to obtain the nearest neighbor set of the training sample; and in the nearest neighbor set, between the labels. Positive correlation matrix is constructed by positive correlation, and negative correlation matrix is constructed by negative correlation between tags; the nearest neighbor set of samples is calculated, and the positive correlation matrix and negative correlation matrix are constructed according to the nearest neighbor set. The gravitational model is constructed and classified by the gravitational relationship between the sample to be measured, the positive correlation data particle and the negative correlation data particle; the invention introduces the consideration of the negative correlation between tags, makes full use of the correlation between tags, and discovers the correlation relationship in the nearest neighbor set, avoids the global calculation and reduces the complexity. Degree.
【技术实现步骤摘要】
基于引力模型的多标签分类方法
本专利技术涉及机器学习领域,特别涉及一种基于引力模型的多标签分类方法。
技术介绍
在机器学习领域,分类问题占有很大比例。传统机器学习以二类分类或者多类分类为主,其目的是将每个待分类数据准确地划分到某一类别当中。这样的单分类问题和多分类问题可以统称为单标签分类(single-labelclassification)。在实际应用中,多数分类任务需要面对的是多标签分类(multi-labelclassificaiton)问题。例如一张图片,画面内容可能包含多种元素,如沙滩、大海、高楼、人物等。对这样的图片进行类别划分即属于多标签分类任务。现有多标签分类方法主要采用两种思路,一种是问题转化法,将多标签问题转化成多个单标签问题,用单标签分类方法进行分类;另一种是算法适应法,对单标签方法进行改进来使其能够处理多标签分类问题。现有的算法适应法主要从利用标签相关性出发来进行分类方法的设计或改进。多标签数据具有丰富的标签信息,标签与标签之间也具有一定的相关性,对标签相关性的发掘能够有效提升多标签分类方法的分类效果。而现有方法不能很好的利用标签相关性或者在对标签相关性的发掘中导致了分类方法的复杂度急剧上升。因此采用合适的方式对多标签数据的标签相关性进行利用并保证分类方法不会过于复杂能够有效提升多标签分类方法的分类效果。
技术实现思路
为了避免了全局计算,降低了复杂度,本专利技术提出一种基于引力模型的多标签分类方法,包括:S1、获取有标签的样本集作为训练样本集,其中每一个训练样本包括特征部分和标签部分,且标签部分包括多个类别的标签;S2、计算一个训练样 ...
【技术保护点】
1.基于引力模型的多标签分类方法,其特征在于,包括:S1、获取有标签的样本集作为训练样本集,其中每一个训练样本包括特征部分和标签部分,且标签部分包括多个类别的标签;S2、计算一个训练样本与其他训练样本的距离并排序,得到该训练样本的近邻集合;S3、在近邻集合中,以标签之间的正相关性构建正相关矩阵,标签之间的负相关性构建负相关矩阵;S4、计算出待测样本的近邻集合,并根据近邻集合构建待测正相关矩阵和待测负相关矩阵,其中待检测样本包括特征部分和标签部分,且标签部分为空;S5、将待测正相关矩阵的每一列粒化,得到正相关数据粒;将待测负相关矩阵的每一列粒化,得到负相关数据粒;S6、构建引力模型,并通过待测样本与正相关数据粒和负相关数据粒之间的引力关系进行分类。
【技术特征摘要】
1.基于引力模型的多标签分类方法,其特征在于,包括:S1、获取有标签的样本集作为训练样本集,其中每一个训练样本包括特征部分和标签部分,且标签部分包括多个类别的标签;S2、计算一个训练样本与其他训练样本的距离并排序,得到该训练样本的近邻集合;S3、在近邻集合中,以标签之间的正相关性构建正相关矩阵,标签之间的负相关性构建负相关矩阵;S4、计算出待测样本的近邻集合,并根据近邻集合构建待测正相关矩阵和待测负相关矩阵,其中待检测样本包括特征部分和标签部分,且标签部分为空;S5、将待测正相关矩阵的每一列粒化,得到正相关数据粒;将待测负相关矩阵的每一列粒化,得到负相关数据粒;S6、构建引力模型,并通过待测样本与正相关数据粒和负相关数据粒之间的引力关系进行分类。2.根据权利要求1所述的基于引力模型的多标签分类方法,其特征在于,步骤S2包括:S21、对于任一训练样本xt,其特征部分为Xi、标签部分为Yj,训练样本xt表示为xt={(Xi,Yj)|1≤i≤d,Xi∈F;1≤j≤q,Yj∈L},1≤t≤m;S22、计算训练样本xt与训练样本集中其他训练样本的距离,并将该距离按照升序排序,其中两个训练样本之间的距离表示为S23、选取排序结果中前k个,作为训练样本xt的近邻集合;其中,F为特征空间,L为标签空间,m为训练样本集中训练样本的数量,d为特征的维度,q表示标签的维度;d(xa,xb)表示样本xa与样本xb之间的距离,Xa,i为训练样本xa的第i个特征,Xb,i为训练样本xb的第i个特征;1≤a≤m,1≤b≤m。3.根据权利要求1所述的基于引力模型的多标签分类方法,其特征在于,步骤S3包括:S31、在训练样本xt的近邻集合中,用表示第s个标签与第l个标签的正相关性,表示第s个标签与第l个标签的负相关性;S32、第s个标签与其他所有标签的正相关性的值构成长度为q的正相关性向量CP(xt)s,第s个标签与其他所有标签的负相关性的值构成长度为q的负相关性向量CN(xt)s;S33、由CP(xt)s构成正相关矩阵的每一行,得到正相关矩阵P,CN(xt)s构成负相关矩阵的每一行,得到负相关矩阵N。4.根据权利要求3所述的基于引力模型的多标签分类方法,其特征在于,当训练样本xt的近邻集合中的样本的第s个标签的值为1,第l个标签的值同为1时,第s个标签与第l个标签正相关性...
【专利技术属性】
技术研发人员:李兆玉,王纪超,陈翔,朱红梅,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。