基于引力模型的多标签分类方法技术

技术编号:19141907 阅读:29 留言:0更新日期:2018-10-13 08:56
本发明专利技术涉及机器学习领域,特别涉及一种基于引力模型的多标签分类方法,包括:获取有标签的样本集作为训练样本集;计算训练样本与其他训练样本的距离并排序,得到该训练样本的近邻集合;在近邻集合中,以标签之间的正相关性构建正相关矩阵,标签之间的负相关性构建负相关矩阵;计算出待测样本的近邻集合,并根据近邻集合构建待测正相关矩阵和待测负相关矩阵;将待测正相关矩阵和待测负相关矩阵得到正相关数据粒和负相关数据粒;构建引力模型,并通过待测样本与正相关数据粒和负相关数据粒之间的引力关系进行分类;本发明专利技术引入对标签间负相关关系的考虑,充分利用了标签间的相关性,并且在近邻集合中发掘相关关系,避免了全局计算,降低了复杂度。

Multi label classification method based on Gravity Model

The invention relates to the field of machine learning, in particular to a multi-label classification method based on gravity model, which includes: acquiring a labeled sample set as a training sample set; calculating the distance between the training sample and other training samples and sorting them to obtain the nearest neighbor set of the training sample; and in the nearest neighbor set, between the labels. Positive correlation matrix is constructed by positive correlation, and negative correlation matrix is constructed by negative correlation between tags; the nearest neighbor set of samples is calculated, and the positive correlation matrix and negative correlation matrix are constructed according to the nearest neighbor set. The gravitational model is constructed and classified by the gravitational relationship between the sample to be measured, the positive correlation data particle and the negative correlation data particle; the invention introduces the consideration of the negative correlation between tags, makes full use of the correlation between tags, and discovers the correlation relationship in the nearest neighbor set, avoids the global calculation and reduces the complexity. Degree.

【技术实现步骤摘要】
基于引力模型的多标签分类方法
本专利技术涉及机器学习领域,特别涉及一种基于引力模型的多标签分类方法。
技术介绍
在机器学习领域,分类问题占有很大比例。传统机器学习以二类分类或者多类分类为主,其目的是将每个待分类数据准确地划分到某一类别当中。这样的单分类问题和多分类问题可以统称为单标签分类(single-labelclassification)。在实际应用中,多数分类任务需要面对的是多标签分类(multi-labelclassificaiton)问题。例如一张图片,画面内容可能包含多种元素,如沙滩、大海、高楼、人物等。对这样的图片进行类别划分即属于多标签分类任务。现有多标签分类方法主要采用两种思路,一种是问题转化法,将多标签问题转化成多个单标签问题,用单标签分类方法进行分类;另一种是算法适应法,对单标签方法进行改进来使其能够处理多标签分类问题。现有的算法适应法主要从利用标签相关性出发来进行分类方法的设计或改进。多标签数据具有丰富的标签信息,标签与标签之间也具有一定的相关性,对标签相关性的发掘能够有效提升多标签分类方法的分类效果。而现有方法不能很好的利用标签相关性或者在对标签相关性的发掘中导致了分类方法的复杂度急剧上升。因此采用合适的方式对多标签数据的标签相关性进行利用并保证分类方法不会过于复杂能够有效提升多标签分类方法的分类效果。
技术实现思路
为了避免了全局计算,降低了复杂度,本专利技术提出一种基于引力模型的多标签分类方法,包括:S1、获取有标签的样本集作为训练样本集,其中每一个训练样本包括特征部分和标签部分,且标签部分包括多个类别的标签;S2、计算一个训练样本与其他训练样本的距离并排序,得到该训练样本的近邻集合;S3、在近邻集合中,以标签之间的正相关性构建正相关矩阵,标签之间的负相关性构建负相关矩阵;S4、计算出待测样本的近邻集合,并根据近邻集合构建待测正相关矩阵和待测负相关矩阵,其中待检测样本包括特征部分和标签部分,且标签部分为空;S5、将待测正相关矩阵的每一列粒化,得到正相关数据粒;将待测负相关矩阵的每一列粒化,得到负相关数据粒;S6、构建引力模型,并通过待测样本与正相关数据粒和负相关数据粒之间的引力关系进行分类。优选的,步骤S2包括:S21、对于任一训练样本xt,其特征部分为Xi、标签部分为Yi,训练样本xt表示为xt={(Xi,Yj)|1≤i≤d,Xi∈F;1≤j≤q,Yj∈L},1≤t≤m;S22、计算训练样本xt与训练样本集中其他训练样本的距离,并将该距离按照升序排序,其中两个训练样本之间的距离表示为S23、选取排序结果中前k个,作为训练样本xt的近邻集合;其中,F为特征空间,L为标签空间,m为训练样本集中训练样本的数量,d为特征的维度,q表示标签的维度;d(xa,xb)表示样本xa与样本xb之间的距离,Xa,i为训练样本xa的第i个特征,Xb,i为训练样本xb的第i个特征;1≤a≤m,1≤b≤m。。优选的,步骤S3包括:S31、在训练样本xt的近邻集合中,用表示第s个标签与第l个标签的正相关性,表示第s个标签与第l个标签的负相关性;S32、第s个标签与其他所有标签的正相关性的值构成长度为q的正相关性向量CP(xt)s,第s个标签与其他所有标签的负相关性的值构成长度为q的负相关性向量CN(xt)s;S33、由CP(xt)s构成正相关矩阵的每一行,得到正相关矩阵P,CN(xt)s构成负相关矩阵的每一行,得到负相关矩阵N。优选的,当训练样本xt的近邻集合中的样本的第s个标签的值为1,第l个标签的值同为1时,第s个标签与第l个标签正相关性加1;当训练样本xt的近邻集合中训练样本的第s个标签为1,第l个标签为0时,第s个标签与第l个标签负相关性加1。优选的,步骤S4包括:根据待测样本与训练样本特征部分间的欧氏距离,筛选出距离待测样本最近的k个训练样本作为待测样本的近邻集合,从正相关矩阵P和负相关矩阵N中筛选出待测样本的近邻集合所包含标签对应的正相关性向量和负相关性向量,以待测项目xt'近邻集合中标签的正相关性向量构建待测正相关矩阵P(xt'),负相关性向量为行构建待测负相关矩阵N(xt')n。优选的,步骤S5包括:S51、计算待测正相关矩阵P(xt')第n列的平均值待测负相关矩阵N(xt')n的第n列的平均值S52、对比第n列中的数据,将P(xt')中第n列中大于平均值的数据集合记为正对比数据I+(xt')n,N(xt')中第n列中大于平均值的数据集合记为负对比数据I-(xt')n;S53、分别计算I+(xt')n的数据质心I-(xt')n的数据质心完成数据粒化,计算包括:当计算I+(xt')n的数据质心时,W+为I+(xt')n中元素个数,则:正相关数据粒表示为:当计算I-(xt')n的数据质心时,W-为I-(xt')n中元素个数,则:负相关数据粒表示为:其中,n={1,2,...,q},q表示标签的维度。优选的,步骤S6包括:S61、分别计算正相关数据粒与待测样本之间的正数据引力、负相关数据粒与待测样本之间的负数据引力;S62、计算正数据引力与负数据引力的合力;S63、判断合力方向,若合力方向与正数据引力的方向一致,则待测样本拥有此正数据粒对应的标签;否则待测样本没有此正数据粒对应的标签。优选的,步骤S61包括:S621、根据欧氏距离公式分别计算待测样本xt与正数据粒间的距离r+、与负数据粒间的距离r-;S622、根据引力计算公式分别计算正数据引力F+、负数据引力F-:当计算正数据引力时,则:当计算负数据引力时,则:其中,W+为I+(xt')n中元素个数,W-为I-(xt')n中元素个数;g表示重力系数;M表示待测样本的质量,为大于零的常数。本专利技术引入对标签间负相关关系的考虑,充分利用了标签间的相关性,并且在近邻集合中发掘相关关系,避免了全局计算,降低了复杂度;结合引力模型构造的多标签分类器能够很好的处理分类问题,能够实现较好的分类效果以及合理的复杂度。附图说明图1为本专利技术一种基于引力模型的多标签分类方法的流程图。具体实施方式为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将结合附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提出一种基于引力模型的多标签分类方法,如图1,包括:S1、获取有标签的样本集作为训练样本集,其中每一个训练样本包括特征部分和标签部分,且标签部分包括多个类别的标签;S2、计算一个训练样本与其他训练样本的距离并排序,得到该训练样本的近邻集合;S3、在近邻集合中,以标签之间的正相关性构建正相关矩阵,标签之间的负相关性构建负相关矩阵;S4、计算出待测样本的近邻集合,并根据近邻集合构建待测正相关矩阵和待测负相关矩阵,其中待检测样本包括特征部分和标签部分,且标签部分为空;S5、将待测正相关矩阵的每一列粒化,得到正相关数据粒;将待测负相关矩阵的每一列粒化,得到负相关数据粒;S6、构建引力模型,并通过待测样本与正相关数据粒和负相关数据粒之间的引力关系进行分类。本专利技术中以样本的特征部分计算本文档来自技高网...

【技术保护点】
1.基于引力模型的多标签分类方法,其特征在于,包括:S1、获取有标签的样本集作为训练样本集,其中每一个训练样本包括特征部分和标签部分,且标签部分包括多个类别的标签;S2、计算一个训练样本与其他训练样本的距离并排序,得到该训练样本的近邻集合;S3、在近邻集合中,以标签之间的正相关性构建正相关矩阵,标签之间的负相关性构建负相关矩阵;S4、计算出待测样本的近邻集合,并根据近邻集合构建待测正相关矩阵和待测负相关矩阵,其中待检测样本包括特征部分和标签部分,且标签部分为空;S5、将待测正相关矩阵的每一列粒化,得到正相关数据粒;将待测负相关矩阵的每一列粒化,得到负相关数据粒;S6、构建引力模型,并通过待测样本与正相关数据粒和负相关数据粒之间的引力关系进行分类。

【技术特征摘要】
1.基于引力模型的多标签分类方法,其特征在于,包括:S1、获取有标签的样本集作为训练样本集,其中每一个训练样本包括特征部分和标签部分,且标签部分包括多个类别的标签;S2、计算一个训练样本与其他训练样本的距离并排序,得到该训练样本的近邻集合;S3、在近邻集合中,以标签之间的正相关性构建正相关矩阵,标签之间的负相关性构建负相关矩阵;S4、计算出待测样本的近邻集合,并根据近邻集合构建待测正相关矩阵和待测负相关矩阵,其中待检测样本包括特征部分和标签部分,且标签部分为空;S5、将待测正相关矩阵的每一列粒化,得到正相关数据粒;将待测负相关矩阵的每一列粒化,得到负相关数据粒;S6、构建引力模型,并通过待测样本与正相关数据粒和负相关数据粒之间的引力关系进行分类。2.根据权利要求1所述的基于引力模型的多标签分类方法,其特征在于,步骤S2包括:S21、对于任一训练样本xt,其特征部分为Xi、标签部分为Yj,训练样本xt表示为xt={(Xi,Yj)|1≤i≤d,Xi∈F;1≤j≤q,Yj∈L},1≤t≤m;S22、计算训练样本xt与训练样本集中其他训练样本的距离,并将该距离按照升序排序,其中两个训练样本之间的距离表示为S23、选取排序结果中前k个,作为训练样本xt的近邻集合;其中,F为特征空间,L为标签空间,m为训练样本集中训练样本的数量,d为特征的维度,q表示标签的维度;d(xa,xb)表示样本xa与样本xb之间的距离,Xa,i为训练样本xa的第i个特征,Xb,i为训练样本xb的第i个特征;1≤a≤m,1≤b≤m。3.根据权利要求1所述的基于引力模型的多标签分类方法,其特征在于,步骤S3包括:S31、在训练样本xt的近邻集合中,用表示第s个标签与第l个标签的正相关性,表示第s个标签与第l个标签的负相关性;S32、第s个标签与其他所有标签的正相关性的值构成长度为q的正相关性向量CP(xt)s,第s个标签与其他所有标签的负相关性的值构成长度为q的负相关性向量CN(xt)s;S33、由CP(xt)s构成正相关矩阵的每一行,得到正相关矩阵P,CN(xt)s构成负相关矩阵的每一行,得到负相关矩阵N。4.根据权利要求3所述的基于引力模型的多标签分类方法,其特征在于,当训练样本xt的近邻集合中的样本的第s个标签的值为1,第l个标签的值同为1时,第s个标签与第l个标签正相关性...

【专利技术属性】
技术研发人员:李兆玉王纪超陈翔朱红梅
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1