当前位置: 首页 > 专利查询>南京大学专利>正文

基于新标签发现和标签增量学习的动态多标签分类方法技术

技术编号:19277533 阅读:13 留言:0更新日期:2018-10-30 18:03
本发明专利技术公开了一种基于新标签发现和标签增量学习的动态多标签分类方法,在初始阶段,根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型和初始集成聚类模型;数据流预测阶段,将具有新标签的样本放入一个缓冲区存储;模型更新阶段,构建新标签的子模型,将新标签子模型更新到分类模型中,并基于新标签样本对集成聚类模型更新。该方法不仅可以及时发现数据流中数据诞生的新标签,还避免了在数据流中存储大量的数据,只需要缓存一定的数据作为更新即可,进一步避免了重新训练模型导致的时间成本问题,同时解决了动态多标签分类问题中新标签产生的问题并在数据流中维持较高分类性能。

Dynamic multi label classification method based on new label discovery and label incremental learning

The invention discloses a dynamic multi-label classification method based on new label discovery and incremental label learning. In the initial stage, the initial classification model and the initial ensemble clustering model are established according to the initial data based on pairwise label ranking loss and misclassification loss, and the samples with new labels are placed in the data stream prediction stage. In the model updating stage, a new label sub-model is constructed to update the new label sub-model to the classification model, and the ensemble clustering model is updated based on the new label samples. This method can not only discover new labels in data stream in time, but also avoid storing a large amount of data in data stream. It only needs to cache certain data as updates. This method further avoids the time cost problem caused by retraining the model, and solves the problem of new label production in dynamic multi-label classification. Problems of birth and maintaining high classification performance in data streams.

【技术实现步骤摘要】
基于新标签发现和标签增量学习的动态多标签分类方法
本专利技术涉及多标签学习和数据流分类计数,具体涉及集成聚类和基于标签的增量学习方法。
技术介绍
21世纪是互联网技术飞速发展的世纪,随之而来的是数据量的与日俱增,各行各业都累积了海量的数据。这些数据中蕴含了许多高价值的信息,利用这些信息我们能够更好的改善人们的生活。然后现实中的数据大多是多标签数据,多标签数据最明显的特征就是一个示例同时属于多个标签,这也是它与传统的单标签(二分类或者多分类)问题最显著的区别。以往针对多标签分类问题的研究大都基于这样的假设:数据的大小是已知的,固定的,数据所属的标签也是固定的,然而在现实的应用中,数据的标签是逐渐产生的,数据也是以流式数据的形式到来的,这就产生了新标签发现问题和模型的增量学习问题。目前针对多标签环境中的新标签发现问题的研究还较少,更多的是多分类问题中的新类别发现问题,它们大都基于异常发现的思路去解决,这样的方法并不适用于多标签环境,因为多标签环境中一个新到来样本可能不仅具有新标签,还具有已知的标签,且在新标签1还未达到更新的阈值时,新标签2出现,也就是以往的新标签发现算法不具有同时发现两个或者更多的新标签的能力。数据流中的增量学习问题以往的解决办法多是基于集成的方式,将数据流划分成多个数据块,给每一个数据块训练一个模型,然后集成起来作为总的模型,这样的办法并不能直接应用于有新标签产生的多标签数据流分类环境中,因为在该过程中有新标签的诞生,这个模型的更新带来了更大的挑战。
技术实现思路
专利技术目的:本专利技术所要解决的问题是动态多标签分类问题(多标签数据流分类问题)中新标签发现问题和基于标签的增量学习问题,提出了基于集成聚类的新标签发现方法和基于pairwiselabelrankingloss和误分类损失的模型更新方法。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于新标签发现和标签增量学习的动态多标签分类方法,包括如下步骤:步骤1,初始化阶段:根据初始数据基于pairwiselabelrankingloss和误分类损失建立初始分类模型以及基于k-means的集成聚类新标签发现模型。步骤2,数据流预测阶段:对于数据流中的每一个新样本,经过集成聚类新标签发现模型判断是否具有新标签,将具有新标签的样本放入一个缓冲区存储,然后传递给分类模型判断分类标签;步骤3,模型更新阶段:当缓冲区达到设定的阈值,针对新标签基于pairwiselabelrankingloss和误分类损失构建新标签子模型,将新标签子模型更新到分类模型中,并基于新标签样本对集成聚类新标签发现模型更新。其中将新标签子模型更新到分类模型包括如下步骤:S301、使用一个线性模型来表示新标签的分类模型:S302、基于Buffer1和Buffer2的数据优化下列函数:R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面:S303、使用梯度下降法优化得到和bnew后,就得到了新标签的分类模型,然后将起集成到分类模型中,使得分类模型对新标签也具有分类能力。优选的:步骤1中初始分类模型优化的损失函数为:多标签中,对每一个标签,使用一个线性模型对其建模:其中,是标签i的权值向量,bi是偏移值,那么优化的目标损失函数为:其中,R(i)根据标签第j个样本是相关标签还是不相关标签,定义为不同的值,如果标签i是第j个样本的相关标签,定义为不相关标签集合中排序在标签i之前的标签个数:如果标签i是第j个样本的不相关标签,定义为相关标签集合中排序在标签i之的个数:其中I[·]为指示函数。之后利用梯度下降法就可以求解目标函数,初始分类模型建立完成。优选的:步骤1中,基于k-means的集成聚类模型建立如下:S101、设定算法的样本抽样率μ1和特征抽样率μ2,集成的k-means模型个数l,并统计数据的标签个数|Y|。S102、基于样本抽样率和特征抽样率对初始数据集抽样,形成l个训练数据集。S103、基于这l个训练数据集建立l个k-means模型并集成到一起。S104、统计每个单独的k-means模型中每个簇类的半径的平方R和平均距离的平方Dm。S105、统计整个模型中最大的R值并记录为Rmax。优选的:数据流预测阶段包括如下步骤:S201、设置一个Buffer1用来存储具有新标签的样本,一个Buffer2用来缓存不具有新标签的样本。S202、每当一个新数据达到,都先经过新标签发现模型对齐判断是否具有新标签。S203、如果新标签判断结果返回1,那么将这个新样本看作是具有新标签的候选样本并加入缓冲区Buffer1中,然后将样本传递给分类模型预测已知标签空间中的标签。S204、如果新标签判断结果返回0,那么表示这个样本不具有新标签,将其加入Buffer2中,然后将其直接传递给分类模型预测一直标签空间的标签。优选的:步骤3中新标签发现模型的更新包括如下步骤:S311、基于Buffer1中的数据进行筛选和更新。S312、对于集成k-means模型中的每一个单独的k-means模型都进行更新。S313、根据每个单独的k-means模型的特征抽样对Buffer1中的数据抽样,形成对应的数据集。S314、对每个单独的k-means模型,给对应的数据集中每一条数据分配一个离其最近的簇类,并将其加入其中,并更新该簇类的个数统计量v。S315、中心点向量u更新公式为:公式中带有下标g的变量表示更新后的值,否则代表之前的值S316、平均距离Dm的更新公式为:S317、每个簇类的半径R更新方法为,计算新加入的点和中心点的距离,如果改距离比原来的半径大,则将半径替换为该距离。优选的:步骤S311中Buffer1的数据筛选方法为:S311-1、统计出当前集成聚类模型中最大的半径Rmax。S311-2、把Buffer1中的数据当成一个簇类计算其中心均值向量ub。S311-3、计算Buffer1中每个数据距离ub的距离,如果这个距离大于Rmax,那么剔除该样本。S311-4、清空Buffer1和Buffer2。S311-5、将剔除出来的样本加入Buffer1中。本专利技术相比现有技术,具有以下有益效果:本专利技术使用集成聚类来解决新标签发现的问题,通过集成多个单一模型的方式解决了多标签数据流分类中新标签发现的难题,并且利用一个筛选方法将可能包含第二个新标签的样本剔除出出来作为下一个新标签的候选样本。基于pairwiselabelrankingloss和误分类损失充分考虑了标签对之间的关系,避免了传统的集成办法难以考虑新标签和已知标签之间关系的缺点。显著提高了动态多标签分类(多标签数据流分类)中的模型性能稳定性。本专利技术不仅可以及时发现数据流中数据诞生的新标签,还避免了在数据流中存储大量的数据,只需要缓存一定的数据作为更新即可,进一步避免了重新训练模型导致的时间成本问题,同时解决了动态多标签分类问题中新标签产生的问题并在数据流中维持较高分类性能。附图说明图1是本专利技术的整体流程图。图2是基于集成聚类的新标签发现算法的流程图。图3是模型更新的流程图。具体实施方式下面结合附图和具体实施例,进一步阐明本专利技术,应理解这些实例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等本文档来自技高网...

【技术保护点】
1.一种基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于,包括如下步骤:步骤1,初始化阶段:根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型以及基于k‑means的集成聚类新标签发现模型;步骤2,数据流预测阶段:对于数据流中的每一个新样本,经过新标签发现模型判断是否具有新标签,将具有新标签的样本放入一个缓冲区存储,然后传递给分类模型判断分类标签;步骤3,模型更新阶段:当缓冲区达到设定的阈值,针对新标签基于pairwise label ranking loss和误分类损失构建新标签子模型,将新标签子模型更新到分类模型中,并基于新标签样本对新标签发现模型更新;其中将新标签子模型更新到分类模型包括如下步骤:S301、使用一个线性模型来表示新标签的分类模型:

【技术特征摘要】
1.一种基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于,包括如下步骤:步骤1,初始化阶段:根据初始数据基于pairwiselabelrankingloss和误分类损失建立初始分类模型以及基于k-means的集成聚类新标签发现模型;步骤2,数据流预测阶段:对于数据流中的每一个新样本,经过新标签发现模型判断是否具有新标签,将具有新标签的样本放入一个缓冲区存储,然后传递给分类模型判断分类标签;步骤3,模型更新阶段:当缓冲区达到设定的阈值,针对新标签基于pairwiselabelrankingloss和误分类损失构建新标签子模型,将新标签子模型更新到分类模型中,并基于新标签样本对新标签发现模型更新;其中将新标签子模型更新到分类模型包括如下步骤:S301、使用一个线性模型来表示新标签的分类模型:其中,hnew(x)表示对线性模型的输出值按照φ(x)取值,表示新标签的权值向量的转置,bnew表示新标签的偏移值,fnew(x)表示新标签的线性模型;S302、基于Buffer1和Buffer2的数据优化下列函数:R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面:其中,B1表示Buffer1中的样本,B2表示Buffer2中的样本,εnew表示对新标签在第j个样本上的惩罚因子,wnew表示新标签的权值向量,xj表示第j个样本的向量,ynew,j表示第j个样本新标签,fnew(xj)表示线性模型对第j样本的输出值,R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面,c表示一个变量;S303、使用梯度下降法优化得到和bnew后,就得到了新标签的分类模型,然后将起集成到分类模型中,使得分类模型对新标签也具有分类能力。2.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于:步骤1中初始分类模型优化的损失函数为:多标签中,对每一个标签,使用一个线性模型对其建模:其中,hi(x)表示对线性模型的输出值按照φ(x)取值,fi(x)表示线性模型,T表示对矩阵求转置,是标签i的权值向量,bi是偏移值,那么优化的目标损失函数为:其中,R(i)根据标签第j个样本是相关标签还是不相关标签,Yt表示t时刻标签空间,λ1表示平衡参数,yk,j表示第j个样本的第k个标签,λ2表示平衡参数,εi表示对第j个样本的在第i个标签上的惩罚因子,如果标签i是第j个样本的相关标签,定义为不相关标签集合中排序在标签i之前的标签个数:如果标签i是第j个样本的不相关标签,定义为相关标签集合中排序在标签i之的个数:其中I[·]为指示函数;之后利用梯度下降法就可以求解目标函数,初始分类模型建立完成。3.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于:步骤1中,基于k-means的集成聚类模型建...

【专利技术属性】
技术研发人员:吴骏李永春闫梦奎陈港李宁
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1