The invention discloses a dynamic multi-label classification method based on new label discovery and incremental label learning. In the initial stage, the initial classification model and the initial ensemble clustering model are established according to the initial data based on pairwise label ranking loss and misclassification loss, and the samples with new labels are placed in the data stream prediction stage. In the model updating stage, a new label sub-model is constructed to update the new label sub-model to the classification model, and the ensemble clustering model is updated based on the new label samples. This method can not only discover new labels in data stream in time, but also avoid storing a large amount of data in data stream. It only needs to cache certain data as updates. This method further avoids the time cost problem caused by retraining the model, and solves the problem of new label production in dynamic multi-label classification. Problems of birth and maintaining high classification performance in data streams.
【技术实现步骤摘要】
基于新标签发现和标签增量学习的动态多标签分类方法
本专利技术涉及多标签学习和数据流分类计数,具体涉及集成聚类和基于标签的增量学习方法。
技术介绍
21世纪是互联网技术飞速发展的世纪,随之而来的是数据量的与日俱增,各行各业都累积了海量的数据。这些数据中蕴含了许多高价值的信息,利用这些信息我们能够更好的改善人们的生活。然后现实中的数据大多是多标签数据,多标签数据最明显的特征就是一个示例同时属于多个标签,这也是它与传统的单标签(二分类或者多分类)问题最显著的区别。以往针对多标签分类问题的研究大都基于这样的假设:数据的大小是已知的,固定的,数据所属的标签也是固定的,然而在现实的应用中,数据的标签是逐渐产生的,数据也是以流式数据的形式到来的,这就产生了新标签发现问题和模型的增量学习问题。目前针对多标签环境中的新标签发现问题的研究还较少,更多的是多分类问题中的新类别发现问题,它们大都基于异常发现的思路去解决,这样的方法并不适用于多标签环境,因为多标签环境中一个新到来样本可能不仅具有新标签,还具有已知的标签,且在新标签1还未达到更新的阈值时,新标签2出现,也就是以往的新标签发现算法不具有同时发现两个或者更多的新标签的能力。数据流中的增量学习问题以往的解决办法多是基于集成的方式,将数据流划分成多个数据块,给每一个数据块训练一个模型,然后集成起来作为总的模型,这样的办法并不能直接应用于有新标签产生的多标签数据流分类环境中,因为在该过程中有新标签的诞生,这个模型的更新带来了更大的挑战。
技术实现思路
专利技术目的:本专利技术所要解决的问题是动态多标签分类问题(多标签数据流分类问题 ...
【技术保护点】
1.一种基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于,包括如下步骤:步骤1,初始化阶段:根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型以及基于k‑means的集成聚类新标签发现模型;步骤2,数据流预测阶段:对于数据流中的每一个新样本,经过新标签发现模型判断是否具有新标签,将具有新标签的样本放入一个缓冲区存储,然后传递给分类模型判断分类标签;步骤3,模型更新阶段:当缓冲区达到设定的阈值,针对新标签基于pairwise label ranking loss和误分类损失构建新标签子模型,将新标签子模型更新到分类模型中,并基于新标签样本对新标签发现模型更新;其中将新标签子模型更新到分类模型包括如下步骤:S301、使用一个线性模型来表示新标签的分类模型:
【技术特征摘要】
1.一种基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于,包括如下步骤:步骤1,初始化阶段:根据初始数据基于pairwiselabelrankingloss和误分类损失建立初始分类模型以及基于k-means的集成聚类新标签发现模型;步骤2,数据流预测阶段:对于数据流中的每一个新样本,经过新标签发现模型判断是否具有新标签,将具有新标签的样本放入一个缓冲区存储,然后传递给分类模型判断分类标签;步骤3,模型更新阶段:当缓冲区达到设定的阈值,针对新标签基于pairwiselabelrankingloss和误分类损失构建新标签子模型,将新标签子模型更新到分类模型中,并基于新标签样本对新标签发现模型更新;其中将新标签子模型更新到分类模型包括如下步骤:S301、使用一个线性模型来表示新标签的分类模型:其中,hnew(x)表示对线性模型的输出值按照φ(x)取值,表示新标签的权值向量的转置,bnew表示新标签的偏移值,fnew(x)表示新标签的线性模型;S302、基于Buffer1和Buffer2的数据优化下列函数:R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面:其中,B1表示Buffer1中的样本,B2表示Buffer2中的样本,εnew表示对新标签在第j个样本上的惩罚因子,wnew表示新标签的权值向量,xj表示第j个样本的向量,ynew,j表示第j个样本新标签,fnew(xj)表示线性模型对第j样本的输出值,R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面,c表示一个变量;S303、使用梯度下降法优化得到和bnew后,就得到了新标签的分类模型,然后将起集成到分类模型中,使得分类模型对新标签也具有分类能力。2.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于:步骤1中初始分类模型优化的损失函数为:多标签中,对每一个标签,使用一个线性模型对其建模:其中,hi(x)表示对线性模型的输出值按照φ(x)取值,fi(x)表示线性模型,T表示对矩阵求转置,是标签i的权值向量,bi是偏移值,那么优化的目标损失函数为:其中,R(i)根据标签第j个样本是相关标签还是不相关标签,Yt表示t时刻标签空间,λ1表示平衡参数,yk,j表示第j个样本的第k个标签,λ2表示平衡参数,εi表示对第j个样本的在第i个标签上的惩罚因子,如果标签i是第j个样本的相关标签,定义为不相关标签集合中排序在标签i之前的标签个数:如果标签i是第j个样本的不相关标签,定义为相关标签集合中排序在标签i之的个数:其中I[·]为指示函数;之后利用梯度下降法就可以求解目标函数,初始分类模型建立完成。3.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于:步骤1中,基于k-means的集成聚类模型建...
【专利技术属性】
技术研发人员:吴骏,李永春,闫梦奎,陈港,李宁,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。