一种基于AWE-OTLMS-RC-OTL的数据流分类算法制造技术

技术编号:23051073 阅读:17 留言:0更新日期:2020-01-07 14:55
本发明专利技术涉及基于AWE‑OTLMS‑RC‑OTL的数据流分类算法,是一种对数据流进行分类的方法,属于数据分析与机器学习领域,其特征在于采用如下步骤:(1)计算每个基分类器分类误差;(2)计算无效数据检测及剔除函数;(3)构建基分类器;(4)加权整合输出分类概率;(5)判定概念漂移样本错误率;(6)构建新的加权分类器。本发明专利技术有效的抑制了“负迁移”导致的分类准确率下降现象,降低了在检测到概念漂移之前发生概念漂移导致分类准确率下降的程度,加快了适应重现概念速度。这说明本发明专利技术达到较好分类效果,为数据流分类提供了一种准确率较高的新方法。

A data flow classification algorithm based on awe-otlms-rc-otl

【技术实现步骤摘要】
一种基于AWE-OTLMS-RC-OTL的数据流分类算法
本专利技术涉及数据分析与机器学习领域,主要是一种对数据流进行识别分类的方法。
技术介绍
目前,针对数据流分类问题,主要是利用传统的基分类器及融合多个分类器结果的算法实现。一般的处理流程包括先使用旧分类器对新数据流进行分类,如果预测正确的则保留旧分类器,相反则进行删除,并构造新的基分类器,通过不断更新分类器而达到更好的分类效果。常见的有基于邻域数据的K-means及基于Boosting的方法,但是在分类过程中,容易出现实时性低或者陷入局部有效的错误。此外,由于数据流的来源复杂,概念漂移频发,噪声敏感性高等特性,会影响到后续数据流分类的准确率。传统的数据流分类方法需要大量的标签样本训练分类模型,但是标签标记的过程耗时耗力,而且大多数分类方法都必须以获得与目标领域较为相似的源领域为先决条件才能获得较高的分类准确率。很多关于数据流分类的算法,已经发展的相对成熟。例如,K-紧邻、TrAdaBoost以及各种基于二部图的和基于概念漂移的算法。尽管Boosting方法可以一定程度上解决源领域和目标数据不匹配的问题,但是需要调整所有数据的权重,随着数据量的增加会造成计算量的激增。MSIDA等多源迭代自适应算法基于贪婪思想选择源领域,但是需要创建额外的伪标记才能实现数据流的标签标注问题,存在严重的不合理性。OHTWC等方式在异构数据流的分类实现了较好效果,但是需要事先解决每个源领域对应的权值向量,否则无法使用对应权值向量来表示源和目标的相似度。因此,要实时准确地实现数据流分类,达到数据流分类的要求,必须要建立一种高效、准确的分类方法,有效的减少分类时间,提高分类准确率。从而适应不同领域的数据处理要求。
技术实现思路
针对上述现有技术中存在的问题,本专利技术要解决的技术问题是提供一种基于AWE-OTLMS-RC-OTL的数据流分类算法,其具体流程如图1所示。技术方案实施步骤如下:(1)计算每个基分类器分类误差Err:把数据流分成不同的序列,通过交叉留一取样的方式训练不同基分类器的分类误差Err,如下公式所示:式中,Err表示分类器的期望误差,A(b)表示较差取样时较差样本数目,fb是b的密度函数,b表示分类器的边界与最优边界的差值。(2)计算无效数据检测及剔除函数f(x,p):检测及剔除目标领域中所使用数据中的无效数据,大幅度提高分类器的分类效果,公式如下所示:式中,pv,pi表示分类数据权重,且表示常规原始分类器,此处取的SVM分类器,其中Si中的i表示样本的取样组数。(3)构建基分类器fT:构建基分类器,并通过优化函数对分类器进行优化,获得最优化的基分类器,如下公式所示:式中,{(xi,yi)|X×Y|i=1,...,t}表示数据集向量,αi表示数据量的一个调节参数,H表示定义在核函数k(xi,x)上的希尔伯特空间的重构,C表示一个交换参数,l(fT(xt),yt)表示铰链损耗函数。(4)加权整合输出分类概率获得基分类器分类误差后,通过加权平均的方式对基分类器整合获得集成分类器分类输出,如下公式所示:式中,表示第c类中第y个实例的分类概率,ωi表示第i个分类器的权重,这里假设跟第i分类误差成反比。(5)判定概念漂移样本错误率e:预先给定一个阈值FThresh,当FThresh<e的时候认为窗口疑似发生概念漂移现象,这个时候则构建新的集成分类器,公式如下所示:式中,Nerr表示当前分类器对前半段窗口样本的分类错误数量,p为当前窗口长度。(6)构建新的加权分类器f:当数据流发生概念漂移现象时,通过计算最近的样本与存储的各历史分类器之间的领域相似度,以选择最适合对后续样本进行学习的源分类器,如下公式所示:式中,α1,α2表示分类器权重系数,新建分类器是初始化为ws,wt为基分类器加权为集成分类器f时的权重系数,新建分类器是wt=0。本专利技术比现有技术具有的优点:(1)本专利技术有效的抑制了“负迁移”导致的分类准确率下降的现象,提高了前分类器对新到样本的分类准确率,从而有效地提高数据流分类准确率。(2)本专利技术有效的降低了在检测到概念漂移之前发生概念漂移导致的分类准确率下降的程度(3)本专利技术在检测到概念漂移后,使得分类器对新概念重新学习的同时对原先学习到的分类器进行了有效的使用,有效的减少了分类器学习重现概念的时间花费问题,加快了适应重现概念的速度。附图说明为了更好地理解本专利技术,下面结合附图作进一步的说明:图1是建立基于AWE-OTLMS-RC-OTL的数据流分类算法的步骤流程图;图2是建立基于AWE-OTLMS-RC-OTL的数据流分类算法流程图;图3是利用本专利技术对信用卡交易数据流进行分类的结果;具体实施方案下面通过实施案例对本专利技术作进一步详细说明。本实施案例选用的数据集来自于信用卡交易记录,时间长度为一年,数据量为500000条,特征包括交易时间,用户类型,交易地点,历史交易概要等信息。把样本分成1000组,采用交叉留一的方法从1000组数据中各抽取800组样本作为训练集,剩余的200组作为测试集。最终,用作训练的样本总数为400000条,用作测试的样本总数为100000条。本专利技术所提供的AWE-OTLMS-RC-OTL的数据流分类算法整体流程如图1所示,具体步骤如下:(1)计算每个基分类器分类误差Err:把数据流分成不同的序列,通过交叉留一取样的方式训练不同基分类器的分类误差Err,如下公式所示:式中,Err表示分类器的期望误差,此处有计算得Err=[0.3,0.6,0.5,......],A(b)表示较差取样时较差样本数目,通过第一个数据得到A(b)=98,fb是b的密度函数,b表示分类器的边界与最优边界的差值,可以有样本数据分类边界的差值x-x*计算得到。(2计算无效数据检测及剔除函数f(x,p):检测及剔除目标领域中使用数据中的无效数据,大幅度提高分类器的分类效果,公式如下所示:式中,pv,pi表示分类数据权重,此处pv=[0.1,0.4,0.7,......],pi=[0.4,0.2,0.5,......],且表示常规原始分类器,此处取的SVM分类器,其中Si中的i表示样本的取样组数,此处中Si=800。(3)构建基分类器fT:构建基分类器,并通过优化函数对分类器进行优化,获得最优化的基分类器,如下公式所示:式中,{(xi,yi)|X×Y|i=1,...,t}表示数据集向量,αi表示数据量的一个调节参数,H表示定义在核函数k(xi,x)上的希尔伯特空间的重构,C表示一个交换参数,取值0.7,l(fT(xt),yt)表示本文档来自技高网
...

【技术保护点】
1.本专利技术一种基于AWE-OTLMS-RC-OTL的数据流分类算法,其特征在于:(1)计算每个基分类器分类误差;(2)计算无效数据检测及剔除函数;(3)构建基分类器;(4)加权整合输出分类概率;(5)判定概念漂移样本错误率;(6)构建新的加权分类器;具体包括以下六个步骤:/n步骤一:计算每个基分类器分类误差E

【技术特征摘要】
1.本发明一种基于AWE-OTLMS-RC-OTL的数据流分类算法,其特征在于:(1)计算每个基分类器分类误差;(2)计算无效数据检测及剔除函数;(3)构建基分类器;(4)加权整合输出分类概率;(5)判定概念漂移样本错误率;(6)构建新的加权分类器;具体包括以下六个步骤:
步骤一:计算每个基分类器分类误差Err:
把数据流分成不同的序列,通过交叉留一取样的方式训练不同基分类器的分类误差Err,如下公式所示:



式中,Err表示分类器的期望误差,A(b)表示较差取样时较差样本数目,fb是b的密度函数,b表示分类器的边界与最优边界的差值;
步骤二:计算无效数据检测及剔除函数f(x,p):
剔除目标领域中使用数据中的无效数据,大幅度提高分类器的分类效果,公式如下所示:






式中,pv,pi表示分类数据权重,且表示常规原始分类器,此处取的SVM分类器,其中Si中的i表示样本的取样组数;
步骤三:构建基分类器fT:
构建基分类器,并通过优化函数对分类器进行优化,获得最优化的基分类器,如下公式所示:






式中,{(xi,yi)|X...

【专利技术属性】
技术研发人员:赵兴昊王松胡燕祝
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1