一种能够处理重现的概念的检测方法技术

技术编号:18238237 阅读:39 留言:0更新日期:2018-06-17 01:42
本发明专利技术公开了一种用于处理数据流中重复概念的技术方案,该方法通过比较不同时间的窗口中的数据分布来检测概念变化,同时利用一个图保存之前出现过的概念,在检测到漂移之后,首先预测图中保存的概念在此次重现的可能性大小,然后依次验证,检验当前是否发生了概念重现,仿真结果表明,本发明专利技术所提出的方法能够有效地检测突变漂移和渐变漂移,并能够发现概念重现,有效地提高了分类正确率,该发明专利技术可以应用于传感器网络异常检测、信用卡欺诈行为检测、天气预报和垃圾邮件检测等众多实际问题中。 1

A detection method that can handle recurring concepts

The present invention discloses a technical scheme for processing repetitive concepts in a data stream. This method detects conceptual changes by comparing the data distribution in a window at different times, and uses a graph to save the previous concept. After detecting the drift, the concept saved in the graph is predicted first. The result shows that the method proposed by the invention can detect abrupt drift and gradient drift effectively, and can discover concept recurrence and effectively improve the classification accuracy. The invention can be applied to sensor network anomaly detection, Credit card fraud detection, weather forecast and spam detection and many other practical problems. One

【技术实现步骤摘要】
一种能够处理重现的概念的检测方法
本专利技术属于数据挖掘与机器学习
,涉及一种面向概念漂移环境的数据流分类方法,尤其是提出了提出一种能够处理重现的概念的检测方法,该方案主要实验结果表明能较好地适应概念漂移数据流环境,可以及时并且正确地检测到数据流中的概念漂移及重复概念,有效地提高分类器的分类正确率。该方法可以应用于传感器网络异常检测、信用卡欺诈行为监测、天气预报和垃圾邮件检测等众多实际问题中。
技术介绍
数据挖掘的基本问题是处理随时间增长的大量数据,待处理的海量数据都以高速有序的形式到达,此类数据称为数据流。在动态变化和不平稳的环境中,数据分布会随着时间改变,产生概念漂移现象。在这里概念就是指分类问题中输入变量X和目标变量y之间的联合概率。那么概念漂移就是指输入变量和目标变量之间联合概率的变化。如公式(1)所示:公式(1)定义了时间t0和t1之间的概念漂移。其中可能是P(y)发生了改变,也可能是P(X|y)发生了改变。现实生活中有许多关于概念漂移的例子。例如,在垃圾邮件分类问题中,垃圾邮件的发送者为了避免自己发送的邮件被过滤掉,会对邮件中的一些关键字进行修改,从而躲避检测。或者是邮件的接收者对于某一类邮件的态度的转变,某类邮件在某段时间被接收者认定为垃圾邮件,可能过了一段时间之后接收者突然转变对此类邮件的态度,从而变得愿意接收此类邮件。又例如,当预测超市一周的销售额时,往往会根据广告投入和促销活动等因素进行预测,但是建立的预测模型不可能一直都保持较高的预测正确率,因为销售额可能会受假期等因素的影响。影响销售行为的因素会随时出现,因而无法避免。在处理有概念变化的数据时,要注意当数据流中出现变化时模型的自适应问题。概念漂移检测能够及时捕捉到数据流的变化,并在发生变化后更新模型,使分类模型能够保持较高的分类正确率。概念重现是概念漂移的特殊情况。它是指一个新概念出现在数据流中,然后消失一段时间,之后再次出现的现象。在概念重现的情况下,以前出现过的概念会在将来再次出现,因此旧的分类模型可以用于将来的分类。但是现有的检测概念漂移的文献,大多会忽略这种现象,它们总是把漂移后产生的概念当做是一个新概念,没有考虑这个概念是否在过去出现过。在数据流的研究领域中,对于概念漂移的处理可分为基于触发的方法和逐渐演化的方法。基于触发的方法利用明确的检测方法来指出概念变化,并根据检测的结果来决定是否更新分类模型。然而逐渐演化的方法不检测变化,这种方法通常会保持一组分类模型,并基于它们的性能定期进行更新。在文献“Learningwithdriftdetection”(GAMAJ,MEDASP,CASTILLOG,etal.Learningwithdriftdetection[M]//Advancesinartificialintelligence-SBIA2004.Berlin:Springer,2004:286-295.)中提出的DDM算法通过监控当前模型的错误率来检测变化。Baena-Garcia等发现DDM方法在检测渐变的概念漂移时效果不佳,为此在文献“Earlydriftdetectionmethod”(BAENA-GARCIAM,CAMPO-AVILAJD,FIDALGOR,etal.Earlydriftdetectionmethod[C]//TheProceedingsofthe4thECMLPKDDInternationalWorkshoponKnowledgeDiscoveryfromDataStreams,CA:AAAI,2006:77-86.)中提出了EDDM算法,提高了检测渐变概念漂移的效果。ADWIN方法中滑动一个固定的检测窗口,存放最近读入的数据,采用指数直方图的变形作为数据结构,检测窗口中的数据变化。文献“Exponentiallyweightedmovingaveragechartsfordetectingconceptdrift”(ROSSGJ,ADAMSNM,TASOULISD.K,etal.Exponentiallyweightedmovingaveragechartsfordetectingconceptdrift[J].PatternRecognitionLetters,2012,33(3):191-198.)提出了EWMA(Exponentiallyweightedmovingaveragecharts)算法,利用指数加权移动平均控制图(Exponentiallyweightedmovingaveragecharts)监控错误率,当错误率超过一定阈值,则说明发生概念漂移。Sakthithasan等[和Pears等提出了SeqDrift检测算法,该方法采用蓄水池抽样来进行内存管理,很大程度上提高了在缓慢变化情况下的检测灵敏度。在逐渐演化的方法中,SEA算法是最早利用从数据流中学习得到的分类器集成处理概念漂移的算法,根据简单多数投票做出预测。AWE算法与SEA算法类似,它根据测试数据上分类器的分类正确率来决定各基分类器的权值。动态加权多数算法(DWM)基于加权多数算法,它维持多个预测模型的集成,每个模型都有一个对应的权重,DWM根据分类器性能的变化动态地创建和删除分类器,并利用加权多数投票对分类结果进行预测,分类器的权值是动态变化的。EB算法也是一种集成方法,它利用连续的数据块来创建分类器,根据每个分类器在最后一个数据块上的分类正确率来决定该分类器的权值,当分类器不适应当前的数据时,就会创建一个新分类器。并且它也能处理概念重现的现象。OCBoost是一种在线boosting算法,它将几种其他的在线boosting算法互相联系起来以获得更好的性能。DDD算法是基于分类器差异性的动态集成方法,算法中还使用了内部漂移检测来加速自适应。在最新的关于概念重现的文献中,Katakis等采用数据流聚类的方法构造和更新分类器的集成,把不同批的数据映射成不同的概念向量,让不同批次的实例代表不同的概念,最终在每一个概念向量簇上训练一个渐进式的分类器,当一批新实例到达,识别这批数据属于哪一个概念,应用对应的分类器来预测实例的类标;Gomes等提出一个基于情境感知的数据流学习系统,这个系统利用上下文信息来改进已有的处理概念变化和概念重现的集成方法,根据概念和上下文来添加或删除分类器;Abad等提出一个解决概念重现问题的框架,用于垃圾邮件的检测问题,该方法处理在整个数据流学习过程中检测到的和概念漂移有关的上下文信息。
技术实现思路
技术问题:本专利技术致力于数据流中概念漂移检测和处理,并在此基础上提出一种检测概念重现的技术方案。所提出的方法能够有效地检测突变漂移和渐变漂移,并能够发现概念重现,有效地提高了分类正确率,减小检测时的时间消耗。技术方案:一种能够处理重现的概念的检测方法,该专利技术主要有两个阶段组成:概念检测阶段和建立分类器阶段,本专利技术首先提出了一种了概念漂移的检测方法(Distribution-BasedDetectionMethod,DBDM),该方法通过比较不同时间的窗口中的数据分布来检测概念变化。并在此基础上提出了一种检测概念重现的分类算法(RecurrentDetectionandPredicti本文档来自技高网
...
一种能够处理重现的概念的检测方法

【技术保护点】
1.一种能够处理重现的概念的检测方法,其特征在于:该方法主要有两个阶段组成:概

【技术特征摘要】
1.一种能够处理重现的概念的检测方法,其特征在于:该方法主要有两个阶段组成:概念检测阶段和建立分类器阶段,检测方法包括一种了概念漂移的检测方法(Distribution-BasedDetectionMethod,DBDM),该方法通过比较不同时间的窗口中的数据分布来检测概念变化,并在此基础上提出了一种检测概念重现的分类算法(RecurrentDetectionandPrediction,RDP),此方法利用一个图保存之前出现过的概念,在检测到漂移之后,首先预测图中保存的概念在此次重现的可能性大小,然后依次...

【专利技术属性】
技术研发人员:孙艳歌卲罕李艳灵黄俊郭颂白洋
申请(专利权)人:信阳师范学院
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1