一种基于历史模型多样性的数据流概念漂移检测方法技术

技术编号:27292279 阅读:29 留言:0更新日期:2021-02-06 12:01
本发明专利技术公开了一种基于历史模型多样性的数据流概念漂移检测方法,步骤如下:方法采用在线装袋放方法在线数据流进行提取,基于多样性标准构建随机森林中的基础树,通过对数据流特征空间的变化检测,来对可能到来的概念漂移进行预警,并识别概念漂移区域,综合漂移预警和漂移区域来识别并处理噪音,最后通过随机森林的集成方法检测概念漂移。本发明专利技术使用随机森林解决概念漂移检测问题,提出基于多样新的历史模型保存策略,以解决实例存储以及如何利用这些模型来促进未来的概念漂移检测的问题。这些模型来促进未来的概念漂移检测的问题。这些模型来促进未来的概念漂移检测的问题。

【技术实现步骤摘要】
一种基于历史模型多样性的数据流概念漂移检测方法


[0001]本专利技术涉及一种基于历史模型多样性的数据流概念漂移检测方法,属于大数据与机器学习


技术介绍

[0002]传统概念漂移检测方法中,处理大量新训练数据时更新学习机(模型),其中模型均在不访问先前数据的情况下进行更新,无需存储或重新处理先前的数据。在数据流处理中,尽管可以独立的以不同数据块作为训练数据,但也可以利用在一个子任务中获得的知识来帮助解决未来的子任务。尤其在工业物联网环境中,底层分布在实际应用中可能是不稳定的,因为生成数据的环境可能会随时间变化。因此,本专利技术针对工业物联网环境,对应保留那些历史模型以供未来使用,以及如何利用这些模型来促进概念漂移检测进行研究,提出一种基于历史模型多样性的数据流概念漂移检测方法,适应多种类型的概念漂移,旨在提高工业物联网数据挖掘、数据分析的可靠性和实时性,便于对概念漂移表示的设备工况变化原因进行深入分析。

技术实现思路

[0003]针对现有技术的不足,本专利技术提供基于历史模型多样性的数据流概念漂移检测方法。
[0004]本专利技术中主要采用的技术方案为:
[0005]一种基于历史模型多样性的数据流概念漂移检测方法,包括如下步骤:
[0006]步骤A.使用在线装袋方法处理数据流;
[0007]步骤B.构建保留历史多样性的基础树,用于构建随机森林;
[0008]步骤C.随着数据流的不断到达,通过对数据特征空间的变化检测,用来警告可能出现的概念漂移,并识别发生概念漂移的区域,若发生概念漂移,并且处于概念漂移出现区域,则被认定为噪声而去除,反之则会被保留,进行概念漂移检测;
[0009]步骤D.通过对随机森林使用集成方法对概念漂移进行检测;判断是否发生概念漂移;
[0010]步骤E.保持随机森林在线更新;内存达到限制后,移除与历史数据中差异最大的模型,并替换为最新的模型,继续维持检测系统运行。
[0011]上述步骤A中:用在线装袋方法对数据流进行处理,并采用启发式方法进行特征选择,训练基础模型,构建随机森林的基础树包括但不限于VFDT树。
[0012]上述步骤A中所述的在线装袋方法,其公式为:
[0013]给定训练数据集d=(x,y),对每个基准模型,会选择实例K次,其中K服从期望方差为λ的泊松分布Ρoisson(λ),并可通过变化的λ使得集合更具有多样性。
[0014]上述步骤B的具体步骤为:
[0015]B1.在数据流持续到达时,采用基于多样性的原则,保留历史基础树,保证随机森
林中树木的多样性;
[0016]B2.当随机森林预设树木达到最大值的时候,去掉导致与其他模型差异度最高的树木。
[0017]上述步骤C的具体步骤为:
[0018]C1.使用变化检测技术,监控数据流特征空间中发生的概念漂移,用来进行概念漂移预警,以及识别概念漂移区域;
[0019]C2.若已经存在概念漂移警告,并且新数据构建的基础树处于概念漂移区域的话,由其生成的基础树会被认定为噪声而去除。
[0020]上述步骤B1中所述的多样性判别方法,其公式为:
[0021][0022]其中是f
i
和f
j
之间的统计值,其计算公式为
[0023][0024]其中N
ab
的a表示f
i
的示例数,b表示f
j
的示例数,1表示正确的分类,0表示错误的分类。
[0025]上述步骤C1中所述的噪声判别方法,可以使用变化检测方法识别噪声以及漂移区域,具体来说:数据的特征空间由一组重叠的超球体划分,基于能力模型的经验距离定义了两个数据集之间的距离,漂移区域是由相应的超球体确定的,这些超球体在最高的P能力水平上具有较大的经验距离,概念漂移会在这些最高的P能力水平区域发生;通过将能力空间转换回特征空间并识别发生实际概念漂移的区域,监视该区域能够进行概念漂移的预警以及确定概念漂移区域,以识别噪声。
[0026]上述步骤D包括:使用集成方法对概念漂移进行检测,包括但不仅限于ADWIN、PHT方法,对多种概念漂移进行检测。
[0027]有益效果:本专利技术提供基于历史模型多样性的数据流概念漂移检测方法,对各种概念漂移现象进行检测,并能对工业物联网中噪音进行识别去除。及时监控环境中的数据流信息,实现工业物联网状态的实时监控和应对。
附图说明
[0028]图1为本专利技术的方法流程图。
具体实施方式
[0029]为了使本
的人员更好地理解本申请中的技术方案,下面对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0030]基于历史模型多样性的数据流概念漂移检测方法,包括如下步骤:
[0031]步骤A.使用在线装袋方法处理数据流;
[0032]步骤B.构建保留历史多样性的基础树,用于构建随机森林;
[0033]步骤C.随着数据流的不断到达,通过对数据特征空间的变化检测,用来警告可能出现的概念漂移,并识别发生概念漂移的区域,若发生概念漂移,并且处于概念漂移出现区域,则被认定为噪声而去除,反之则会被保留,进行概念漂移检测;
[0034]步骤D.通过对随机森林使用集成方法对概念漂移进行检测;判断是否发生概念漂移;
[0035]步骤E.保持随机森林在线更新;内存达到限制后,移除与历史数据中差异最大的模型,并替换为最新的模型,继续维持检测系统运行。
[0036]实施例1:
[0037]基于工业大数据的智能产线数据流抽取的在线学习模型,实现故障诊断的动态响应机制,以及对渐变性故障和突发性故障的实时监控和检测。
[0038]本实施例中的基于历史模型多样性的数据流概念漂移检测方法,流程图如图1所示,该方法包括下述步骤:
[0039]S1使用在线装袋方法在线处理数据流;
[0040]S2构建保留历史多样性的基础树用于构建随机森林;
[0041]S3识别概念漂移区域并进行降噪处理;
[0042]S4使用集成方法进行概念漂移检测;
[0043]S5移除最大差异模型并维持检测系统更新。
[0044]在步骤S1中,采用的在线装袋算法如下,给定训练数据集d=(x,y),对每个基础模型,会选择实例K次,其中K服从期望方差为λ的泊松分布Ρoisson(λ)。其中可通过变化的λ使得集合更具有多样性。构建随机森林的基础树包括但不限于VFDT树。基于特征创建新的节点时,采用启发式方法进行特征选择。并倾向于生成更深的树,原因是在随机森林中,需要更深的树是可以接受的,即使单个树木过度拟合,对多棵树的平均值减小了方差,防止了随机森林的过度拟合。同时也保证了基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于历史模型多样性的数据流概念漂移检测方法,包括如下步骤:步骤A.使用在线装袋方法处理数据流;步骤B.构建保留历史多样性的基础树,用于构建随机森林;步骤C.随着数据流的不断到达,通过对数据特征空间的变化检测,用来警告可能出现的概念漂移,并识别发生概念漂移的区域,若发生概念漂移,并且处于概念漂移出现区域,则被认定为噪声而去除,反之则会被保留,进行概念漂移检测;步骤D.通过对随机森林使用集成方法对概念漂移进行检测;判断是否发生概念漂移;步骤E.保持随机森林在线更新;内存达到限制后,移除与历史数据中差异最大的模型,并替换为最新的模型,继续维持检测系统运行。2.根据权利要求1所述的一种基于历史模型多样性的数据流概念漂移检测方法,其特征在于,所述步骤A中,用在线装袋方法对数据流进行处理,并采用启发式方法进行特征选择,训练基础模型,构建随机森林的基础树包括但不限于VFDT树。3.根据权利要求1所述的一种基于历史模型多样性的数据流概念漂移检测方法,其特征在于,所述步骤B的具体步骤为:B1.在数据流持续到达时,采用基于多样性的原则,保留历史基础树,保证随机森林中树木的多样性;B2.当随机森林预设树木达到最大值的时候,去掉导致与其他模型差异度最高的树木;所述的多样性判别方法,其公式为:其中Q(f
i
,f
j
)是f
i
和f
j

【专利技术属性】
技术研发人员:刘立叶根张杰韩光洁
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1