当前位置: 首页 > 专利查询>浙江大学专利>正文

基于滑动窗口的数据流关联规则挖掘方法技术

技术编号:4115960 阅读:289 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于滑动窗口的数据流关联规则挖掘方法。利用流数据库管理系统的输入输出机制,将应用产生的原始数据流接入流数据库管理系统。在流数据库管理系统中建立数据流预处理应用环境,并将处理后的输出数据流传递给关联规则挖掘系统。使用关联规则挖掘系统时,用户通过设置滑动窗口大小、步长,关联规则的最小支持度、置信度及其相应的误差值确定关联规则查询条件。关联规则挖掘系统将产生的关联规则实时输出给外部设备。利用数据流上关联规则挖掘的现有研究及实现成果,提出基于滑动窗口的数据流关联规则方法,在已有的流数据库管理系统上,使用者可以根据应用需求选择合适的查询参数,获得最好的性能。

【技术实现步骤摘要】

本专利技术涉及流数据库管理系统、数据流挖掘及关联规则挖掘,特别是涉及一种。
技术介绍
随着互联网技术的发展,数据信息呈现爆炸式增长。在这些数据背后,往往蕴含着丰富的信息和知识,可以广泛用于各种应用,如商务管理、市场分析、科学探索等。而当数据信息以一种连续、无限的形式到达时,其蕴含的知识便会随着时间的推移而不断更新。数据挖掘领域的关联规则挖掘技术在传统应用中已经相当成熟,其基于事务数据模型的各种挖掘方法可以快速发现海量存储中的数据相关性。随着新的应用环境的变化,特别是在基于数据流的大量应用中,关联规则挖掘的研究逐渐受到人们的重视。数据流应用有别于传统应用的显著特点是数据的高速、实时性,同时在存储代价昂贵的约束下不可避免地存在易失性。此外,时间上最新的数据往往蕴含着更高的价值,如证券金融市场的交易分析等。在数据流上的关联规则挖掘研究方面,如Top-k,频繁项以及基于事务模型的频繁项集挖掘等都取得了很多有益的成果。但是,由于很多数据流应用中并不存在明确的事务概念,目前还缺乏针对最近时间内数据流关联规则挖掘的有效解决方案。而现有的流数据库管理系统如StreamBase, Coml8等,都只是提供一系列针对数据流处理的基本功能,如属性域的数值计算,滑动窗口,数据流的Join等,无法完成复杂的数据挖掘功能。,是结合现有流数据库管理系统,并在改进数据流关联规则挖掘方法基础上的一种实现。
技术实现思路
本专利技术的目的在于提供一种。本专利技术解决其技术问题采用的技术方案的步骤如下1) 根据应用对数据流的实时性、可靠性以及吞吐率的要求,选择一个满足数据流预处理的流数据库管理系统;2) 开发一个数据流关联规则挖掘系统实现与上述步骤l)中选取的流数据库管理系统的交互;3) 分析应用主题域,根据要进行关联规则挖掘的原始数据项特征,确定数据抽象和归一化的预处理方法,部署在步骤l)选定的流数据库管理系统;4) 根据应用对关联规则挖掘的需求,确定滑动窗口和滑动步长的大小,确定关联规则挖掘的最小支持度和置信度以及相应允许的误差值;5) 数据流关联规则挖掘系统根据可视化配置参数对最近一段时间内的数据流进行关联规则挖掘,并实时输出挖掘得到的关联规则。所述步骤l)中选用的流数据库管理系统应满足以下条件:a)支持数据流的多源输入输出控制;b)支持数据流域值的数值计算;C)支持数据流的连续査询;d)支持数据流的滑动窗口操作。所述步骤2)中关联规则挖掘系统负责以下三个任务a)接收流数据库管理系统预处理后提供的数据源;b)挖掘数据源中项与项之间存在的关联规则;C)根据用户设定的控制参数,实时发布已挖掘的所有关联规则。所述步骤2)中关联规则挖掘系统的实现方法如下:a)实现流数据库管理系统数据流订阅的subscribe接口,接收数据预处理的输出作为输入源;b)不遗漏地挖掘最近一段时间内数据流中满足用户自定义的所有关联规则c)提供数据结果集的对外发布的publish接口,用于实时、动态地向外部设备输出更新。所述步骤3)中的数据预处理需要满足以下需求a)预处理数据后必须保证原始数据流的顺序不发生变化,即先到达的数据总是先处理先输出;b)抽象数据的结构特征,定义合理的数据格式;c)对数据进行归一化,确定数据之间的比较准则。所述步骤4)中的滑动窗口和滑动步长的大小、最小支持度、置信度和误差的设定a) 根据应用实际对最近多久时间内数据流的需求以及关联规则挖掘的更新频率,确定系统中滑动窗口和滑动步长的大小;b) 从应用实际需求出发,确定最小支持度s为0《s《1,则在数据流中出现频率超过8%的数据项定义为频繁项;确定最小置信度C为0《C《1,则在数据流中某个频繁项x出现后t时间内出现,且频率大于频繁项X出现总次数的c%的数据项y,与数据项x构成关联规则X—y;c) 确定支持度误差e和置信度误差Ti:关联规则挖掘系统保证,当e《s并且ri《c时,滑动窗口 W中挖掘到的关联规则x—y满足i)数据项x出现次数的估计值f(x)与实际值F(x)的误差小于eW; ii)数据项y出现次数的估计值f(y)与实际值F(y)的误差小于ri讽。所述步骤5)中使用数据流关联规则挖掘系统需要满足以下要求a)实现可视化的参数配置界面,确定关联规则挖掘系统的模型;b)实现基于滑动窗口的关联规则挖掘方法c)实现数据结果集输出的publish接口 ,可用于多种外置监控设备。所述步骤5)中基于滑动窗口的关联规则挖掘方法如下a) 根据步骤4)中设定的滑动窗口 W的大小,将整个滑动窗口划分成N个子窗口,即每个窗口的大小为W/N;b) 当数据流进入子窗口时,根据步骤4)中设定的最小支持度误差e,利用Space-Saving方法挖掘子窗口内的频繁项;Space-Saving方法在误差允许的范围内,至多过高地估算频繁项x的出现次数error(x);c) 根据步骤4)中设定的最小置信度误差Ti,分别对步骤b)中已发现的频繁项x紧随出现的所有数据项y采用Probabilistic Lossy Counting(PLC)方法,PLC方法在误差允许的范围内,至多过低地估算频繁项y的出现次数error(y);d) 对窗口进行查询时,将窗口内所有子窗口中发现的关联组(x,y)的出现次数和误差分别进行累加,根据步骤4)中设定的最小支持度和最小置信度以及误差值,则满足f(x)-error(x)>(s-e)W且f(y)+error(y)+error(x)〉c(f(x)-error(x))的关联组(x,y)构成有效的关联规则x—y;e) 当窗口滑动过一个子窗口大小时,抛弃时间上最早的一个子窗口的数据,并加入最新时间的一个子窗口数据进行重构。本专利技术具有的有益效果是充分利用了利用数据流上关联规则挖掘的现有研究及实现成果,提出的基于滑动窗口的数据流关联规则方法,在己有的流数据库管理系统上,使用者可以根据应用需求选择合适的査询参数,获得最好的性能。附图说明图1是本专利技术实施步骤流程图。图2是融合査询系统工作原理示意图。图3是关联规则挖掘原理示意图。具体实施例方式现结合附图和实施例对本专利技术作进一步说明。1、如图1与图2所示,本专利技术具体实施过程和工作原理如下1) 根据应用对数据流的实时性、可靠性以及吞吐率的要求,选择一个满足数据流预处理的流数据库管理系统;2) 开发一个数据流关联规则挖掘系统实现与上述步骤1)中选取的流数据库管理系统的交互;3) 分析应用主题域,确定要进行关联规则挖掘的原始数据项特征,确定数据 抽象和归一化的预处理方法;4) 根据应用对关联规则挖掘的需求,确定滑动窗口和滑动步长的大小,确定 关联规则挖掘的最小支持度和置信度以及相应允许的误差值;5) 数据流关联规则挖掘系统根据可视化配置参数对最近一段时间内的数据 流进行关联规则挖掘,并实时输出挖掘得到的关联规则。步骤l)中选用的流数据库管理系统应满足以下条件a)支持数据流的多源输 入输出控制;b)支持数据流域值的数值计算;c)支持数据流的连续查询;d)支持滑 动窗口操作。常用的流数据库管理系统可以考虑StreamBase或者Cora18,它作 为图2所示的数据流预处理系统。步骤2)中数据流关联规则挖掘系统负责以下三个任务:a)接收流数据库管理 系统预处理后提供的数据源;b本文档来自技高网...

【技术保护点】
一种基于滑动窗口的数据流关联规则挖掘方法,其特征在于,该方法的步骤如下:  1)根据应用对数据流的实时性、可靠性以及吞吐率的要求,选择一个满足数据流预处理的流数据库管理系统;  2)开发一个数据流关联规则挖掘系统实现与上述步骤1)中选取的流数据库管理系统的交互;  3)分析应用主题域,根据要进行关联规则挖掘的原始数据项特征,确定数据抽象和归一化的预处理方法,部署在步骤1)选定的流数据库管理系统;  4)根据应用对关联规则挖掘的需求,确定滑动窗口和滑动步长的大小,确定关联规则挖掘的最小支持度和置信度以及相应允许的误差值;  5)数据流关联规则挖掘系统根据可视化配置参数对最近一段时间内的数据流进行关联规则挖掘,并实时输出挖掘得到的关联规则。

【技术特征摘要】
1、一种基于滑动窗口的数据流关联规则挖掘方法,其特征在于,该方法的步骤如下1)根据应用对数据流的实时性、可靠性以及吞吐率的要求,选择一个满足数据流预处理的流数据库管理系统;2)开发一个数据流关联规则挖掘系统实现与上述步骤1)中选取的流数据库管理系统的交互;3)分析应用主题域,根据要进行关联规则挖掘的原始数据项特征,确定数据抽象和归一化的预处理方法,部署在步骤1)选定的流数据库管理系统;4)根据应用对关联规则挖掘的需求,确定滑动窗口和滑动步长的大小,确定关联规则挖掘的最小支持度和置信度以及相应允许的误差值;5)数据流关联规则挖掘系统根据可视化配置参数对最近一段时间内的数据流进行关联规则挖掘,并实时输出挖掘得到的关联规则。2、 根据权利要求l所述的一种基于滑动窗口数据流关联规则挖掘方法,其 特征在于所述步骤l)中选用的流数据库管理系统应满足以下条件a)支持数据 流的多源输入输出控制;b)支持数据流域值的数值计算;c)支持数据流的连续査 询;d)支持数据流的滑动窗口操作。3、 根据权利要求l所述的一种基于滑动窗口数据流关联规则挖掘方法,其 特征在于所述步骤2)中关联规则挖掘系统负责以下三个任务a)接收流数据库 管理系统预处理后提供的数据源;b)挖掘数据源中项与项之间存在的关联规则; c)根据用户设定的控制参数,实时发布已挖掘的所有关联规则。4、 根据权利要求l所述的一种基于滑动窗口数据流关联规则挖掘方法,其 特征在于所述步骤2)中关联规则挖掘系统的实现方法如下a)实现流数据库管 理系统数据流订阅的subscribe接口,接收数据预处理的输出作为输入源;b)不 遗漏地挖掘最近一段时间内数据流中满足用户自定义的所有关联规则c)提供数 据结果集的对外发布的publish接口,用于实时、动态地向外部设备输出更新。5、 根据权利要求l所述的一种基于滑动窗口数据流关联规则挖掘方法,其 特征在于所述步骤3)中的数据预处理需要满足以下需求a)预处理数据后必 须保证原始数据流的顺序不发生变化,即先到达的数据总是先处理先输出;b) 抽象数据的结构特征,定义合理的数据格式;c)对数据进行归一化,确定数据之 间的比较准则。6、 根据权利要求l所述的一种基于滑动窗口数据流关联规则挖掘方法,其特征在于所述步骤4)中的滑动窗口和滑动步长的大小、最小支持度、置信度 和误差的设定a) 根据应用实际对最近多久时间内数据流的需...

【专利技术属性】
技术研发人员:寿黎但胡天磊陈珂陈刚严澄
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1