【技术实现步骤摘要】
本专利技术涉及流数据库管理系统、数据流挖掘及关联规则挖掘,特别是涉及一种。
技术介绍
随着互联网技术的发展,数据信息呈现爆炸式增长。在这些数据背后,往往蕴含着丰富的信息和知识,可以广泛用于各种应用,如商务管理、市场分析、科学探索等。而当数据信息以一种连续、无限的形式到达时,其蕴含的知识便会随着时间的推移而不断更新。数据挖掘领域的关联规则挖掘技术在传统应用中已经相当成熟,其基于事务数据模型的各种挖掘方法可以快速发现海量存储中的数据相关性。随着新的应用环境的变化,特别是在基于数据流的大量应用中,关联规则挖掘的研究逐渐受到人们的重视。数据流应用有别于传统应用的显著特点是数据的高速、实时性,同时在存储代价昂贵的约束下不可避免地存在易失性。此外,时间上最新的数据往往蕴含着更高的价值,如证券金融市场的交易分析等。在数据流上的关联规则挖掘研究方面,如Top-k,频繁项以及基于事务模型的频繁项集挖掘等都取得了很多有益的成果。但是,由于很多数据流应用中并不存在明确的事务概念,目前还缺乏针对最近时间内数据流关联规则挖掘的有效解决方案。而现有的流数据库管理系统如StreamBase, Coml8等,都只是提供一系列针对数据流处理的基本功能,如属性域的数值计算,滑动窗口,数据流的Join等,无法完成复杂的数据挖掘功能。,是结合现有流数据库管理系统,并在改进数据流关联规则挖掘方法基础上的一种实现。
技术实现思路
本专利技术的目的在于提供一种。本专利技术解决其技术问题采用的技术方案的步骤如下1) 根据应用对数据流的实时性、可靠性以及吞吐率的要求,选择一个满足数据流预处理的流数据库管理系 ...
【技术保护点】
一种基于滑动窗口的数据流关联规则挖掘方法,其特征在于,该方法的步骤如下: 1)根据应用对数据流的实时性、可靠性以及吞吐率的要求,选择一个满足数据流预处理的流数据库管理系统; 2)开发一个数据流关联规则挖掘系统实现与上述步骤1)中选取的流数据库管理系统的交互; 3)分析应用主题域,根据要进行关联规则挖掘的原始数据项特征,确定数据抽象和归一化的预处理方法,部署在步骤1)选定的流数据库管理系统; 4)根据应用对关联规则挖掘的需求,确定滑动窗口和滑动步长的大小,确定关联规则挖掘的最小支持度和置信度以及相应允许的误差值; 5)数据流关联规则挖掘系统根据可视化配置参数对最近一段时间内的数据流进行关联规则挖掘,并实时输出挖掘得到的关联规则。
【技术特征摘要】
1、一种基于滑动窗口的数据流关联规则挖掘方法,其特征在于,该方法的步骤如下1)根据应用对数据流的实时性、可靠性以及吞吐率的要求,选择一个满足数据流预处理的流数据库管理系统;2)开发一个数据流关联规则挖掘系统实现与上述步骤1)中选取的流数据库管理系统的交互;3)分析应用主题域,根据要进行关联规则挖掘的原始数据项特征,确定数据抽象和归一化的预处理方法,部署在步骤1)选定的流数据库管理系统;4)根据应用对关联规则挖掘的需求,确定滑动窗口和滑动步长的大小,确定关联规则挖掘的最小支持度和置信度以及相应允许的误差值;5)数据流关联规则挖掘系统根据可视化配置参数对最近一段时间内的数据流进行关联规则挖掘,并实时输出挖掘得到的关联规则。2、 根据权利要求l所述的一种基于滑动窗口数据流关联规则挖掘方法,其 特征在于所述步骤l)中选用的流数据库管理系统应满足以下条件a)支持数据 流的多源输入输出控制;b)支持数据流域值的数值计算;c)支持数据流的连续査 询;d)支持数据流的滑动窗口操作。3、 根据权利要求l所述的一种基于滑动窗口数据流关联规则挖掘方法,其 特征在于所述步骤2)中关联规则挖掘系统负责以下三个任务a)接收流数据库 管理系统预处理后提供的数据源;b)挖掘数据源中项与项之间存在的关联规则; c)根据用户设定的控制参数,实时发布已挖掘的所有关联规则。4、 根据权利要求l所述的一种基于滑动窗口数据流关联规则挖掘方法,其 特征在于所述步骤2)中关联规则挖掘系统的实现方法如下a)实现流数据库管 理系统数据流订阅的subscribe接口,接收数据预处理的输出作为输入源;b)不 遗漏地挖掘最近一段时间内数据流中满足用户自定义的所有关联规则c)提供数 据结果集的对外发布的publish接口,用于实时、动态地向外部设备输出更新。5、 根据权利要求l所述的一种基于滑动窗口数据流关联规则挖掘方法,其 特征在于所述步骤3)中的数据预处理需要满足以下需求a)预处理数据后必 须保证原始数据流的顺序不发生变化,即先到达的数据总是先处理先输出;b) 抽象数据的结构特征,定义合理的数据格式;c)对数据进行归一化,确定数据之 间的比较准则。6、 根据权利要求l所述的一种基于滑动窗口数据流关联规则挖掘方法,其特征在于所述步骤4)中的滑动窗口和滑动步长的大小、最小支持度、置信度 和误差的设定a) 根据应用实际对最近多久时间内数据流的需...
【专利技术属性】
技术研发人员:寿黎但,胡天磊,陈珂,陈刚,严澄,
申请(专利权)人:浙江大学,
类型:发明
国别省市:86[中国|杭州]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。