当前位置: 首页 > 专利查询>王洁专利>正文

一种基于滑动窗口的数据流加权频繁模式挖掘方法技术

技术编号:6982044 阅读:327 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于滑动窗口的数据流加权频繁模式挖掘方法,该方法采用SWFP单元来压缩存储数据流滑动窗口内的加权频繁模式;当流数据流过时,本方法仅对数据进行单遍扫描,并将数据包含的模式信息及权重信息增量更新到SWFP单元中的SWFP-Tree模式树中,随着新数据不断流入滑动窗口,过期数据被删除,方法采用两种剪枝策略来定期删除模式树种不频繁模式,以便压缩SWFP-Tree模式树的存储空间。本发明专利技术提供的数据流加权频繁模式挖掘方法具有快速、有效和时空需求稳定性高的特点,并适用于数据流环境的加权频繁模式挖掘。

【技术实现步骤摘要】

本专利技术涉及通信领域,具体涉及一种数据流加权频繁模式挖掘方法。
技术介绍
数据挖掘技术已经广泛的应用在Web日志分析、网络安全监控等当中。数据挖掘技术可以有效地、精确的对用户的访问、检索进行有限的扩展,提高用户的效率;还可根据实际用户的浏览情况,挖掘用户的兴趣点,定期为用户推送相关信息,以及调整网站中网页的链接结构和内容,为用户提供个人的定制服务。频繁模式挖掘是发现关联规则的基础,传统的频繁模式挖掘方法认为数据中每个项都是同等重要的。然而在实际应用中,特定的项或模式由于用户对其兴趣度不同,可能比其他项或模式更加重要,例如在零售业中,钻石戒指的支持度可能比发卡的支持度低很多,但销售者显然对前者的知识信息具有较高的兴趣度;又如在生物数据分析中,某些基因对特定的疾病治疗比其他基因更为重要。若采用传统的频繁模式挖掘方法,有较低支持度但较高兴趣度的模式信息将无法被挖掘。因此在频繁模式挖掘中,可以为每个项目赋予不同的权值来反映不同的重要性,以便挖掘出具有较高兴趣度但支持度较低的项或模式。随着hternet以及传感器网络等技术的发展,越来越多应用中的数据以流数据的形式出现。流数据具有连续、流本文档来自技高网...

【技术保护点】
1.一种数据流加权频繁模式挖掘方法,所述数据流加权频繁模式挖掘方法基于滑动窗口进行操作,所述滑动窗口是数据流上固定个数的事务序列,并随着时间的推进不断向前滑动;将滑动窗口SW分割成大小相同的n个子窗口,即基本窗口BW,我们以基本窗口作为更新处理单元,其特征在于,采用SWFP单元来动态维护数据流滑动窗口内的数据的有效数据信息,实现加权频繁模式的数据挖掘,SWFP单元包含一个SWFP-Tree模式树以及一个项头表IHT;上述挖掘方法包括以下步骤:1.进行项头表和SWFP-Tree的初始化;2.往滑动窗口中加入新到达的基本窗口;3.判断滑动窗口是否已经积满,如果判断结果为“是”,则设置当前滑动窗口中...

【技术特征摘要】

【专利技术属性】
技术研发人员:王洁曾宇
申请(专利权)人:王洁曾宇
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1