一种基于图的存储模式挖掘方法技术

技术编号:6057723 阅读:226 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于图的存储模式挖掘方法,通过一次遍历将原始序列信息累积并压缩保存于频繁模式图中,再利用模式生长条件通过对频繁模式图中频繁子图的游历产生优化有效的模糊频繁子模式。通过图中拓扑对原始序列信息的保存避免了对序列的多次扫描;同时其利用频度模式简化挖掘目标,降低了挖掘开销,适合大规模数据密集应用的存储模式挖掘并支持在线流式挖掘。

A storage pattern mining method based on graph

The present invention provides a method for mining storage model based on the graph, by a traversal of the original series information accumulated and stored in compressed frequent pattern graph, and then use fuzzy optimization model of effective frequent pattern growth conditions through the frequent subgraph of frequent pattern graph if travel. The graph topology preservation of the original sequence information to avoid repeated sequence scanning; at the same time using the simplified frequency pattern mining targets, reduce the mining cost, suitable for large-scale data intensive application of storage pattern mining and supports online streaming mining.

【技术实现步骤摘要】

本专利技术涉及存储模式挖掘,尤其涉及基于图的存储模式挖掘方法
技术介绍
应用数据集及存储系统规模的不断扩大对模式分析的效率提出了极高的要求。但 现有存储模式挖掘基于数据挖掘领域中的序列模式SP (Sequential Pattern)(参见SP定 义)方法进行。现有挖掘方法的巨大开销使其难以在实际系统中应用。这是因为SP模式 基于元素间相关性来定义,而对序列中相关性的挖掘是一个NP难题(NP-hard),随着问题 规模增大,模式挖掘的时空性能急剧恶化。因而其对大规模数据密集型应用场景中的存储 模式挖掘无能为力,更无法满足基于存储模式的实时优化需求。基于SP的存储模式挖掘方 法的局限性表现为如下两个方面1.时空开销大由于模式中松耦合关系的定义以及无法避免的对原始序列的多 遍扫描,导致了相应的挖掘方法有很高的时空复杂度。更为严重的是,随着问题规模扩大, 方法的时空开销会呈现指数剧增。因而对于大规模实际存储系统而言,以往挖掘方法的时 空开销导致其基本无法应用。2.无法支持在线流式挖掘SP模式的挖掘方式为对序列数据库的整体挖掘而非 增量式挖掘。因而在原始序列发生变化时不能在之前挖掘模式的基础上进行模式的增量更 新挖掘。基于上述局限性,当前SP方法大都采用静态挖掘方式,将长时间累积的IO序列通 过集中挖掘的方式来进行整体模式更新。在海量IO序列信息面前,集中模式挖掘的方式代 价高昂,无法支持存储系统中实时在线优化的需求。另外,与传统数据挖掘不同,存储模式挖掘的目标在于将模式应用于后续的性能 优化,因而其不要求结果精确(比如频度精确),而只要对优化有效即可(频繁出现即可)。 同时因为利用模式进行性能优化时模式挖掘处于IO关键路径中,因而要求模式挖掘的效 率高且时空复杂度低。紧邻序列模式CISP(Contiguous Item Sequential I^attern)(参见 CISP定义)的挖掘方法虽然对于SP模式进行了简化,但要求所挖掘出的模式频度也是精确 的,虽然可以部分缩减挖掘空间,但其仍是类SP模式的挖掘方法,所以在对大规模数据密 集型应用场景中的存储模式挖掘中仍然无法解决上述问题。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺陷,提供一种适合大规模数据密集应用 的存储模式挖掘方法,并且可以支持在线流式挖掘。本专利技术的目的是通过以下技术方案实现的本专利技术提出了FPG-Grow (FrequentPattern Graph-Grow),包括以下步骤(a)基于原始序列来构建频繁模式图FPG(Frequent Pattern Graph),其中所述原 始序列是信息元素的有序集合;所述频繁模式图的节点集合是由具有相同长度的片段的集合构成的,所述片段是原始序列的子序列,所述频繁模式图的边是有后继关系的两个片段 之间的有向边,所述有后继关系的两个片段是指后片段的头元素为先片段头元素的后继; 边的频度,为此后继关系在原始序列中出现的总次数;(b)从所述频繁模式图中未被访问的边集合中选取频度最高的边;(C)沿所述频度最高的边向两侧进行模式扩展,直到不能满足模式生长条件为 止;(d)重复步骤(b) (C)直到所有频度大于最小阈值的边都被访问过为止。根据本专利技术优选实施例的基于图的存储模式挖掘方法,在所述步骤(a)中的所述 频繁模式图是由原始序列和片段的长度唯一确定的,所述片段的长度可以根据实际应用模 式的特点或用户需求进行设置,但必须是大于1的正整数。根据本专利技术优选实施例的基于图的存储模式挖掘方法,在所述步骤(d)中的所述 最小阈值可以根据实际应用模式的特点,用户需求或内存容量进行设置,但不应低于1。根据本专利技术优选实施例的基于图的存储模式挖掘方法,在所述步骤(C)中的所述 模式生长条件是指相邻的两条边的权重之和与这两条边的共同节点的所有边的权重总和 之间的比值大于给定的阀值。在一些实施例中,所述给定的阀值是可设置的,但必须大于 0. 5。在本专利技术的优选实施例中所述给定的阀值为0. 85。根据本专利技术优选实施例的基于图的存储模式挖掘方法,所述步骤(a)基于原始序 列来构建频繁模式图包括以下步骤(1)为原始序列设置滑动指针,指向原始序列的初始位置;(2)从滑动指针所指原始序列位置截取长度为L的片段,将所述片段加入频繁模 式图的节点集合,并设置该片段为频繁模式图的当前节点;(3)滑动指针向前滑动一位;(4)从滑动指针所指原始序列位置截取长度为L的片段,设置该片段为频繁模式 图的后续节点;如果所述片段不在频繁模式图的节点集合中,则将所述片段加入频繁模式 图的节点集合;(5)当前节点与该后续节点之间形成自然连边,如果所述边不在频繁模式图的边 集合中,则将所述边加入频繁模式图的边集合;如果所述边已在频繁模式图的边集合中,则 将边的频度加1 ;(6)将该后续节点设置为当前节点;滑动指针向前滑动一位;(7)重复上述⑷(5) (6)步骤直到滑动指针指向原始序列的末尾。在一些实施例中,在所述步骤(b)之前还包括频度排序步骤,对所述频繁模式图 中的所有的边按其频度进行排序,得到有序的边序列。根据本专利技术优选实施例的基于图的存储模式挖掘方法,所述频度排序步骤是对频 繁模式图中的所有的边按其频度进行逆排,得到逆排序的边序列。与现有技术相比,本专利技术的上述实施例中的存储模式挖掘方法FPG-Grow创新性 地采用频繁模式图结构FPG来对存储模式进行挖掘,通过图中拓扑对原始序列信息的保存 避免了对序列的多次扫描;同时FPG-Grow通过模式简化有效降低模式挖掘的复杂度,此挖 掘方法的复杂度为O(n)的,而传统的SP模式挖掘方法复杂度是近似0(n2);其利用模糊频 度模式简化挖掘目标,避免了频度检验带来的效率损失,实现了挖掘性能的巨大提升;最后FPG-Grow采用了基于频繁图的累积式数据结构,从其挖掘过程可看出模式挖掘时FPG是增 量更新的,同时在任一模式生长状态可以依据NGC条件沿边得到频繁模式,因而可支持模 式的流式挖掘及基于此模式的实时在线优化。附图说明以下参照附图对本专利技术实施例作进一步说明,其中图1是根据本专利技术实施例的示例序列构建的FPG图;图2是根据本专利技术实施例的示例序列频度逆排后的FPG图;图3是根据本专利技术实施例的示例序列的模式生长的第一步示意图;图4是根据本专利技术实施例的示例序列的模式生长的第二步示意图;图5是根据本专利技术实施例的示例序列模式生长的第三步示意图。具体实施例方式为了使本专利技术的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实 施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术, 并不用于限定本专利技术。在介绍具体实施例之前,首先对本专利技术所涉及的几个概念进行定义1.SP 定义定义1. 1非空集合I = U^i2,...,im}称为项集,其中ik(k = 1,...,m)称为项。定义1.2序列是项集的有序排列子集,记为α = < , ,· · ·, >,其中屮(i = l,...,n)为项集,称为序列的元素。含有k个项的序列长度为k=E IaiI,称为k-序列。定义1. 3 令序列 α = <a1 a2, . . . , ειη>,序列 β = <b1; b2,. . .本文档来自技高网
...

【技术保护点】
一种基于图的存储模式挖掘方法,其特征在于包括下列步骤:(a)基于原始序列来构建频繁模式图,其中所述原始序列是信息元素的有序集合;所述频繁模式图的节点集合是由具有相同长度的片段的集合构成的,所述片段是原始序列的子序列,所述频繁模式图的边是有后继关系的两个片段之间的有向边,所述有后继关系的两个片段是指后片段的头元素分别为先片段头元素的后继;边的频度,为此后继关系在原始序列中出现的总次数;(b)从所述频繁模式图中未被访问的边集合中选取频度最高的边;(c)沿所述频度最高的边向两侧进行模式扩展,直到不能满足模式生长条件为止;(d)重复步骤(b)(c)直到所有频度大于最小阈值的边都被访问过为止。

【技术特征摘要】

【专利技术属性】
技术研发人员:张敬亮梁爽
申请(专利权)人:中国科学院计算技术研究所天津中科蓝鲸信息技术有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1