基于递增投影规则的广义无冗余序列规则挖掘方法技术

技术编号:12054277 阅读:369 留言:0更新日期:2015-09-16 18:20
本发明专利技术公开了一种基于递增投影规则的广义无冗余序列规则挖掘方法,用于解决现有序列规则挖掘方法生成序列规则效率低的技术问题。技术方案是包括冗余性检查和递增投影产生规则两部分,通过多规则的关联关系,将频繁闭序列和序列生成子的检查精简到重叠集的检查,通过递增消除冗余的方法经行规则投影,从而提升了时间及空间效率。该方法在保障规则完备性的前提下,得到了更为精简的序列规则,提高了生成序列规则的效率。

【技术实现步骤摘要】

本专利技术涉及一种序列规则挖掘方法,特别是涉及一种基于递增投影规则的广义无 冗余序列规则挖掘方法。
技术介绍
文献 "Lo D,Khoo S C,Li J. Mining and Ranking Generators of Sequential Patterns//SDM. 2008:553-564. "公开了利用序列生成子和等价类挖掘序列规则的方 法。该方法引入了序列数据库等价类和序列模式生成子的概念:一个序列数据库中包含在 相同序列集的序列模式集合称为一个等价类;一个序列模式称为生成子,当且仅当该序列 模式不存在与其支持度相同的任何一个真子序列模式。基于MDL原理,可以证明序列模式 生成子比闭序列模式更适合解决分类问题。该文献提出的GenMiner算法产生了最小前件 序列规则全集,首先采用深度优先的搜索策略来创建存储所有序列的前缀搜索树PSL,然后 通过遍历PSL得到包含所有序列模式生成子的超集,得到最小前件序列规则。同时,近年来 序列规则挖掘方面开展的各类算法,虽然在数据组织、处理流程等方面各有不同,但主要分 为三类,如表1所示。 产生序列规则全集的典型算法为TASA、WinMiner。TASA算法分为三个步骤,首先 基于广度优先的搜索策略和滑动窗口的序列支持度定义,通过多遍扫描事件序列,以候选、 剪枝再测试的处理方式发现频繁序列;其次,由频繁集产生序列规则集;最后使用剪枝技 术来筛选无冗余的序列规则。WinMiner算法采用了深度优先的搜索策略和最小发生的序列 支持度定义,只需单遍扫描事件序列便可完成挖掘,且不产生任何候选序列。 产生无冗余序列规则集的典型算法为Extractor,算法采用最小且非重叠发生的 支持度定义和深度优先的搜索策略来发现频繁闭序列及其生成子,保证了频繁闭序列及其 生成子的挖掘质量和挖掘效率;利用非生成子的Apriori性质,避免了冗余的序列生成子 判断;直接由频繁闭序列及其生成子产生序列规则,提高了序列规则的生成质量和生成效 率。 表1典型序列规则挖掘算法分类比较 上述序列规则挖掘算法的发展不难看出,规则的产生方式经历了频繁序列投影、 频繁序列及其生成子投影、频繁闭序列及其生成子投影等阶段;无论是算法的效率、精确程 度、精简粒度都在逐步提高;且都保持了序列规则的完备性,属于无损规则挖掘方法。 有损规则集的挖掘方法典型的算法包括Top-K无冗余序列规则挖掘方法,算法根 据支持度大小,选择前K个序列规则。这样既限定了序列规则数量,又保证了规则代表信息 的有用性,达到了对规则约减的目的,但却损失了支持度较小的序列规则信息。 综上所述,现有的序列规则挖掘算法存在以下不足: (1)无损规则挖掘方法仅考虑了两规则间的包含冗余,忽略了多规则之间的关联 关系,造成了该类方法虽然能够产生完备的规则集,但仍存在冗余; ⑵有损规则挖掘方法虽然考虑了多规则间的关联关系(如Top-K利用多规则间 排序关系、信息序列规则利用多规则的表达关系等),但是方法本身得到的是规则的不完备 集。
技术实现思路
为了克服现有序列规则挖掘方法生成序列规则效率低的不足,本专利技术提供一种基 于递增投影规则的广义无冗余序列规则挖掘方法。该方法包括冗余性检查和递增投影产生 规则两部分,通过多规则的关联关系,将频繁闭序列和序列生成子的检查精简到重叠集的 检查,通过递增消除冗余的方法经行规则投影,从而提升了时间及空间效率。该方法在保障 规则完备性的前提下,得到了更为精简的序列规则,提高了生成序列规则的效率。 本专利技术解决其技术问题所采用的技术方案是:一种基于递增投影规则的广义无冗 余序列规则挖掘方法,其特点是采用以下步骤: 第一部分、冗余性检查的步骤如下: 步骤一、遍历搜索找出闭序列集和生成子集的相同序列构成的重叠集,并删除重 叠集中的相同元素;对于输入的频繁闭序列ee及其生成子集合ge,扫描得到生成子和闭序 列的重叠项是:AB、ABC和ABCD ; 步骤二、找出重叠集在闭序列集合生成子集的投影和被投影序列,即找出生成子 集中能被重叠集元素投影的序列集合,并找出闭序列集中能被重叠集中元素投影的序列 集合;得到重叠集公共集合ge',元素包括AB、ABC和AB⑶。扫描频繁闭序列集合ee,以及 生成子集合ge,得到能投影元素集合g2 :A ;能被投影的元素集合gl :ABCDE ; 步骤三、对重叠集的所有序列进行冗余迹检查,遍历重叠集中元素,将不满足冗余 迹检查的元素删除。对于重叠集进行冗余性迹检查后得到重叠集元素 AB、ABC和ABCD。 第二部分、递增投影产生规则的步骤如下: 步骤一、得到冗余性迹检查后的频繁闭序列及其生成子的重叠集,以及频繁闭序 列中可被重叠集元素投影的投影集合,以及重叠集中可被生成子投影的被投影集合。得到 重叠集元素包括AB、ABC和ABCD ;gl集合:ABCDE ;g2集合:A ; 步骤二、将重叠集中的元素按照字典序排列。按照字典序排列得到AB、ABC和 ABCD ; 步骤三、按照字典序对重叠集中元素依次进行投影。AB、ABC投影得到AB-〉C ;AB、 AB⑶投影得到AB-〉⑶;ABC、AB⑶投影得到ABC-〉D ;最终rl集得到满足置信度阈值的如 下序列规则:ABC-〉D ;AB-〉C ;AB-〉CD ; 步骤四、将重叠集元素投影到投影集中得到无冗余序列规则,并将被投影集中元 素投影到重叠集中得到无冗余序列规则。对于无冗余规则集合r3 :A、AB投影得到A-〉B ; A、ABC投影得到A-〉BC ;A、ABCD投影得到A-〉BCD。对于无冗余规则集合r2 :AB、ABCDE投 影得到 AB-〉CDE ;ABC、ABCDE 投影得到 ABC-〉DE ;ABCD、ABCDE 投影得到 ABCD-〉E。最终 得到所有的无冗余序列规则集合为rl、r2、r3之和,包括ABC-〉D ;AB-〉C ;AB- X:D ;A- >B ; A-〉BC ; A-〉BCD ; AB-〉CDE ; ABC-〉DE ; ABCD-〉E。 本专利技术的有益效果是:该方法包括冗余性检查和递增投影产生规则两部分,通过 多规则的关联关系,将频繁闭序列和序列生成子的检查精简到重叠集的检查,通过递增消 除冗余的方法经行规则投影,从而提升了时间及空间效率。该方法在保障规则完备性的前 提下,得到了更为精简的序列规则,提高了生成序列规则的效率。 下面结合附图和【具体实施方式】对本专利技术作详细说明。【附图说明】 图1是本专利技术方法中冗余性检查的流程图。 图2是本专利技术方法中递增投影消除冗余的流程图。 图3是本专利技术方法实施例得到无冗余序列规则示意图。【具体实施方式】 参照图1-3。本专利技术具体步骤 如下: 基本定义。 事件,事件序列:事件是给定事件类型集ε =取,E2, L,EJ中的事件E和事件发 生时间t的二元组(E,t)。事件序列是由若干ε中的事件按发生时间先后排列的序列,表 示为 ES =〈 (E1, t),(E2, t2),L, (Es, ts) >。 序列:一个序列是由若干事件组成:α =〈(Epti),(E2,t2),L,(Ek,tk)>,简记为α =<E1E2L Ek>〇 串接,投影:给定序列 本文档来自技高网
...

【技术保护点】
一种基于递增投影规则的广义无冗余序列规则挖掘方法,其特征在于包括以下步骤:第一部分、冗余性检查的步骤如下:步骤一、遍历搜索找出闭序列集和生成子集的相同序列构成的重叠集,并删除重叠集中的相同元素;对于输入的频繁闭序列ee及其生成子集合ge,扫描得到生成子和闭序列的重叠项是:AB、ABC和ABCD;步骤二、找出重叠集在闭序列集合生成子集的投影和被投影序列,即找出生成子集中能被重叠集元素投影的序列集合,并找出闭序列集中能被重叠集中元素投影的序列集合;得到重叠集公共集合ge’,元素包括AB、ABC和ABCD;扫描频繁闭序列集合ee,以及生成子集合ge,得到能投影元素集合g2:A;能被投影的元素集合g1:ABCDE;步骤三、对重叠集的所有序列进行冗余迹检查,遍历重叠集中元素,将不满足冗余迹检查的元素删除;对于重叠集进行冗余性迹检查后得到重叠集元素AB、ABC和ABCD;第二部分、递增投影产生规则的步骤如下:步骤一、得到冗余性迹检查后的频繁闭序列及其生成子的重叠集,以及频繁闭序列中可被重叠集元素投影的投影集合,以及重叠集中可被生成子投影的被投影集合;得到重叠集元素包括AB、ABC和ABCD;g1集合:ABCDE;g2集合:A;步骤二、将重叠集中的元素按照字典序排列;按照字典序排列得到AB、ABC和ABCD;步骤三、按照字典序对重叠集中元素依次进行投影;AB、ABC投影得到AB—>C;AB、ABCD投影得到AB—>CD;ABC、ABCD投影得到ABC—>D;最终r1集得到满足置信度阈值的如下序列规则:ABC—>D;AB—>C;AB—>CD;步骤四、将重叠集元素投影到投影集中得到无冗余序列规则,并将被投影集中元素投影到重叠集中得到无冗余序列规则;对于无冗余规则集合r3:A、AB投影得到A—>B;A、ABC投影得到A—>BC;A、ABCD投影得到A—>BCD;对于无冗余规则集合r2:AB、ABCDE投影得到AB—>CDE;ABC、ABCDE投影得到ABC—>DE;ABCD、ABCDE投影得到ABCD—>E;最终得到所有的无冗余序列规则集合为r1、r2、r3之和,包括ABC—>D;AB—>C;AB—>CD;A—>B;A—>BC;A—>BCD;AB—>CDE;ABC—>DE;ABCD—>E。...

【技术特征摘要】

【专利技术属性】
技术研发人员:尤涛杜承烈吴其蔓钟冬成驰
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1