不确定周期性频繁项集挖掘方法及装置制造方法及图纸

技术编号:26342472 阅读:36 留言:0更新日期:2020-11-13 20:34
本发明专利技术公开了一种不确定周期性频繁项集挖掘方法及装置,该方法包括:对不确定事务数据库进行扫描,生成不确定事务数据库包括的各元素对应的1项集,并获取满足预设周期性频繁概率条件的周期性频繁1项集;根据深度优先遍历方法,对周期性频繁1项集进行扩展,逐层生成多个N项集,并获取满足预设周期性频繁概率条件的周期性频繁N项集;根据周期性频繁1项集和周期性频繁N项集,确定从不确定事务数据库中挖掘出的周期性频繁项集。本发明专利技术在基于支持度计数算法的基础上添加了周期性约束条件,保证了频繁概率的准确性,能够有效满足挖掘需求;同时,采用动态规划技术有效减少了周期性约束条件的计算量,提高了算法的效率。

Mining method and device of Uncertain Periodic frequent itemsets

【技术实现步骤摘要】
不确定周期性频繁项集挖掘方法及装置
本专利技术涉及数据挖掘
,具体涉及一种不确定周期性频繁项集挖掘方法及装置。
技术介绍
随着计算机和互联网技术的快速发展,从各种应用中收集的数据量越来越大。同时,由于数据采集过程中出现的各种问题,在采集到的数据中往往存在一些不确定的信息。如何从海量不确定数据库中挖掘出有价值的信息和知识,采用频繁模式挖掘是一种常用技术,其采用的方法主要分为两类:基于期望支持度和基于置信度的频繁项集挖掘。然而,基于期望支持度的频繁项集挖掘方法虽然计算简单,但这种方法只计算了项集的期望支持度,难以保证频繁概率的准确性;而基于置信度的频繁项集挖掘方法则应用了可能性世界模型,并在该模型的基础上计算每个可能世界中的频繁项集,最后将某项集为频繁项集的可能世界概率相加得到的就是该项集的频繁概率,这样的计算虽然提高了频繁概率的周期性却使计算量变得极为庞大。因此,现有的针对不确定数据库进行频繁模式挖掘的方法,越来越来不能满足需求。需要注意的是,本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
技术实现思路
本专利技术实施例提供一种不确定周期性频繁项集挖掘方法及装置,以解决现有技术中针对海量不确定数据库进行数据挖掘时,采用的频繁模式挖掘方法难以保证频繁概率的准确性或者计算量极为庞大的问题。第一方面,本专利技术实施例提供一种不确定周期性频繁项集挖掘方法,包括:对不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集,并获取满足预设周期性频繁概率条件的周期性频繁1项集;根据深度优先遍历方法,对所述周期性频繁1项集进行扩展,逐层生成多个N项集,并获取满足预设周期性频繁概率条件的周期性频繁N项集,N为小于等于所述周期性频繁1项集总数的自然数;根据所述周期性频繁1项集和所述周期性频繁N项集,确定从所述不确定事务数据库中挖掘出的周期性频繁项集。作为本专利技术第一方面的优选方式,所述对不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集,并获取满足预设周期性频繁概率条件的周期性频繁1项集,包括:对所述不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集;获取各所述1项集的事务序列以及对应的项集参数,所述项集参数包括支持度计数和项集周期;确定项集参数满足预设参数条件的1项集为频繁1项集,并基于动态规划方式计算所述频繁1项集的周期性频繁概率;确定周期性频繁概率满足预设概率条件的频繁1项集为满足预设周期性频繁概率条件的周期性频繁1项集。作为本专利技术第一方面的优选方式,所述确定项集参数满足预设参数条件的1项集为频繁1项集,包括:判断所述1项集的支持度计数是否大于等于预设最小支持度阈值;若是,则判断所述1项集的项集周期是否小于等于预设最大周期阈值;若是,则确定所述1项集为项集参数满足预设参数条件的频繁1项集。作为本专利技术第一方面的优选方式,所述基于动态规划方式计算所述频繁1项集的周期性频繁概率,包括:通过如下公式计算所述频繁1项集的周期性频繁概率:其中,FP(X,tindex,Pr,sup)为频繁1项集X的周期性频繁概率,tidlist为频繁1项集X的事务序列,Plist为频繁1项集X的事务序列中包含的事务对应的概率,tindex为频繁1项集X的事务序列中包含的事务在事务序列中的编号,k为频繁1项集X的事务序列中包含的事务的数量,Pr为频繁1项集X满足周期性频繁概率条件时允许的下一次项集发生的最大间隔,sup为频繁1项集X的支持度计数,maxgap为最大周期阈值,minsup为最小支持度阈值,mulsum为频繁1项集X的事务序列中从最后一项开始向前累计后得到的各事务对应概率的累乘值的列表。作为本专利技术第一方面的优选方式,所述确定周期性频繁概率满足预设概率条件的频繁1项集为满足预设周期性频繁概率条件的周期性频繁1项集,包括:判断所述频繁1项集的周期性频繁概率大于等于预设最小周期频繁概率阈值;若是,则确定所述频繁1项集为满足预设周期性频繁概率条件的周期性频繁1项集。作为本专利技术第一方面的优选方式,所述根据深度优先遍历方法,对所述周期性频繁1项集进行扩展,逐层生成多个N项集,并获取满足预设周期性频繁概率条件的周期性频繁N项集,包括:根据所述周期性频繁1项集,按顺序依次添加排在所述周期性频繁1项集后面的其余周期性频繁1项集中包含的元素,生成多个2项集;获取各所述2项集的事务序列以及对应的项集参数,所述项集参数包括支持度计数和项集周期;确定项集参数满足预设参数条件的2项集为频繁2项集,并基于动态规划方式计算所述频繁2项集的周期性频繁概率;确定周期性频繁概率满足预设概率条件的频繁2项集为满足预设周期性频繁概率条件的周期性频繁2项集;以此类推,直至获取所有满足预设周期性频繁概率条件的周期性频繁N项集,N为小于等于所述周期性频繁1项集总数的自然数。作为本专利技术第一方面的优选方式,所述确定项集参数满足预设参数条件的2项集为频繁2项集,包括:判断所述2项集的支持度计数是否大于等于预设最小支持度阈值;若是,则判断所述2项集的项集周期是否小于等于预设最大周期阈值;若是,则确定所述2项集为项集参数满足预设参数条件的频繁2项集;以及,所述确定周期性频繁概率满足预设概率条件的频繁2项集为满足预设周期性频繁概率条件的周期性频繁2项集,包括:判断所述频繁2项集的周期性频繁概率大于等于预设最小周期频繁概率阈值;若是,则确定所述频繁2项集为满足预设周期性频繁概率条件的周期性频繁2项集。第二方面,本专利技术实施例提供一种不确定周期性频繁项集挖掘装置,包括:第一获取单元,用于对不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集,并获取满足预设周期性频繁概率条件的周期性频繁1项集;第二获取单元,用于根据深度优先遍历方法,对所述周期性频繁1项集进行扩展,逐层生成多个N项集,并获取满足预设周期性频繁概率条件的周期性频繁N项集,N为小于等于所述周期性频繁1项集总数的自然数;确定单元,用于根据所述周期性频繁1项集和所述周期性频繁N项集,确定从所述不确定事务数据库中挖掘出的周期性频繁项集。第三方面,本专利技术实施例提供一种计算设备,包括处理器和存储器,其中所述存储器内存储有执行指令,所述处理器读取所述存储器内的执行指令用于执行如上述不确定周期性频繁项集挖掘方法及其优选方式中所述的步骤。第四方面,本专利技术实施例提供一种计算机可读存储介质,包含计算机执行指令,所述计算机执行指令被用于执行如上述不确定周期性频繁项集挖掘方法及其优选方式中所述的步骤。本专利技术实施例提供的不确定周期性频繁项集挖掘方法及装置,针对不确定事务数据库进行频繁模式挖掘时,在基于支持度计数算本文档来自技高网...

【技术保护点】
1.一种不确定周期性频繁项集挖掘方法,其特征在于,包括:/n对不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集,并获取满足预设周期性频繁概率条件的周期性频繁1项集;/n根据深度优先遍历方法,对所述周期性频繁1项集进行扩展,逐层生成多个N项集,并获取满足预设周期性频繁概率条件的周期性频繁N项集,N为小于等于所述周期性频繁1项集总数的自然数;/n根据所述周期性频繁1项集和所述周期性频繁N项集,确定从所述不确定事务数据库中挖掘出的周期性频繁项集。/n

【技术特征摘要】
1.一种不确定周期性频繁项集挖掘方法,其特征在于,包括:
对不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集,并获取满足预设周期性频繁概率条件的周期性频繁1项集;
根据深度优先遍历方法,对所述周期性频繁1项集进行扩展,逐层生成多个N项集,并获取满足预设周期性频繁概率条件的周期性频繁N项集,N为小于等于所述周期性频繁1项集总数的自然数;
根据所述周期性频繁1项集和所述周期性频繁N项集,确定从所述不确定事务数据库中挖掘出的周期性频繁项集。


2.根据权利要求1所述的方法,其特征在于,所述对不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集,并获取满足预设周期性频繁概率条件的周期性频繁1项集,包括:
对所述不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集;
获取各所述1项集的事务序列以及对应的项集参数,所述项集参数包括支持度计数和项集周期;
确定项集参数满足预设参数条件的1项集为频繁1项集,并基于动态规划方式计算所述频繁1项集的周期性频繁概率;
确定周期性频繁概率满足预设概率条件的频繁1项集为满足预设周期性频繁概率条件的周期性频繁1项集。


3.根据权利要求2所述的方法,其特征在于,所述确定项集参数满足预设参数条件的1项集为频繁1项集,包括:
判断所述1项集的支持度计数是否大于等于预设最小支持度阈值;
若是,则判断所述1项集的项集周期是否小于等于预设最大周期阈值;
若是,则确定所述1项集为项集参数满足预设参数条件的频繁1项集。


4.根据权利要求2所述的方法,其特征在于,所述基于动态规划方式计算所述频繁1项集的周期性频繁概率,包括:
通过如下公式计算所述频繁1项集的周期性频繁概率:



其中,FP(X,tindex,Pr,sup)为频繁1项集X的周期性频繁概率,tidlist为频繁1项集X的事务序列,Plist为频繁1项集X的事务序列中包含的事务对应的概率,tindex为频繁1项集X的事务序列中包含的事务在事务序列中的编号,k为频繁1项集X的事务序列中包含的事务的数量,Pr为频繁1项集X满足周期性频繁概率条件时允许的下一次项集发生的最大间隔,sup为频繁1项集X的支持度计数,maxgap为最大周期阈值,minsup为最小支持度阈值,mulsum为频繁1项集X的事务序列中从最后一项开始向前累计后得到的各事务对应概率的累乘值的列表。


5.根据权利要求2所述的方法,其特征在于,所述确定周期性频繁概率满足预设概率条件的频繁1项集为满足预设周期性频繁概率条件的周期性频繁1项集,包括:
判断所述频繁1项集的周期性频繁概率大于等于预设最...

【专利技术属性】
技术研发人员:尤涛刘青春高彦峰刘一帆杜承烈
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1