【技术实现步骤摘要】
不确定周期性频繁项集挖掘方法及装置
本专利技术涉及数据挖掘
,具体涉及一种不确定周期性频繁项集挖掘方法及装置。
技术介绍
随着计算机和互联网技术的快速发展,从各种应用中收集的数据量越来越大。同时,由于数据采集过程中出现的各种问题,在采集到的数据中往往存在一些不确定的信息。如何从海量不确定数据库中挖掘出有价值的信息和知识,采用频繁模式挖掘是一种常用技术,其采用的方法主要分为两类:基于期望支持度和基于置信度的频繁项集挖掘。然而,基于期望支持度的频繁项集挖掘方法虽然计算简单,但这种方法只计算了项集的期望支持度,难以保证频繁概率的准确性;而基于置信度的频繁项集挖掘方法则应用了可能性世界模型,并在该模型的基础上计算每个可能世界中的频繁项集,最后将某项集为频繁项集的可能世界概率相加得到的就是该项集的频繁概率,这样的计算虽然提高了频繁概率的周期性却使计算量变得极为庞大。因此,现有的针对不确定数据库进行频繁模式挖掘的方法,越来越来不能满足需求。需要注意的是,本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
技术实现思路
本专利技术实施例提供一种不确定周期性频繁项集挖掘方法及装置,以解决现有技术中针对海量不确定数据库进行数据挖掘时,采用的频繁模式挖掘方法难以保证频繁概率的准确性或者计算量极为庞大的问题。第一方面,本专利技术实施例提供一种不确定周期性频繁项集挖掘方法,包括:对不确定事务数据库进行扫描,生成所述 ...
【技术保护点】
1.一种不确定周期性频繁项集挖掘方法,其特征在于,包括:/n对不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集,并获取满足预设周期性频繁概率条件的周期性频繁1项集;/n根据深度优先遍历方法,对所述周期性频繁1项集进行扩展,逐层生成多个N项集,并获取满足预设周期性频繁概率条件的周期性频繁N项集,N为小于等于所述周期性频繁1项集总数的自然数;/n根据所述周期性频繁1项集和所述周期性频繁N项集,确定从所述不确定事务数据库中挖掘出的周期性频繁项集。/n
【技术特征摘要】
1.一种不确定周期性频繁项集挖掘方法,其特征在于,包括:
对不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集,并获取满足预设周期性频繁概率条件的周期性频繁1项集;
根据深度优先遍历方法,对所述周期性频繁1项集进行扩展,逐层生成多个N项集,并获取满足预设周期性频繁概率条件的周期性频繁N项集,N为小于等于所述周期性频繁1项集总数的自然数;
根据所述周期性频繁1项集和所述周期性频繁N项集,确定从所述不确定事务数据库中挖掘出的周期性频繁项集。
2.根据权利要求1所述的方法,其特征在于,所述对不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集,并获取满足预设周期性频繁概率条件的周期性频繁1项集,包括:
对所述不确定事务数据库进行扫描,生成所述不确定事务数据库包括的各元素对应的1项集;
获取各所述1项集的事务序列以及对应的项集参数,所述项集参数包括支持度计数和项集周期;
确定项集参数满足预设参数条件的1项集为频繁1项集,并基于动态规划方式计算所述频繁1项集的周期性频繁概率;
确定周期性频繁概率满足预设概率条件的频繁1项集为满足预设周期性频繁概率条件的周期性频繁1项集。
3.根据权利要求2所述的方法,其特征在于,所述确定项集参数满足预设参数条件的1项集为频繁1项集,包括:
判断所述1项集的支持度计数是否大于等于预设最小支持度阈值;
若是,则判断所述1项集的项集周期是否小于等于预设最大周期阈值;
若是,则确定所述1项集为项集参数满足预设参数条件的频繁1项集。
4.根据权利要求2所述的方法,其特征在于,所述基于动态规划方式计算所述频繁1项集的周期性频繁概率,包括:
通过如下公式计算所述频繁1项集的周期性频繁概率:
其中,FP(X,tindex,Pr,sup)为频繁1项集X的周期性频繁概率,tidlist为频繁1项集X的事务序列,Plist为频繁1项集X的事务序列中包含的事务对应的概率,tindex为频繁1项集X的事务序列中包含的事务在事务序列中的编号,k为频繁1项集X的事务序列中包含的事务的数量,Pr为频繁1项集X满足周期性频繁概率条件时允许的下一次项集发生的最大间隔,sup为频繁1项集X的支持度计数,maxgap为最大周期阈值,minsup为最小支持度阈值,mulsum为频繁1项集X的事务序列中从最后一项开始向前累计后得到的各事务对应概率的累乘值的列表。
5.根据权利要求2所述的方法,其特征在于,所述确定周期性频繁概率满足预设概率条件的频繁1项集为满足预设周期性频繁概率条件的周期性频繁1项集,包括:
判断所述频繁1项集的周期性频繁概率大于等于预设最...
【专利技术属性】
技术研发人员:尤涛,刘青春,高彦峰,刘一帆,杜承烈,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。