【技术实现步骤摘要】
一种不确定交易数据库中多序列的周期频繁模式挖掘方法
[0001]本专利技术涉及数据挖掘的
,具体涉及一种不确定交易数据库中多序列的周期频繁模式挖掘方法。
技术介绍
[0002]数据挖掘已经成为一项利用超量而复杂的数据的重要科技手段,对这个
的科学研究也正在以越来越快的速度蓬勃发展。关联规则又称频繁项集挖掘,是数据挖掘领域的一个热门方向。目前已有的频繁模式的算法都是在精确数据库中来挖掘对我们有用的模式,而在现实情况中,由于收集到的数据会因为各种原因或多或少的丢失或不精确,导致收集到的数据包含不确定性也很常见。在现实生活中更多的是对不确定性的数据进行挖掘,确定性的数据库在实际的应用中具有一定的局限性。在多序列的不确定性数据库中挖掘频繁周期性的模式,既要满足周期并且频繁的模式,还要同时在多序列中挖掘共同的周期频繁模式,并且这些模式出现的概率还要满足用户制定的阈值。同时,在不确定数据库中在多个序列挖掘出的模式占总数据库序列数的比值如何度量都是复杂的问题。
[0003]近年来,频繁模式挖掘(FPM)是一个热门的数据 ...
【技术保护点】
【技术特征摘要】
1.一种不确定交易数据库中多序列的周期频繁模式挖掘方法,其特征在于,包括如下步骤:S1,输入一段时间内大量客户的不确定交易数据库,商家自定义四个阈值,分别为最小支持频率minSup,最大周期数maxPr,周期标准差maxStd和最小期望支持数minExpRa;S2,扫描数据库构建1项集x的UPFPS
‑
list,即构建关于某个商品x出现在哪几个用户的购买序列中,按照时间顺序依次出现在哪笔交易中,以及每个商品x的购买概率构成的数据列表UPFPS
‑
list,判断1项集x是否在不确定数据库中是周期频繁项集UPFPS;S3,根据上界值upExpRa对搜索空间进行修剪,将符合条件upExpRa(x)>= minExpRa的1项集x的UPFPS
‑
list添加到集合boundUPFPS,不符合条件的不再进行扩展;S4,利用集合boundUPFPS将修剪后的1项集进行相交合并成2项集,即两个商品的数据信息的组合构建成2项集的UPFPS
‑
list,将符合上界值upExpRa(x)>= minExpRa的项集的UPFPS
‑
list保存至boundUPFPS,以便进行新一轮迭代,并且判断2项集是否在不确定数据库中是周期频繁项集UPFPS;S5,递归循环n
‑
1项集,直至不能扩展n项集,则输出不确定数据库中所有周期频繁项集UPFPS。2.根据权利要求1所述的一种不确定交易数据库中多序列的周期频繁模式挖掘方法,其特征在于,步骤S2的判断1项集x是否在不确定数据库中是周期频繁项集UPFPS的具体步骤为:S2.1,计算序列S中出现过商品x的交易数量sup(x, S),计算项集x的最大周期性maxPer(x, S),和周期标准差stanDev(x, S),然后算法循环遍历每个单项集x,对于出现在购买序列S中的商品x,如果商品x的购买概率大于最小购买频率,即sup(x,S)>=minSup,商品x前后两次被购买的时间间隔不超过最大周期阈值,即maxPer(x,S)<=maxPr,商品x的购买周期稳定在一定范围内,即st...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。