海量数据中基于后缀划分的高效用高占用比项集挖掘算法制造技术

技术编号:33552303 阅读:60 留言:0更新日期:2022-05-26 22:48
本发明专利技术公开了海量数据中基于后缀划分的高效用高占用比项集挖掘算法,包括预处理阶段、项集挖掘阶段。预处理阶段包括后缀划分及垂直存储;项集挖掘阶段,依次将每个分区从磁盘读入内存,首先对1

【技术实现步骤摘要】
海量数据中基于后缀划分的高效用高占用比项集挖掘算法
[0001]

[0002]本专利技术属于海量数据挖掘与处理
,涉及一种零售商和网络电商交易数据中高效用高占用比项集的挖掘方法。

技术介绍

[0003]海量数据上的模式(项集)挖掘是当前数据挖掘领域的研究热点之一。现如今,数据挖掘在购物篮分析、市场营销、金融交易和生物分析等领域得到了广泛的应用,日益成为国内外各领域广泛关注的研究热点。
[0004]频繁项集挖掘(FIM)返回数据集中大量且频繁出现的表项集合,从中发现项集之间的关联关系和频繁模式。然而,频繁模式的挖掘仅仅考虑项集在事务中是否出现,忽略了项集在事务中对应的数量及其权重。因此,频繁模式挖掘可能会得到很常见但效用值低的项集,错过了稀有但高利润的项集,往往不具备现实意义。例如,在零售商交易数据集中,牛奶和面包是频繁出现在购物篮中的频繁项集,但其效用值(单位利润)往往比较低;而鱼子酱和香槟是购物篮中罕见的非频繁项集,但其效用值往往很高。因此,FIM往往会忽略能带来巨大利润效用的非频繁项集,但这些被忽略的高效用项集往往能给零售商带来本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.海量数据中基于后缀划分的高效用高占用比项集挖掘算法,其特征在于,具体包括预处理和项集挖掘两个阶段,所述预处理阶段具体为根据后缀对数据集进行分区,并存储为垂直结构;所述项集挖掘阶段具体过程为:对长度不大于2的项集进行计算,直接计算其效用占用比并判断是否为高效用占用比项集,非高效用占用比项集直接剪枝;对长度大于2的项集,构建一个基于链表的双向栈结构存储分区中的拓展项,利用双向栈中的项构建集合枚举树,在集合枚举树上按照深度优先搜索顺序对项集进行遍历挖掘,根据支持度向下闭合属性、效用占用比向下闭合属性、3

项集完全剪枝策略对项集进行剪枝,并采用项集链接优化策略和剩余TID交叉计数优化策略进行挖掘。2.根据权利要求1所述的海量数据中基于后缀划分的高效用高占用比项集挖掘算法,其特征在于,所述分区处理过程具体为:对给定数据集T进行序列扫描,对数据集T的所有子序列进行划分,具有相同后缀的项集放入同一分区中。3.根据权利要求1所述的海量数据中基于后缀划分的高效用高占用比项集挖掘算法,其特征在于,所述垂直存储过程具体为:在每个分区中,为每个项构建一个垂直格式的效用列表,效用列表按照项对应的支持度降序排列,支持度不小于预先设定的支持度阈值的项及其对应的效用列表被依次读入到内存中。4.根据权利要求1所述的海量数据中基于后缀划分的高效用高占用比项集挖掘算法,其特征在于,所述支持度向下闭合属性具体为:当分区的支持度上界小于预先设定的最小支持度阈值,则该分区无符合支持度阈值的高效用占用比项集,对该分区进行剪枝;当项集的支持度小于预先设定的最小支持度阈值,则该项集及其超集均不满足支持度阈值,对该项集及其超集进行剪枝。5.根据权利要求1所述的海量数据中基于后缀划分的高效用高占用比项集挖掘算法,其特征在于,所述效用占用比向下闭合属性具体为:效用占用比上界的计算公式为:其中,t是包含项集X的一个事务,是项集X在分区中的事务效用值,是X所在的事务t的效用值,是预先设定的最小支持度阈值,n是数据集中事务的数量,是项集X在事务t中的效用占用比,是项集X在事务t中的剩余效用占用比;其中,表示项集X中的第j个项,表示项集X中第j项在事务t中的效用值,是X中最后一个项对应的下标,是X所在的事务t的效用值;
其中,表示事务中的第j个项,表示事务中第j个项的效用值,,是X的最后一个项的下一个项的下标,是X所在的事务t的效用值;当效用占用比上界小于预先设定的效用占用比阈值,则X及其超集都不满足效用占用...

【专利技术属性】
技术研发人员:何京璇韩希先王金宝
申请(专利权)人:哈尔滨工业大学威海
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1