一种快速挖掘超市数据稀有项集的方法技术

技术编号:18732472 阅读:56 留言:0更新日期:2018-08-22 03:02
本发明专利技术提出一种快速挖掘超市数据稀有项集的方法,属于信息挖掘和分析技术领域。本发明专利技术包括以下步骤:步骤1、利用原始数据集生成垂直数据集;步骤2、将垂直数据集按单个项的支持度划分为频繁垂直数据集和稀有垂直数据集;步骤3、根据稀有垂直数据集得到稀有1‑项集,在原始数据集中删除掉不包含稀有1‑项的事务,得到包含稀有1‑项的原始数据集;步骤4、通过迭代对包含稀有1‑项的原始数据集进行稀有k‑项集的挖掘,k≥2;步骤5、将所有挖掘到的稀有项集存储到稀有垂直数据中。本发明专利技术采用垂直数据集的思想,通过划分垂直数据集为频繁垂直数据集和稀有垂直数据集以达到降低数据扫描的规模,再通过存储已得稀有项集及其支持度进而减少候选项集的数量。

A fast mining method for rare item sets in supermarket data

The invention provides a method for rapidly mining rare items of supermarket data, which belongs to the technical field of information mining and analysis. The invention comprises the following steps: step 1, using the original data set to generate a vertical data set; step 2, dividing the vertical data set into frequent vertical data sets and rare vertical data sets according to the support degree of a single item; step 3, getting a rare 1_item set according to the rare vertical data set, and deleting the original data set which does not contain a rare one. A transaction with 1_item yields the original data set containing 1_item; Step 4, mining the rare k_item set of the original data set containing 1_item by iteration, K < 2; Step 5, storing all the rare item sets to the rare vertical data. The invention adopts the idea of vertical data set, by dividing the vertical data set into frequent vertical data set and rare vertical data set to reduce the scale of data scanning, and then by storing the rare items and their support, the number of candidate items is reduced.

【技术实现步骤摘要】
一种快速挖掘超市数据稀有项集的方法
本专利技术属于信息挖掘和分析
,特别涉及一种快速挖掘超市数据稀有项集的方法。
技术介绍
关联规则挖掘是知识发现中的重要问题之一。自从1993年Agrawal教授提出关联规则的概念开始,关联规则的研究一直未中断过。现有的挖掘关联规则的关键是发现频繁项集,即挖掘那些在数据集中频繁出现的模式,希望通过频繁项集揭示出数据蕴含的规律。数据挖掘被广泛的应用与超市交易分析、药物研究、网络访问分析等情形。现有对于数据挖掘的研究中,Agrawal等人在1994年提出了Apriori算法,利用连接和剪枝对候选项集进行处理,从而得到频繁项集。2000年Han等人基于树型提出了FP-Growth算法,该算法在挖掘过程中不产生候选项。2010年杨云等人提出了一种基于二维表的方法对FP-Growth算法进行改进,该算法大大缩短了建立FP-Tree的时间。2011年王娟勤等人提出了改进的关联规则挖掘算法DMApriori,该算法只扫描部分数据库,提高了关联规则挖掘时间效率。然而,这些关联规则挖掘方法对整个数据库的所有数据项均采用统一的支持度,这是建立在以下两大客观前提假设之上的:(1)数据库中各项具有近似的性质和作用,即重要性相同或相近;(2)数据库中各项的分布是均匀的,即出现频率相同或相似。在这两个假设条件的前提之下,数据库中的各项采用统一的支持度才是合理的。然而,现实世界的数据库却往往并非如此,具体表现在:(1)对用户来说,不同项重要程度或价值是不一致的。如超市事务中不同的商品带来的利润不尽相同,因而用户对不同项的感兴趣程度也不同。(2)不同项在数据集中的出现频繁程度也不一样。例如,在超市事务中,面包、蔬菜等作为日常生活用品,在数据集中总是频繁出现,而冰箱、电视等物品则由于其使用寿命、价格昂贵等原因,通常并不会频繁地出现于数据集中。对于这些不频繁出现的项,我们称之为稀有项。在很多领域,研究稀有事件往往比频繁事件更有意义。例如:在商业领域,可以通过挖掘稀有项集提高利润。在医学领域,可以通过一些罕见的症状去判断某种疾病。此外,稀有事件发现还可用于检测欺诈性金融交易和网络入侵等0。对于稀有项的研究从1999年开始一直在发展。1999年LiuB提出了MS-Apriori算法,该算法利用多最小支持度的方法解决了稀有项的挖掘问题。2005年Koh等人提出了Apriori-Inverse算法,该算法通过自定义的最大支持度对挖掘的项集进行分类,从而能高效的挖掘出只包含稀有项的项集组合。2009年Troiano等人提出了Rarity算法,该算法能够识别数据集中最长的事务并采用自顶而下的方法搜索稀有项,从而避免了只包含频繁项的事务在较低层。2012年SidneyTsang等人提出了RP-Tree算法,它是在FP-Growth算法的基础上提出的,并且使用了FP-Tree的结构发现稀有项集,提高了挖掘的时间效率。然而,现有的挖掘稀有项集的方法在面对超市数据这样的大数据时,效率不高。
技术实现思路
针对上述提到的现有算法在挖掘稀有项集时,存在执行效率不高的问题,本专利提出了一种快速挖掘超市数据稀有项集的方法,包括以下步骤:步骤1、利用原始数据集生成垂直数据集;步骤2、将垂直数据集按单个项的支持度划分为频繁垂直数据集和稀有垂直数据集;步骤3、根据稀有垂直数据集得到稀有1-项集,在原始数据集中删除掉不包含稀有1-项的事务,得到包含稀有1-项的原始数据集;步骤4、通过迭代对包含稀有1-项的原始数据集进行稀有k-项集的挖掘,k≥2;步骤5、将所有挖掘到的稀有项集存储到稀有垂直数据中。优选地,所述利用原始数据集生成垂直数据集的方法为:使用flatMap()函数将每条事务转换为(TID,t)键值对,其中TID为事务的序号,t为每条事务中所有项的集合;然后,应用Map()函数将生成的(TID,t)键值对转换为(I,TID)键值对,其中I为单个项;则垂直数据集表示为{x(Ti)|x∈Ti};其中,x为项集,Ti为TID的集合。优选地,所述将垂直数据集按单个项的支持度划分为频繁垂直数据集和稀有垂直数据集:给定最小稀有支持度和最小频繁支持度,若某项包含的TID个数大于最小频繁支持度,分类到频繁垂直数据集;若某项包含的TID个数在最小频繁支持度和最小稀有支持度之间,分类到稀有垂直数据集。优选地,所述通过迭代对包含稀有1-项的原始数据集进行稀有k-项集的挖掘,k≥2:步骤401、k=2,将包含稀有1-项的原始数据集中的第一条事务生成k-项集;步骤402、如果上述k-项集的某组合项中不包含稀有1-项,则把该组合项删除;步骤403、计算剩余的k-项集中各组合项的支持度;步骤404、若剩余的k-项集中某组合项的支持度大于或等于最小稀有支持度,则该组合项属于稀有k-项集;步骤405、将前述方法获得的稀有k-项集存入到稀有垂直数据集中,避免迭代过程中的重复计算;步骤406、将包含稀有1-项的原始数据集中的下一条事务生成k-项集,重复步骤401-步骤406,直至穷尽所有包含稀有1-项的原始数据集的事务;步骤407、k=k+1,重复步骤401~步骤406,直到挖掘出所有稀有项集为止。进一步的,所述计算剩余的k-项集中各组合项的支持度具体方法为:组合项中的单个项是频繁项时,从频繁垂直数据集查找它对应的TID集合;组合项中的单个项是稀有项时,从稀有垂直数据集查找它对应的TID集合;将组合项中所有单个项的TID集合进行对比,查找出相同的TID并存储到列表common中,列表common中的TID个数即为组合项的支持度。本专利技术的有益技术效果为:本专利技术的算法采用了垂直数据集的思想,通过划分垂直数据集为频繁垂直数据集和稀有垂直数据集以达到降低数据扫描的规模,再通过存储已得稀有项集及其支持度进而减少候选项集的数量。通过对时间复杂度的分析,可得本专利的时间复杂度小于原算法的时间复杂度,以此验证了该专利提出算法的挖掘效率更加高效。附图说明图1为本专利技术一种快速挖掘超市数据稀有项集的方法优选实施例流程示意图;图2为本专利技术利用原始数据集生成垂直数据集的示例图。具体实施方式下面结合说明书附图对本专利技术一种快速挖掘超市数据稀有项集的方法进行进一步的说明。如图1所示,本专利技术方法主要包括五个步骤:步骤1、利用原始数据集生成垂直数据集;步骤2、将垂直数据集按单个项的支持度划分为频繁垂直数据集和稀有垂直数据集;步骤3、根据稀有垂直数据集得到稀有1-项集,在原始数据集中删除掉不包含稀有1-项的事务,得到包含稀有1-项的原始数据集;步骤4、通过迭代对包含稀有1-项的原始数据集进行稀有k-项集的挖掘,k≥2;步骤5、将所有挖掘到的稀有项集存储到稀有垂直数据中。上述五个步骤可以简单概括为两个部分的内容。第一部分,创建稀有垂直数据集和频繁垂直数据集垂直数据集是由项集列表及事务标志符(TransactionIdentifier,TID)组成,即{x(Ti)|x∈Ti},其中,x为项集,Ti为TID的集合,TID为事务的序号。本专利这里使用flatMap()函数将每条事务转换为(TID,t)键值对,其中t为每条事务包含的所有项。然后,应用Map()函数将生成的(TID,t)键值对转换为(I,T本文档来自技高网
...

【技术保护点】
1.一种快速挖掘超市数据稀有项集的方法,其特征在于,包括以下步骤:步骤1、利用原始数据集生成垂直数据集;步骤2、将垂直数据集按单个项的支持度划分为频繁垂直数据集和稀有垂直数据集;步骤3、根据稀有垂直数据集得到稀有1‑项集,在原始数据集中删除掉不包含稀有1‑项的事务,得到包含稀有1‑项的原始数据集;步骤4、通过迭代对包含稀有1‑项的原始数据集进行稀有k‑项集的挖掘,k≥2;步骤5、将所有挖掘到的稀有项集存储到稀有垂直数据中。

【技术特征摘要】
1.一种快速挖掘超市数据稀有项集的方法,其特征在于,包括以下步骤:步骤1、利用原始数据集生成垂直数据集;步骤2、将垂直数据集按单个项的支持度划分为频繁垂直数据集和稀有垂直数据集;步骤3、根据稀有垂直数据集得到稀有1-项集,在原始数据集中删除掉不包含稀有1-项的事务,得到包含稀有1-项的原始数据集;步骤4、通过迭代对包含稀有1-项的原始数据集进行稀有k-项集的挖掘,k≥2;步骤5、将所有挖掘到的稀有项集存储到稀有垂直数据中。2.根据权利要求1所述的一种快速挖掘超市数据稀有项集的方法,其特征在于:所述利用原始数据集生成垂直数据集包括:使用flatMap()函数将每条事务转换为(TID,t)键值对,其中TID为事务的序号,t为每条事务中所有项的集合;然后,应用Map()函数将生成的(TID,t)键值对转换为(I,TID)键值对,其中I为单个项;则垂直数据集表示为{x(Ti)|x∈Ti};其中,x为项集,Ti为TID的集合。3.根据权利要求1所述的一种快速挖掘超市数据稀有项集的方法,其特征在于:所述将垂直数据集按单个项的支持度划分为频繁垂直数据集和稀有垂直数据集包括:给定最小稀有支持度和最小频繁支持度,若某项包含的TID个数大于最小频繁支持度,分类到频繁垂直数据集;若某项包含的TID个数在最小频繁支持度和最小稀有支持度之间,分类到稀有垂直数据集。4....

【专利技术属性】
技术研发人员:胡军刘赛男潘皓安邵瑞于洪
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1