一种快速挖掘超市数据稀有项集的方法技术

技术编号：18732472 阅读：56 留言：0更新日期：2018-08-22 03:02

本发明专利技术提出一种快速挖掘超市数据稀有项集的方法，属于信息挖掘和分析技术领域。本发明专利技术包括以下步骤：步骤1、利用原始数据集生成垂直数据集；步骤2、将垂直数据集按单个项的支持度划分为频繁垂直数据集和稀有垂直数据集；步骤3、根据稀有垂直数据集得到稀有1‑项集，在原始数据集中删除掉不包含稀有1‑项的事务，得到包含稀有1‑项的原始数据集；步骤4、通过迭代对包含稀有1‑项的原始数据集进行稀有k‑项集的挖掘，k≥2；步骤5、将所有挖掘到的稀有项集存储到稀有垂直数据中。本发明专利技术采用垂直数据集的思想，通过划分垂直数据集为频繁垂直数据集和稀有垂直数据集以达到降低数据扫描的规模，再通过存储已得稀有项集及其支持度进而减少候选项集的数量。

A fast mining method for rare item sets in supermarket data

The invention provides a method for rapidly mining rare items of supermarket data, which belongs to the technical field of information mining and analysis. The invention comprises the following steps: step 1, using the original data set to generate a vertical data set; step 2, dividing the vertical data set into frequent vertical data sets and rare vertical data sets according to the support degree of a single item; step 3, getting a rare 1_item set according to the rare vertical data set, and deleting the original data set which does not contain a rare one. A transaction with 1_item yields the original data set containing 1_item; Step 4, mining the rare k_item set of the original data set containing 1_item by iteration, K < 2; Step 5, storing all the rare item sets to the rare vertical data. The invention adopts the idea of vertical data set, by dividing the vertical data set into frequent vertical data set and rare vertical data set to reduce the scale of data scanning, and then by storing the rare items and their support, the number of candidate items is reduced.

全部详细技术资料下载

【技术实现步骤摘要】
一种快速挖掘超市数据稀有项集的方法
本专利技术属于信息挖掘和分析
，特别涉及一种快速挖掘超市数据稀有项集的方法。
技术介绍
关联规则挖掘是知识发现中的重要问题之一。自从1993年Agrawal教授提出关联规则的概念开始，关联规则的研究一直未中断过。现有的挖掘关联规则的关键是发现频繁项集，即挖掘那些在数据集中频繁出现的模式，希望通过频繁项集揭示出数据蕴含的规律。数据挖掘被广泛的应用与超市交易分析、药物研究、网络访问分析等情形。现有对于数据挖掘的研究中，Agrawal等人在1994年提出了Apriori算法，利用连接和剪枝对候选项集进行处理，从而得到频繁项集。2000年Han等人基于树型提出了FP-Growth算法，该算法在挖掘过程中不产生候选项。2010年杨云等人提出了一种基于二维表的方法对FP-Growth算法进行改进，该算法大大缩短了建立FP-Tree的时间。2011年王娟勤等人提出了改进的关联规则挖掘算法DMApriori，该算法只扫描部分数据库，提高了关联规则挖掘时间效率。然而，这些关联规则挖掘方法对整个数据库的所有数据项均采用统一的支持度，这是建立在以下两大客观前提假设之上的：(1)数据库中各项具有近似的性质和作用，即重要性相同或相近；(2)数据库中各项的分布是均匀的，即出现频率相同或相似。在这两个假设条件的前提之下，数据库中的各项采用统一的支持度才是合理的。然而，现实世界的数据库却往往并非如此，具体表现在：(1)对用户来说，不同项重要程度或价值是不一致的。如超市事务中不同的商品带来的利润不尽相同，因而用户对不同项的感兴趣程度也不同。(2)不...

【技术保护点】
1.一种快速挖掘超市数据稀有项集的方法，其特征在于，包括以下步骤：步骤1、利用原始数据集生成垂直数据集；步骤2、将垂直数据集按单个项的支持度划分为频繁垂直数据集和稀有垂直数据集；步骤3、根据稀有垂直数据集得到稀有1‑项集，在原始数据集中删除掉不包含稀有1‑项的事务，得到包含稀有1‑项的原始数据集；步骤4、通过迭代对包含稀有1‑项的原始数据集进行稀有k‑项集的挖掘，k≥2；步骤5、将所有挖掘到的稀有项集存储到稀有垂直数据中。

【技术特征摘要】
1.一种快速挖掘超市数据稀有项集的方法，其特征在于，包括以下步骤：步骤1、利用原始数据集生成垂直数据集；步骤2、将垂直数据集按单个项的支持度划分为频繁垂直数据集和稀有垂直数据集；步骤3、根据稀有垂直数据集得到稀有1-项集，在原始数据集中删除掉不包含稀有1-项的事务，得到包含稀有1-项的原始数据集；步骤4、通过迭代对包含稀有1-项的原始数据集进行稀有k-项集的挖掘，k≥2；步骤5、将所有挖掘到的稀有项集存储到稀有垂直数据中。2.根据权利要求1所述的一种快速挖掘超市数据稀有项集的方法，其特征在于：所述利用原始数据集生成垂直数据集包括：使用flatMap()函数将每条事务转换为(TID,t)键值对，其中TID为事务的序号，t为每条事务中所有项的集合；然后，应用Map()函数将生成的(TID,t)键值对转换为(I，TID)键值对，其中I为单个项；则垂直数据集表示为{x(Ti)|x∈Ti}；其中，x为项集，Ti为TID的集合。3.根据权利要求1所述的一种快速挖掘超市数据稀有项集的方法，其特征在于：所述将垂直数据集按单个项的支持度划分为频繁垂直数据集和稀有垂直数据集包括：给定最小稀有支持度和最小频繁支持度，若某项包含的TID个数大于最小频繁支持度，分类到频繁垂直数据集；若某项包含的TID个数在最小频繁支持度和最小稀有支持度之间，分类到稀有垂直数据集。4....

【专利技术属性】
技术研发人员：胡军，刘赛男，潘皓安，邵瑞，于洪，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人