The invention discloses a device and method of mining maximum classification tree diversity based on frequent patterns, in this method, the element type by way of combining classification tree to mining maximal frequent pattern diversity, pay attention to the difference of each element in the type of relationship, we can tap into the traditional method is not easy to find so, could be the type attribute elements in the application of frequent pattern mining, and mining association, correlation between elements and other interesting links.
【技术实现步骤摘要】
基于分类树的最大多样频繁模式的挖掘方法及装置
本专利技术涉及数据挖掘
,尤其涉及一种基于分类树的最大多样频繁模式的挖掘方法及装置。
技术介绍
在数据挖掘领域,频繁模式挖掘是在给定的交易数据集中发掘反复同时出现的联系,且频繁模式挖掘是数据挖掘领域的一个重要研究方向,频繁模式的一个最经典、最常用的应用就是购物车分析。购物车中有很多商品,每件商品都是一个元素项,每个购物车都是一个集合,所有的购物车就形成了一个序列集合,通过挖掘分析这个序列集合中的频繁模式,零售商可以发现有哪些商品经常同时被购买,从而能够有效帮助零售商进行营销和决策。频繁模式挖掘所面临的一个重要问题是在处理较大数据集时,生成的数量庞大的频繁模式难以计算和存储。因此,在这个研究方向有了两个研究分支,分别是:闭频繁项集(Closedfrequentitemset)挖掘和最大频繁项集(Maximalfrequentitemset)挖掘。已有的频繁模式挖掘方法有Apriori算法、FP-growth算法、FP-Max算法等。Apriori算法在挖掘频繁模式时通过反复扫描数据集,并检测所产生的候选集是否是频繁的,从而来挖掘所有的频繁模式;FP-growth设计一种压缩数据结构FP-tree,并使用一种模式增长的递归算法,依次挖掘所有的频繁模式;FPMAX是只关注最大频繁模式,它和FP-growth类似使用FP-tree的数据结构,在递归挖掘频繁模式的过程中,加入子集检测,使得挖掘的频繁模式都是最大频繁模式。然而,在很多情况下给定的事务数据库中的元素是可以分类的,上述的方法均忽略了元素的类型属性,只将其 ...
【技术保护点】
一种基于分类树的最大多样频繁模式的挖掘方法,其特征在于,所述方法包括:对给定的事务数据库进行扫描,统计出所述事务数据库中每一个元素出现的次数,并按照出现次数从大到小的顺序对所述事务数据库中的元素进行排序,得到元素的相对顺序,所述事务数据库中包含多条记录,每一条记录包含至少一个元素;对所述事务数据库进行扫描,根据所述元素的相对顺序及给定的最小支持度阈值,对所述事务数据库中的每一条记录进行处理,生成频繁模式树FP*‑tree;利用所述FP*‑tree及给定的所述事务数据库包含的元素的分类树,进行最大多样频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式。
【技术特征摘要】
1.一种基于分类树的最大多样频繁模式的挖掘方法,其特征在于,所述方法包括:对给定的事务数据库进行扫描,统计出所述事务数据库中每一个元素出现的次数,并按照出现次数从大到小的顺序对所述事务数据库中的元素进行排序,得到元素的相对顺序,所述事务数据库中包含多条记录,每一条记录包含至少一个元素;对所述事务数据库进行扫描,根据所述元素的相对顺序及给定的最小支持度阈值,对所述事务数据库中的每一条记录进行处理,生成频繁模式树FP*-tree;利用所述FP*-tree及给定的所述事务数据库包含的元素的分类树,进行最大多样频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式。2.根据权利要求1所述的挖掘方法,其特征在于,所述对所述事务数据库进行扫描,根据所述元素的相对序列及给定的最小支持度阈值,对所述事务数据库中的每一条记录进行处理,生成频繁模式树FP*-tree,包括:按照所述元素的相对序列中各元素的排列顺序,对所述事务数据库中的每一条记录中的元素进行排序,使得所述每一条记录中的元素均按照出现次数从大到小的顺序排列,构成第一记录集合;利用给定的最小支持度阈值对所述第一记录集合中的每一条记录进行筛选,删除所述每一条记录中出现次数小于所述最小支持度阈值的元素,使得每一条记录中的元素均按照出现次数从大到小的顺序排列,且出现次数均大于或等于所述最小支持度阈值,构成第二记录集合;利用所述第二记录集合、所述元素的相对序列及预置的FP-tree构造函数,生成所述FP*-tree。3.根据权利要求1所述的方法,其特征在于,所述利用所述FP*-tree及给定的所述事务数据库中包含的各元素的分类树,进行最大多样频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式,包括:根据给定的最小支持度阈值及所述FP*-tree,计算所述FP*-tree的HeaderTable中的每一个元素的频繁模式的多样性上限;按照多样性上限从大到小的顺序,对所述FP*-tree的HeaderTable中的所有元素进行排序,得到多样性元素的相对序列;根据所述多样性元素的相对序列、预置的最大频繁模式挖掘算法及所述分类树,进行最大多样性频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式。4.根据权利要求3所述的方法,其特征在于,所述根据所述多样性元素的相对序列、预置的最大频繁模式挖掘算法及所述分类树,进行最大多样性频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式,包括:步骤A:判断所述多样性元素的相对序列中第i个元素的多样性上限是否大于或等于多样性参考值,所述i的初始值为1,所述多样性参考值的初始值为0;若大于或等于预置的多样性参考值则执行步骤B,如果小于则执行步骤H;步骤B:若大于或等于预置的多样性参考值,则利用预置的FPMAX算法挖掘所述第i个元素的最大频繁模式,得到第i个元素的最大频繁模式的集合;步骤C:根据所述分类树,确定所述最大频繁模式的集合中每一个最大频繁模式的多样性;步骤D:按照多样性从大到小的顺序,将所述第i个元素的最大频繁模式的集合中各最大频繁模式插入至候选集中,使得候选集中的最大频繁模式均按照多样性从大到小的顺序排列;步骤E:若所述候选集中最大频繁模式的个数大于或等于K,则将第K个最大频繁模式的多样性与所述多样性参考值进行比较;步骤F:若所述第K个最大频繁模式的多样性大于或等于所述多样性参考值,则更新所述多样性参考值,将所述第K个最大频繁模式的多样性作为更新后的所述多样性参考值,令i=i+1,返回执行步骤A,否则执行返回执行步骤A,不更新多样性参考值;步骤H:若所述多样性元素的相对序列中第i个元素的多样性上限小于所述多样性参考值,则将所述候选集中排在前K的K个最大频繁模式确定为最大多样性频繁模式。5.根据权利要求4所述的方法,其特征在于,所述步骤C包括:利用所述分类树确定所述最大频繁模式的集合中,每一个最大频繁模式的最小生成树;分别利用所述每一个最大频繁模式的最小生成树,计算所述每一个最大频繁模式的分支数,将所述每一个最大频...
【专利技术属性】
技术研发人员:吴定明,罗德新,黄哲学,
申请(专利权)人:深圳大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。