当前位置: 首页 > 专利查询>深圳大学专利>正文

基于分类树的最大多样频繁模式的挖掘方法及装置制造方法及图纸

技术编号:17097581 阅读:36 留言:0更新日期:2018-01-21 09:29
本发明专利技术公开了一种基于分类树的最大多样频繁模式的挖掘方法及装置,在该方法中,将元素的类型通过分类树的方式结合至最大多样频繁模式的挖掘中,关注各元素在类型上的差异,能够挖掘到传统方法不容易发现的关联关系,使得能够有效的将元素的类型属性应用在频繁模式挖掘中,从而挖掘元素之间的关联、相关性和其他有趣的联系。

Mining method and device of maximum and multiple frequent pattern based on classification tree

The invention discloses a device and method of mining maximum classification tree diversity based on frequent patterns, in this method, the element type by way of combining classification tree to mining maximal frequent pattern diversity, pay attention to the difference of each element in the type of relationship, we can tap into the traditional method is not easy to find so, could be the type attribute elements in the application of frequent pattern mining, and mining association, correlation between elements and other interesting links.

【技术实现步骤摘要】
基于分类树的最大多样频繁模式的挖掘方法及装置
本专利技术涉及数据挖掘
,尤其涉及一种基于分类树的最大多样频繁模式的挖掘方法及装置。
技术介绍
在数据挖掘领域,频繁模式挖掘是在给定的交易数据集中发掘反复同时出现的联系,且频繁模式挖掘是数据挖掘领域的一个重要研究方向,频繁模式的一个最经典、最常用的应用就是购物车分析。购物车中有很多商品,每件商品都是一个元素项,每个购物车都是一个集合,所有的购物车就形成了一个序列集合,通过挖掘分析这个序列集合中的频繁模式,零售商可以发现有哪些商品经常同时被购买,从而能够有效帮助零售商进行营销和决策。频繁模式挖掘所面临的一个重要问题是在处理较大数据集时,生成的数量庞大的频繁模式难以计算和存储。因此,在这个研究方向有了两个研究分支,分别是:闭频繁项集(Closedfrequentitemset)挖掘和最大频繁项集(Maximalfrequentitemset)挖掘。已有的频繁模式挖掘方法有Apriori算法、FP-growth算法、FP-Max算法等。Apriori算法在挖掘频繁模式时通过反复扫描数据集,并检测所产生的候选集是否是频繁的,从而来挖掘所有的频繁模式;FP-growth设计一种压缩数据结构FP-tree,并使用一种模式增长的递归算法,依次挖掘所有的频繁模式;FPMAX是只关注最大频繁模式,它和FP-growth类似使用FP-tree的数据结构,在递归挖掘频繁模式的过程中,加入子集检测,使得挖掘的频繁模式都是最大频繁模式。然而,在很多情况下给定的事务数据库中的元素是可以分类的,上述的方法均忽略了元素的类型属性,只将其作为简单的符号来处理。因此,如何将元素的类型属性应用在频繁模式挖掘中是目前亟待解决的问题。
技术实现思路
本专利技术的主要目的在于提供一种基于分类树的最大多样频繁模式的挖掘方法及装置,旨在解决现有技术中元素的类型属性无法应用在频繁模式挖掘中的技术问题。为实现上述目的,本专利技术第一方面提供一种基于分类树的最大频繁模式的挖掘方法,包括:对给定的事务数据库进行扫描,统计出所述事务数据库中每一个元素出现的次数,并按照出现次数从大到小的顺序对所述事务数据库中的元素进行排序,得到元素的相对序列,所述事务数据库中包含多条记录,每一条记录包含至少一个元素;对所述事务数据库进行扫描,根据所述元素的相对序列及给定的最小支持度阈值,对所述事务数据库中的每一条记录进行处理,生成频繁模式树FP*-tree;利用所述FP*-tree及给定的所述事务数据库包含的元素的分类树,进行最大多样频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式。为实现上述目的,本专利技术第二方面还提供一种基于分类树的最大频繁模式的挖掘装置,包括:第一扫描模块,用于对给定的事务数据库进行扫描,统计出所述事务数据库中每一个元素出现的次数,并按照出现次数从大到小的顺序对所述事务数据库中的元素进行排序,得到元素的相对序列,所述事务数据库中包含多条记录,每一条记录包含至少一个元素;第二扫描模块,用于对所述事务数据库进行扫描,根据所述元素的相对序列及给定的最小支持度阈值,对所述事务数据库中的每一条记录进行处理,生成频繁模式树FP*-tree;第一挖掘模块,用于利用所述FP*-tree及给定的所述事务数据库包含的元素的分类树,进行最大多样频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式。本专利技术提供一种基于分类树的最大多样频繁模式的挖掘方法,将元素的类型通过分类树的方式结合至最大多样频繁模式的挖掘中,关注各元素在类型上的差异,能够挖掘到传统方法不容易发现的关联关系,使得能够有效的将元素的类型属性应用在频繁模式挖掘中,从而挖掘元素之间的关联、相关性和其他有趣的联系。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中分类树的示意图;图2为本专利技术实施例中基于分类树的最大多样频繁模式的挖掘方法的流程示意图;图3为本专利技术实施例中FP*-tree的示意图;图4为本专利技术另一实施例中FP*-tree的生成方法的流程示意图;图5为本专利技术另一实施例中最大多样频繁模式挖掘的流程示意图;图6为本专利技术另一实施例中最大多样频繁模式挖掘的具体流程示意图;图7为本专利技术实施例中基于分类树的最大多样频繁模式的挖掘装置的程序模块的示意图;图8为本专利技术另一实施例中第二扫描模块的细化程序模块的结构示意图;图9为本专利技术另一实施例中第一挖掘模块的细化程序模块的结构示意图;图10为本专利技术另一实施例中第二挖掘模块903的细化程序模块的结构示意图。具体实施方式为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术实施例中,首先定义了最大多样频繁模式的概念,并提出了最大多样频繁模式挖掘问题的具体定义:设I是一个独立的元素,也可以称作项(Item)的有限集合,I={i1,i2,......,im},D是给定的事务数据库D=(T1,T2,......,Tn),该事务数据库包含多条记录,且每一条记录Tj∈D(1≤j≤n)都是集合I的一个子集,一个包含l个元素的集合X={i1,i2,......,il},且被称为长度为l的模式X,或者项集(Itemset)。一个模式X的支持数表示在事务数据库D中包含模式X的记录的个数,记作s(x)。例如,一个模式X={a、b、c},且该模式X在事务数据库中出现了350次(包括模式X是一条记录,及模式X是一条记录的一个子集两种情况),则称模式X的支持数为350。通常也可以使用在事务数据库D中包含模式X的记录数与总的记录数的比值来表示模式X的支持度。例如,在事务数据库中,模式X={a、b、c}的出现次数为350次,则确定模式X的支持数为350,且若事务数据库中共有10000条记录,则模式X的支持度是:350/10000=0.035。对于给定的常数δ≥1,如果模式X的支持数s(X)=δ,则确定在事务数据库D中模式X是δ-occurrent模式。即表明,对于一个模式X,若该模式X的支持数等于给定的常数,则确定该模式X为δ-occurrent模式。对于给定的常数1≤σ≤|D|,如果模式X的支持数s(X)≥δ,则确定在数据库D中模式X为σ-frequent模式。即表明,对于一个模式X,若该模式X的支持数大于给定的常数,则确定该模式X为σ-frequent模式。其中,σ-frequent模式也可以称为频繁模式。其中,常数δ是最小支持度阈值,用于在研究的问题中确定一个模式是否是频繁模式。其中,支持度和支持数均是用来度量一个模式在事务数据库D中出现的频繁程度。对于事务数据库D中的一个σ-frequent模式的模式X,如果该事务数据库D中不存在σ-frequent模式X′使得成立,本文档来自技高网
...
基于分类树的最大多样频繁模式的挖掘方法及装置

【技术保护点】
一种基于分类树的最大多样频繁模式的挖掘方法,其特征在于,所述方法包括:对给定的事务数据库进行扫描,统计出所述事务数据库中每一个元素出现的次数,并按照出现次数从大到小的顺序对所述事务数据库中的元素进行排序,得到元素的相对顺序,所述事务数据库中包含多条记录,每一条记录包含至少一个元素;对所述事务数据库进行扫描,根据所述元素的相对顺序及给定的最小支持度阈值,对所述事务数据库中的每一条记录进行处理,生成频繁模式树FP*‑tree;利用所述FP*‑tree及给定的所述事务数据库包含的元素的分类树,进行最大多样频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式。

【技术特征摘要】
1.一种基于分类树的最大多样频繁模式的挖掘方法,其特征在于,所述方法包括:对给定的事务数据库进行扫描,统计出所述事务数据库中每一个元素出现的次数,并按照出现次数从大到小的顺序对所述事务数据库中的元素进行排序,得到元素的相对顺序,所述事务数据库中包含多条记录,每一条记录包含至少一个元素;对所述事务数据库进行扫描,根据所述元素的相对顺序及给定的最小支持度阈值,对所述事务数据库中的每一条记录进行处理,生成频繁模式树FP*-tree;利用所述FP*-tree及给定的所述事务数据库包含的元素的分类树,进行最大多样频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式。2.根据权利要求1所述的挖掘方法,其特征在于,所述对所述事务数据库进行扫描,根据所述元素的相对序列及给定的最小支持度阈值,对所述事务数据库中的每一条记录进行处理,生成频繁模式树FP*-tree,包括:按照所述元素的相对序列中各元素的排列顺序,对所述事务数据库中的每一条记录中的元素进行排序,使得所述每一条记录中的元素均按照出现次数从大到小的顺序排列,构成第一记录集合;利用给定的最小支持度阈值对所述第一记录集合中的每一条记录进行筛选,删除所述每一条记录中出现次数小于所述最小支持度阈值的元素,使得每一条记录中的元素均按照出现次数从大到小的顺序排列,且出现次数均大于或等于所述最小支持度阈值,构成第二记录集合;利用所述第二记录集合、所述元素的相对序列及预置的FP-tree构造函数,生成所述FP*-tree。3.根据权利要求1所述的方法,其特征在于,所述利用所述FP*-tree及给定的所述事务数据库中包含的各元素的分类树,进行最大多样频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式,包括:根据给定的最小支持度阈值及所述FP*-tree,计算所述FP*-tree的HeaderTable中的每一个元素的频繁模式的多样性上限;按照多样性上限从大到小的顺序,对所述FP*-tree的HeaderTable中的所有元素进行排序,得到多样性元素的相对序列;根据所述多样性元素的相对序列、预置的最大频繁模式挖掘算法及所述分类树,进行最大多样性频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式。4.根据权利要求3所述的方法,其特征在于,所述根据所述多样性元素的相对序列、预置的最大频繁模式挖掘算法及所述分类树,进行最大多样性频繁模式的挖掘,得到多样性排在前K的最大多样频繁模式,包括:步骤A:判断所述多样性元素的相对序列中第i个元素的多样性上限是否大于或等于多样性参考值,所述i的初始值为1,所述多样性参考值的初始值为0;若大于或等于预置的多样性参考值则执行步骤B,如果小于则执行步骤H;步骤B:若大于或等于预置的多样性参考值,则利用预置的FPMAX算法挖掘所述第i个元素的最大频繁模式,得到第i个元素的最大频繁模式的集合;步骤C:根据所述分类树,确定所述最大频繁模式的集合中每一个最大频繁模式的多样性;步骤D:按照多样性从大到小的顺序,将所述第i个元素的最大频繁模式的集合中各最大频繁模式插入至候选集中,使得候选集中的最大频繁模式均按照多样性从大到小的顺序排列;步骤E:若所述候选集中最大频繁模式的个数大于或等于K,则将第K个最大频繁模式的多样性与所述多样性参考值进行比较;步骤F:若所述第K个最大频繁模式的多样性大于或等于所述多样性参考值,则更新所述多样性参考值,将所述第K个最大频繁模式的多样性作为更新后的所述多样性参考值,令i=i+1,返回执行步骤A,否则执行返回执行步骤A,不更新多样性参考值;步骤H:若所述多样性元素的相对序列中第i个元素的多样性上限小于所述多样性参考值,则将所述候选集中排在前K的K个最大频繁模式确定为最大多样性频繁模式。5.根据权利要求4所述的方法,其特征在于,所述步骤C包括:利用所述分类树确定所述最大频繁模式的集合中,每一个最大频繁模式的最小生成树;分别利用所述每一个最大频繁模式的最小生成树,计算所述每一个最大频繁模式的分支数,将所述每一个最大频...

【专利技术属性】
技术研发人员:吴定明罗德新黄哲学
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1