频繁项集的生成方法及装置制造方法及图纸

技术编号:14554442 阅读:46 留言:0更新日期:2017-02-05 03:39
本申请提供了一种频繁项集的生成方法实施例,本实施例首先确定数据元个数N、频繁支持度及原始数据集,若数据元个数为1,则使用包含分组过滤规则的数据库查询语句,从数据项中,查询个数满足频繁支持度的数据项,生成一元频繁项集,若数据元个数大于1,获得一个一元频繁项集、N-1元频繁项集及N个原始数据表,使用包含分组过滤规则及关联规则的数据库查询语句,对多个数据表进行关联及分组过滤,获得满足频繁支持度的N元目标数据项,生成N元频繁项集。可见,本实施例中使用数据库查询语句表示关联分析的规则,该种基于数据库查询的方式,不需构建复杂的数据结构,运算量较小,生成效率较高。本申请还提供了一种频繁项集的生成装置。

Method and device for generating frequent item set

This application provides a frequent itemset generation method of the embodiment of this embodiment, first determine the data element number N, frequent support and the original data set, if the data element number 1, use includes packet filtering rules from the database query, data items, the number of data items that meet the query frequent support, generate a yuan of frequent itemsets, if the data element number is greater than 1, get one yuan N-1 yuan, frequent itemsets and frequent itemsets N original data table, containing packet filtering rules and association rules database queries on multiple data table correlation and grouping filtration, satisfied support N yuan frequent target data, generate N yuan frequent itemsets. It can be seen that in this example, the database query statement is used to express the rules of association analysis, which is based on the way of database query. The invention also provides a device for generating frequent itemsets.

【技术实现步骤摘要】

本申请涉及数据关联分析
,更具体地,是频繁项集的生成方法及装置
技术介绍
在数据分析领域中,对数据的一种分析是关联分析,以生成频繁项集。具体地,获取到原始数据集,该原始数据集中包含一组或多组数据项,通过关联分析,确定每个数据项在分组中出现的频率,若出现的频率高于一定的阈值,则表示该数据项是频繁的,可以作为频繁项集中的数据项。目前,频繁项集的生成方法,需要在内存中构建复杂的数据结构,再通过剪枝等过程,从原始数据集中筛选出频繁项集。该种方式计算量较大,频繁项集的生成效率较低。
技术实现思路
有鉴于此,本申请提供了一种频繁项集的生成方法,用以解决现有的项集生成方式效率较低的技术问题。另外,本申请还提供了一种频繁项集的生成装置,用以保证所述方法在实际中的应用及实现。为实现所述目的,本申请提供的技术方案如下:本申请的第一方面提供了一种频繁项集的生成方法,包括:确定待生成频繁项集的数据元个数N、频繁支持度及原始数据表;其中,所述原始数据表中包含若干组数据项;若所述数据元个数N为1,则使用包含分组过滤规则的数据库查询语句,从所述若干组数据项中,查询所在组的个数满足所述频繁支持度的目标数据项,将包含所述目标数据项的数据表确定为一元频繁项集;若所述数据元个数N大于1,则获得一个一元频繁项集、一个N-1元频繁项集及N个原始数据表,使用包含表关联规则及分组过滤规则的数据库查询语句,对所述一元频繁项集、N-1元频繁项集及N个原始数据表进行关联及分组过滤查询,获得所在组的个数满足所述频繁支持度的N元目标数据项,将包含所述N元目标数据项的数据表确定为N元频繁项集。本申请的第二方面提供了一种频繁项集的生成装置,包括:参数及原始数据表获取模块,用于确定待生成频繁项集的数据元个数N、频繁支持度及原始数据表;其中,所述原始数据表中包含若干组数据项;一元频繁项集生成模块,用于若所述数据元个数N为1,则使用包含分组过滤规则的数据库查询语句,从所述若干组数据项中,查询所在组的个数满足所述频繁支持度的目标数据项,将包含所述目标数据项的数据表确定为一元频繁项集;多元频繁项集生成模块,用于若所述数据元个数N大于1,则获得一个一元频繁项集、一个N-1元频繁项集及N个原始数据表,使用包含表关联规则及分组过滤规则的数据库查询语句,对所述一元频繁项集、N-1元频繁项集及N个原始数据表进行关联及分组过滤查询,获得所在组的个数满足所述频繁支持度的N元目标数据项,将包含所述N元目标数据项的数据表确定为N元频繁项集。由以上技术方案可知,本申请提供了一种频繁项集的生成方法实施例,本实施例中,首先确定数据元个数N、频繁支持度及原始数据集,若数据元个数为1,则使用包含分组过滤规则的数据库查询语句,从若干组数据项中,查询个数满足频繁支持度的数据项,从而获得一元频繁项集,若数据元个数大于1,则首先获得一个一元频繁项集、N-1元频繁项集及N个原始数据表,并使用包含分组过滤规则及关联规则的数据库查询语句,对该多个数据表进行关联查询及分组过滤查询,获得满足频繁支持度的N元目标数据项,从而获得N元频繁项集。可见,本实施例中使用数据库查询语句表示关联分析的规则,该种基于数据库查询的项集生成方式,不需构建复杂的数据结构,运算量较小,项集生成效率较高。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请提供的频繁项集的生成方式实施例1的流程图;图2为本申请提供的频繁项集的生成方式实施例2的流程图;图3为本申请提供的频繁项集的生成装置实施例1的结构示意图;图4为本申请提供的频繁项集的生成装置实施例2的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在对本申请提供的技术方案说明之前,对几个相关名词进行说明。项集:在关联分析中,包括0个或多个数据项的集合称为项集。频繁支持度:或者称为支持度,用于表示数据项的频繁程度,具体计算方式为:频繁支持度=数据项在事务中出现的次数/事务总数。频繁项集:满足最小频繁支持度的所有项集。先验原理:如果一个项集是频繁的,则它的所有子集也一定是频繁的,反之,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。参见图1,其示出了本申请提供的频繁项集的生成方法实施例1的流程。如图1所示,本实施例可以具体包括步骤S101~步骤S103。步骤S101:确定待生成频繁项集的数据元个数N、频繁支持度及原始数据表;其中,原始数据表中包含若干组数据项。可以理解的是,频繁项集的生成过程,即对原始的数据项集合进行关联分析,从而统计出符合关联规则的数据项。因此,需要首先获得用来作为关联分析的原始数据集合。原始的数据集合可以是存储在数据库中的数据表,为了便于描述,将该数据表称为原始数据表。原始数据表中包括多个数据项,此些数据项可以具有相同或不同的标识,标识相同的数据项可以看作是一组,因此,原始数据表中可以包括一组或多组数据项。例如,原始数据表可以如下表1所示的购物车数据表。如表1所示,面包和牛奶的订单编号为1,因此,该两个数据项属于同一组。同理分析后可知,该原始数据表中包含五个分组的数据项,每个数据项分组中分别包括两个、四个、四个、四个及四个数据项。另外,该五组数据项也可以称为五个事务数据集。表1购物车数据表订单编号数据项1面包1牛奶2面包2尿布2啤酒2牛奶3牛奶3尿布3啤酒3可乐4面包4牛奶4尿布4啤酒5面包5牛奶5尿布5可乐本实施例的目的即是本文档来自技高网...

【技术保护点】
一种频繁项集的生成方法,其特征在于,包括:确定待生成频繁项集的数据元个数N、频繁支持度及原始数据表;其中,所述原始数据表中包含若干组数据项;若所述数据元个数N为1,则使用包含分组过滤规则的数据库查询语句,从所述若干组数据项中,查询所在组的个数满足所述频繁支持度的目标数据项,将包含所述目标数据项的数据表确定为一元频繁项集;若所述数据元个数N大于1,则获得一个一元频繁项集、一个N‑1元频繁项集及N个原始数据表,使用包含表关联规则及分组过滤规则的数据库查询语句,对所述一元频繁项集、N‑1元频繁项集及N个原始数据表进行关联及分组过滤查询,获得所在组的个数满足所述频繁支持度的N元目标数据项,将包含所述N元目标数据项的数据表确定为N元频繁项集。

【技术特征摘要】
1.一种频繁项集的生成方法,其特征在于,包括:
确定待生成频繁项集的数据元个数N、频繁支持度及原始数据表;其中,
所述原始数据表中包含若干组数据项;
若所述数据元个数N为1,则使用包含分组过滤规则的数据库查询语句,
从所述若干组数据项中,查询所在组的个数满足所述频繁支持度的目标数据
项,将包含所述目标数据项的数据表确定为一元频繁项集;
若所述数据元个数N大于1,则获得一个一元频繁项集、一个N-1元频
繁项集及N个原始数据表,使用包含表关联规则及分组过滤规则的数据库查
询语句,对所述一元频繁项集、N-1元频繁项集及N个原始数据表进行关联
及分组过滤查询,获得所在组的个数满足所述频繁支持度的N元目标数据项,
将包含所述N元目标数据项的数据表确定为N元频繁项集。
2.根据权利要求1所述的频繁项集的生成方法,其特征在于,所述若所
述数据元个数N为1,则使用包含分组过滤规则的数据库查询语句,从所述
若干组数据项中,查询所在组的个数满足所述频繁支持度的目标数据项,包
括:
若所述数据元个数N为1,则将所述原始数据表中的数据项列作为待生
成列,使用包含分组过滤规则的数据库查询语句,对所述若干组数据项进行
分组,并在分组结果中,查询所在组的个数满足所述频繁支持度的目标数据
项。
3.根据权利要求1所述的频繁项集的生成方法,其特征在于,还包括:
若所述数据元个数N为1,则将所述目标数据项所在组的个数作为所述
一元频繁项集的频繁次数。
4.根据权利要求1或3所述的频繁项集的生成方法,其特征在于,还包
括:
若所述数据元个数N大于1,则将所述N元目标数据项所在组的个数作
为所述N元频繁项集的频繁次数。
5.一种频繁项集的生成装置,其特征在于,包括:

【专利技术属性】
技术研发人员:高尚王宁崔大凯刘安周灵艳李莉
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1