This application provides a frequent itemset generation method of the embodiment of this embodiment, first determine the data element number N, frequent support and the original data set, if the data element number 1, use includes packet filtering rules from the database query, data items, the number of data items that meet the query frequent support, generate a yuan of frequent itemsets, if the data element number is greater than 1, get one yuan N-1 yuan, frequent itemsets and frequent itemsets N original data table, containing packet filtering rules and association rules database queries on multiple data table correlation and grouping filtration, satisfied support N yuan frequent target data, generate N yuan frequent itemsets. It can be seen that in this example, the database query statement is used to express the rules of association analysis, which is based on the way of database query. The invention also provides a device for generating frequent itemsets.
【技术实现步骤摘要】
本申请涉及数据关联分析
,更具体地,是频繁项集的生成方法及装置。
技术介绍
在数据分析领域中,对数据的一种分析是关联分析,以生成频繁项集。具体地,获取到原始数据集,该原始数据集中包含一组或多组数据项,通过关联分析,确定每个数据项在分组中出现的频率,若出现的频率高于一定的阈值,则表示该数据项是频繁的,可以作为频繁项集中的数据项。目前,频繁项集的生成方法,需要在内存中构建复杂的数据结构,再通过剪枝等过程,从原始数据集中筛选出频繁项集。该种方式计算量较大,频繁项集的生成效率较低。
技术实现思路
有鉴于此,本申请提供了一种频繁项集的生成方法,用以解决现有的项集生成方式效率较低的技术问题。另外,本申请还提供了一种频繁项集的生成装置,用以保证所述方法在实际中的应用及实现。为实现所述目的,本申请提供的技术方案如下:本申请的第一方面提供了一种频繁项集的生成方法,包括:确定待生成频繁项集的数据元个数N、频繁支持度及原始数据表;其中,所述原始数据表中包含若干组数据项;若所述数据元个数N为1,则使用包含分组过滤规则的数据库查询语句,从所述若干组数据项中,查询所在组的个数满足所述频繁支持度的目标数据项,将包含所述目标数据项的数据表确定为一元频繁项集;若所述数据元个数N大于1,则获得一个一元频繁项集、一个N-1元频繁项集及N个原始数据表,使用包含表关联规则及分组过滤规则的数据库查询语句,对 ...
【技术保护点】
一种频繁项集的生成方法,其特征在于,包括:确定待生成频繁项集的数据元个数N、频繁支持度及原始数据表;其中,所述原始数据表中包含若干组数据项;若所述数据元个数N为1,则使用包含分组过滤规则的数据库查询语句,从所述若干组数据项中,查询所在组的个数满足所述频繁支持度的目标数据项,将包含所述目标数据项的数据表确定为一元频繁项集;若所述数据元个数N大于1,则获得一个一元频繁项集、一个N‑1元频繁项集及N个原始数据表,使用包含表关联规则及分组过滤规则的数据库查询语句,对所述一元频繁项集、N‑1元频繁项集及N个原始数据表进行关联及分组过滤查询,获得所在组的个数满足所述频繁支持度的N元目标数据项,将包含所述N元目标数据项的数据表确定为N元频繁项集。
【技术特征摘要】 【专利技术属性】
1.一种频繁项集的生成方法,其特征在于,包括:
确定待生成频繁项集的数据元个数N、频繁支持度及原始数据表;其中,
所述原始数据表中包含若干组数据项;
若所述数据元个数N为1,则使用包含分组过滤规则的数据库查询语句,
从所述若干组数据项中,查询所在组的个数满足所述频繁支持度的目标数据
项,将包含所述目标数据项的数据表确定为一元频繁项集;
若所述数据元个数N大于1,则获得一个一元频繁项集、一个N-1元频
繁项集及N个原始数据表,使用包含表关联规则及分组过滤规则的数据库查
询语句,对所述一元频繁项集、N-1元频繁项集及N个原始数据表进行关联
及分组过滤查询,获得所在组的个数满足所述频繁支持度的N元目标数据项,
将包含所述N元目标数据项的数据表确定为N元频繁项集。
2.根据权利要求1所述的频繁项集的生成方法,其特征在于,所述若所
述数据元个数N为1,则使用包含分组过滤规则的数据库查询语句,从所述
若干组数据项中,查询所在组的个数满足所述频繁支持度的目标数据项,包
括:
若所述数据元个数N为1,则将所述原始数据表中的数据项列作为待生
成列,使用包含分组过滤规则的数据库查询语句,对所述若干组数据项进行
分组,并在分组结果中,查询所在组的个数满足所述频繁支持度的目标数据
项。
3.根据权利要求1所述的频繁项集的生成方法,其特征在于,还包括:
若所述数据元个数N为1,则将所述目标数据项所在组的个数作为所述
一元频繁项集的频繁次数。
4.根据权利要求1或3所述的频繁项集的生成方法,其特征在于,还包
括:
若所述数据元个数N大于1,则将所述N元目标数据项所在组的个数作
为所述N元频繁项集的频繁次数。
5.一种频繁项集的生成装置,其特征在于,包括:
技术研发人员:高尚,王宁,崔大凯,刘安,周灵艳,李莉,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。