一种基于最短板原则的频繁项集数据挖掘方法技术

技术编号:18732456 阅读:62 留言:0更新日期:2018-08-22 03:02
本发明专利技术根据最短板原则提供一种基于最短板原则的频繁项集数据挖掘方法‑TLS‑Apriori算法(The Lowest support Apriori)。将总体数据样本按照支持度从高到低依次排列,最低支持度项集所在的样本为最短板样本,最短板数据样本只进行频繁一项集的数据挖掘,不进行二项集及以后的数据挖掘;此算法应用Apriori算法的基本思想,根据最小支持度所在的样本不能成为频繁样本的性质进行数据挖掘,解决了经典Apriori算法全局寻优的同时不能很好的兼顾局部的不足。

A frequent itemsets data mining method based on the shortest board principle

The invention provides a frequency itemset data mining method based on the principle of the shortest board, the TLS Apriori algorithm (The Lowest Support Apriori). The total data samples are arranged in order from high to low support, the sample of the lowest support item set is the shortest board sample, and the shortest board data sample is only used for frequent one-item data mining, without binomial set and subsequent data mining; this algorithm applies the basic idea of Apriori algorithm, according to the minimum support. The problem that the samples can not become frequent samples for data mining solves the problem that the classical Apriori algorithm can not take into account the local shortcomings while global optimization.

【技术实现步骤摘要】
一种基于最短板原则的频繁项集数据挖掘方法
本专利技术涉及数据挖掘方法
,特别涉及一种基于最短板原则的频繁项集数据挖掘方法。
技术介绍
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。Apriori算法将发现关联规则的过程分为两个步骤,第一步是通过迭代检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集,第二步是利用频繁项集构造出满足用户最小置信度的规则,其中,挖掘和识别所有频繁项集是该算法的核心,占据了整个计算量的大部分。Apriori算法运用频繁项集的子集必然是频繁项集的思想,通过已知的频繁项集构造更大的项集,并将其称为候选频繁项集,以后只计算候选项集的支持度。Apriori算法采用人为设定域值的方式,这样就存在根据人的经验设定域值与实际的数据挖掘是否匹配的问题,近些年研究的重点是如何使得人为设定域值与实际的数据挖掘匹配,然而,对于Apriori算法不能很好的兼顾局部样本数据的问题研究甚少,然而在实际的应用中,Apriori算法能够发现全局频繁项集,但是局部样本的频繁项集却不能够很好的体现,这样的应用越来越多。
技术实现思路
为了解决
技术介绍
中所述问题,本专利技术根据最短板原则提供一种基于最短板原则的频繁项集数据挖掘方法-TLS-Apriori算法(TheLowestsupportApriori)。此算法应用Apriori算法的基本思想,根据最小支持度所在的样本不能成为频繁样本的性质进行数据挖掘,解决了经典Apriori算法全局寻优的同时不能很好的兼顾局部的不足。为了达到上述目的,本专利技术采用以下技术方案实现:一种基于最短板原则的频繁项集数据挖掘方法,将总体数据样本按照支持度从高到低依次排列,最低支持度项集所在的样本为最短板样本,最短板数据样本只进行频繁一项集的数据挖掘,不进行二项集及以后的数据挖掘;所述的数据挖掘方法包括以下步骤:步骤一、总体数据样本频繁一项集生成;重新组合数据样本,根据总体数据样本计算候选一项集C1的支持度及平均支持度ZS1确定频繁一项集L1,L1数量计作M1。步骤二、记录候选一项集C1中支持度最小的项集所在的样本S1为最短板样本。步骤三、局部数据样本一项集平均域值计算;根据局部数据样本计算一项集平均支持度JS1;对于如果JS1>=ZS1,按照竞争原则,重新确定频繁项集;JS1<=ZS1,按照总数原则,重新确定频繁项集,总数按照M1/2进行处理。所述的竞争原则具体为:按照支持度从高到低依次排列,依据截取的数量进行取舍。所述的总数原则具体为:按照百分比的形式进行对各样本项集的取舍。步骤四、总体数据样本频繁K项集生成;重新组合数据样本,剔除最短板数据样本中的频繁项集,第k步,根据k-1步频繁的k-1项集Lk-1按照Apriori_gen产生后选的k项集Ck集,根据总体数据样本,计算候选K项集Ck的支持度及平均支持度ZSk确定频繁K项集Lk,Lk数量计作Mk。步骤五、局部数据样本K项集平均域值计算;根据局部数据样本计算K项集平均支持度JSk;对于如果JSk>=ZSk,按照竞争原则,重新确定频繁k项集;JSk<=ZSk,按照总数原则,重新确定频繁k项集,总数按照Mk/2进行处理。与现有技术相比,本专利技术的有益效果是:本专利技术的一种基于最短板原则的频繁项集数据挖掘方法,应用Apriori算法的基本思想,根据局部样本的平均支持度与总体样本的平均支持度大小以及最短板原则,分别采用竞争原则和总数原则寻找频繁项集,解决了经典Apriori算法不能很好的兼顾局部最优的不足,实例验证证明了算法的有效性。附图说明图1为本专利技术的一种基于最短板原则的频繁项集数据挖掘方法的流程图;图2为本专利技术的一种基于最短板原则的频繁项集数据挖掘方法的实施例图。具体实施方式以下结合附图对本专利技术提供的具体实施方式进行详细说明。如图1所示,一种基于最短板原则的频繁项集数据挖掘方法,将总体数据样本按照支持度从高到低依次排列,最低支持度项集所在的样本为最短板样本,最短板数据样本只进行频繁一项集的数据挖掘,不进行二项集及以后的数据挖掘;所述的数据挖掘方法包括以下步骤:步骤一、总体数据样本频繁一项集生成;重新组合数据样本,根据总体数据样本计算候选一项集C1的支持度及平均支持度ZS1确定频繁一项集L1,L1数量计作M1。步骤二、记录候选一项集C1中支持度最小的项集所在的样本S1为最短板样本。步骤三、局部数据样本一项集平均域值计算;根据局部数据样本计算一项集平均支持度JS1;对于如果JS1>=ZS1,按照竞争原则,重新确定频繁项集;JS1<=ZS1,按照总数原则,重新确定频繁项集,总数按照M1/2进行处理。所述的竞争原则具体为:按照支持度从高到低依次排列,依据截取的数量进行取舍。所述的总数原则具体为:按照百分比的形式进行对各样本项集的取舍。步骤四、总体数据样本频繁K项集生成;重新组合数据样本,剔除最短板数据样本中的频繁项集,第k步,根据k-1步频繁的k-1项集Lk-1按照Apriori_gen产生后选的k项集Ck集,根据总体数据样本,计算候选K项集Ck的支持度及平均支持度ZSk确定频繁K项集Lk,Lk数量计作Mk。步骤五、局部数据样本K项集平均域值计算;根据局部数据样本计算K项集平均支持度JSk;对于如果JSk>=ZSk,按照竞争原则,重新确定频繁k项集;JSk<=ZSk,按照总数原则,重新确定频繁k项集,总数按照Mk/2进行处理。【具体实施例】为了说明TLS-Ariori算法的有效性,本实施例选取了Apriori算法发现频繁项集的一个经典的例子,事务数据库如表1~4:TIDT100T200T300T400T500T600T700T800T900项ID列表I1,I2,I5I2,I4I2,I3,I4I1,I2,I4I1,I3,I4I2,I3I1,I3I1,I2,I3,I5I1,I2,I3表1样本1项集TIDT100T200T300T400T500T600T700T800T900项ID列表I2,I5I1,I4I1,I3,I5I1,I2,I5I2,I3,I5I1,I3I2,I4I1,I3,I4I1,I2,I4表2样本2项集TIDT100T200T300T400T500T600T700T800T900项ID列表I1,I5I2,I5I2,I3,I5I1,I3,I4I1,I2,I5I4,I5I2,I3I1,I2,I3,I4I1,I2表3样本3项集TIDT100T200T300T400T500T600T700T800T900项ID列表I2,I3,I4I2,I5I2,I3,I4,I5I1,I3,I5I1,I2,I4I3,I5I2,I4I1,I2,I3,I5I1,I5表4样本4项集表1-4中,每个样本数据库中有9个事务T100-T900。表1中的支持度计数为支持度与总的事物数的乘积。利用本专利技术的基于最短板原则的频繁项集数据挖掘方法即TLS-Apriori算法,对表1~4的数据进行频繁相集的发现。如图2所示,图2为TLS-Apriori算法发现频繁项集过程,每本文档来自技高网...

【技术保护点】
1.一种基于最短板原则的频繁项集数据挖掘方法,其特征在于,所述的数据挖掘方法将总体数据样本按照支持度从高到低依次排列,最低支持度项集所在的样本为最短板样本,最短板数据样本只进行频繁一项集的数据挖掘,不进行二项集及以后的数据挖掘;所述的数据挖掘方法包括以下步骤:步骤一、总体数据样本频繁一项集生成;重新组合数据样本,根据总体数据样本计算候选一项集C1的支持度及平均支持度ZS1确定频繁一项集L1,L1数量计作M1;步骤二、记录候选一项集C1中支持度最小的项集所在的样本S1为最短板样本;步骤三、局部数据样本一项集平均域值计算;根据局部数据样本计算一项集平均支持度JS1;对于如果JS1>=ZS1,按照竞争原则,重新确定频繁项集;JS1

【技术特征摘要】
1.一种基于最短板原则的频繁项集数据挖掘方法,其特征在于,所述的数据挖掘方法将总体数据样本按照支持度从高到低依次排列,最低支持度项集所在的样本为最短板样本,最短板数据样本只进行频繁一项集的数据挖掘,不进行二项集及以后的数据挖掘;所述的数据挖掘方法包括以下步骤:步骤一、总体数据样本频繁一项集生成;重新组合数据样本,根据总体数据样本计算候选一项集C1的支持度及平均支持度ZS1确定频繁一项集L1,L1数量计作M1;步骤二、记录候选一项集C1中支持度最小的项集所在的样本S1为最短板样本;步骤三、局部数据样本一项集平均域值计算;根据局部数据样本计算一项集平均支持度JS1;对于如果JS1>=ZS1,按照竞争原则,重新确定频繁项集;JS1<=ZS1,按照总数原则,重新确定频繁项集,总数按照M1/2进行处理;步骤四、总体数据样本频繁K项集生成;重新组合数据样本,剔...

【专利技术属性】
技术研发人员:柴明亮贾吉祥郭庆涛高冰彭春霖朱晓雷常桂华黄玉平唐雪峰邹焕
申请(专利权)人:鞍钢股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1