The invention provides a frequency itemset data mining method based on the principle of the shortest board, the TLS Apriori algorithm (The Lowest Support Apriori). The total data samples are arranged in order from high to low support, the sample of the lowest support item set is the shortest board sample, and the shortest board data sample is only used for frequent one-item data mining, without binomial set and subsequent data mining; this algorithm applies the basic idea of Apriori algorithm, according to the minimum support. The problem that the samples can not become frequent samples for data mining solves the problem that the classical Apriori algorithm can not take into account the local shortcomings while global optimization.
【技术实现步骤摘要】
一种基于最短板原则的频繁项集数据挖掘方法
本专利技术涉及数据挖掘方法
,特别涉及一种基于最短板原则的频繁项集数据挖掘方法。
技术介绍
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。Apriori算法将发现关联规则的过程分为两个步骤,第一步是通过迭代检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集,第二步是利用频繁项集构造出满足用户最小置信度的规则,其中,挖掘和识别所有频繁项集是该算法的核心,占据了整个计算量的大部分。Apriori算法运用频繁项集的子集必然是频繁项集的思想,通过已知的频繁项集构造更大的项集,并将其称为候选频繁项集,以后只计算候选项集的支持度。Apriori算法采用人为设定域值的方式,这样就存在根据人的经验设定域值与实际的数据挖掘是否匹配的问题,近些年研究的重点是如何使得人为设定域值与实际的数据挖掘匹配,然而,对于Apriori算法不能很好的兼顾局部样本数据的问题研究甚少,然而在实际的应用中,Apriori算法能够发现全局频繁项集,但是局部样本的频繁项集却不能够很好的体现,这样的应用越来越多。
技术实现思路
为了解决
技术介绍
中所述问题,本专利技术根据最短板原则提供一种基于最短板原则的频繁项集数据挖掘方法-TLS-Apriori算法(TheLowestsupportApriori)。此算法应用Apriori算法的基本思想,根据最小支持度所在的样本不能成为频繁样本的性质进行数据挖掘,解决了经典Apriori算法全局寻优的同时不能很好的兼顾局部的不足。 ...
【技术保护点】
1.一种基于最短板原则的频繁项集数据挖掘方法,其特征在于,所述的数据挖掘方法将总体数据样本按照支持度从高到低依次排列,最低支持度项集所在的样本为最短板样本,最短板数据样本只进行频繁一项集的数据挖掘,不进行二项集及以后的数据挖掘;所述的数据挖掘方法包括以下步骤:步骤一、总体数据样本频繁一项集生成;重新组合数据样本,根据总体数据样本计算候选一项集C1的支持度及平均支持度ZS1确定频繁一项集L1,L1数量计作M1;步骤二、记录候选一项集C1中支持度最小的项集所在的样本S1为最短板样本;步骤三、局部数据样本一项集平均域值计算;根据局部数据样本计算一项集平均支持度JS1;对于如果JS1>=ZS1,按照竞争原则,重新确定频繁项集;JS1
【技术特征摘要】
1.一种基于最短板原则的频繁项集数据挖掘方法,其特征在于,所述的数据挖掘方法将总体数据样本按照支持度从高到低依次排列,最低支持度项集所在的样本为最短板样本,最短板数据样本只进行频繁一项集的数据挖掘,不进行二项集及以后的数据挖掘;所述的数据挖掘方法包括以下步骤:步骤一、总体数据样本频繁一项集生成;重新组合数据样本,根据总体数据样本计算候选一项集C1的支持度及平均支持度ZS1确定频繁一项集L1,L1数量计作M1;步骤二、记录候选一项集C1中支持度最小的项集所在的样本S1为最短板样本;步骤三、局部数据样本一项集平均域值计算;根据局部数据样本计算一项集平均支持度JS1;对于如果JS1>=ZS1,按照竞争原则,重新确定频繁项集;JS1<=ZS1,按照总数原则,重新确定频繁项集,总数按照M1/2进行处理;步骤四、总体数据样本频繁K项集生成;重新组合数据样本,剔...
【专利技术属性】
技术研发人员:柴明亮,贾吉祥,郭庆涛,高冰,彭春霖,朱晓雷,常桂华,黄玉平,唐雪峰,邹焕,
申请(专利权)人:鞍钢股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。