The invention provides a data mining method for frequent itemsets taking into account local samples, and according to the competitive principle that is chosen according to the number of intercepts, and the total number of the choice of each sample set according to the percentage form, according to the order of support from high to low. In turn, the total data sample is frequently generated, one set is generated, the local data sample is set up, the average field value is calculated, the total data sample is frequent, the K itemsets are generated, and the local data samples K item sets mean field values are calculated. The invention Apriori Apriori algorithm LS algorithm for mining frequent itemsets based on the nature of the data, the basic idea of the application of Apriori algorithm, based on the average support local sample average support degree and overall sample size, using the principle of competition and the total principle for finding frequent itemsets, which takes into account the local sample data in the Apriori algorithm, effective to solve the classical Apriori algorithm can not very good consideration of local optimum defects.
【技术实现步骤摘要】
一种兼顾局部样本的频繁项集数据挖掘方法
本专利技术属于数据挖掘方法,特别涉及一种兼顾局部样本的频繁项集数据挖掘方法。
技术介绍
Apriori算法将发现关联规则的过程分为两个步骤:第一步是通过迭代检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;第二步是利用频繁项集构造出满足用户最小置信度的规则,其中,挖掘和识别所有频繁项集是该算法的核心,占据了整个计算量的大部分。Apriori算法运用频繁项集的子集必然是频繁项集的思想,通过已知的频繁项集构造更大的项集,并将其称为候选频繁项集,以后只计算后选项集的支持度。Apriori算法采用人为设定域值的方式,这样就存在根据人的经验设定域值与实际的数据挖掘是否匹配的问题,近些年研究的重点是如何使得人为设定域值与实际的数据挖掘匹配,对于Apriori算法如何兼顾局部样本数据的问题研究甚少。然而在实际的应用中,Apriori算法能够发现全局频繁项集,但是局部样本的频繁项集却不能够被体现,这样的现象越来越多。
技术实现思路
本专利技术提供一种基于Apriori性质的频繁项集数据挖掘算法LS-Apriori算法,其目的 ...
【技术保护点】
一种兼顾局部样本的频繁项集数据挖掘方法,是基于Apriori性质的频繁项集数据挖掘算法的LS‑Apriori算法,其特征在于,竞争原则:按照支持度从高到低依次排列,依据截取的数量进行取舍;总数原则:按照百分比的形式对各样本项集进行取舍;其具体方法和步骤为:(1)总体数据样本频繁一项集生成:重新组合数据样本,根据总体数据样本,计算候选一项集C1的支持度及平均支持度ZS1,确定频繁一项集L1,L1数量计作M1;(2)局部数据样本一项集平均域值计算:根据局部数据样本计算一项集平均支持度JS1;如果JS1≥ZS1,按照竞争原则,重新确定频繁项集;若JS1<ZS1,局部样本均值≤总体 ...
【技术特征摘要】
1.一种兼顾局部样本的频繁项集数据挖掘方法,是基于Apriori性质的频繁项集数据挖掘算法的LS-Apriori算法,其特征在于,竞争原则:按照支持度从高到低依次排列,依据截取的数量进行取舍;总数原则:按照百分比的形式对各样本项集进行取舍;其具体方法和步骤为:(1)总体数据样本频繁一项集生成:重新组合数据样本,根据总体数据样本,计算候选一项集C1的支持度及平均支持度ZS1,确定频繁一项集L1,L1数量计作M1;(2)局部数据样本一项集平均域值计算:根据局部数据样本计算一项集平均支持度JS1;如果JS1≥ZS1,按照竞争原则,重新确定频繁项集;若JS1<ZS1,局部样本均值≤总体样本均...
【专利技术属性】
技术研发人员:柴明亮,高冰,宋宝宇,李连成,刘宝权,张岩,宋君,王靖震,杨东晓,费静,
申请(专利权)人:鞍钢股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。