一种兼顾局部样本的频繁项集数据挖掘方法技术

技术编号:17467301 阅读:60 留言:0更新日期:2018-03-15 04:53
本发明专利技术提供一种兼顾局部样本的频繁项集数据挖掘方法,按照支持度从高到低依次排列,依据截取的数量进行取舍的竞争原则,以及按照百分比的形式对各样本项集进行取舍的总数原则。依次进行总体数据样本频繁一项集生成、局部数据样本一项集平均域值计算、总体数据样本频繁K项集生成及局部数据样本K项集平均域值计算。本发明专利技术基于Apriori性质的频繁项集数据挖掘算法LS‑Apriori算法,应用Apriori算法的基本思想,根据局部样本的平均支持度与总体样本的平均支持度大小,分别采用竞争原则和总数原则寻找频繁项集,从而在Apriori算法中兼顾了局部样本数据,有效解决了经典Apriori算法不能很好的兼顾局部最优的缺陷。

A method of mining frequent itemsets with local samples

The invention provides a data mining method for frequent itemsets taking into account local samples, and according to the competitive principle that is chosen according to the number of intercepts, and the total number of the choice of each sample set according to the percentage form, according to the order of support from high to low. In turn, the total data sample is frequently generated, one set is generated, the local data sample is set up, the average field value is calculated, the total data sample is frequent, the K itemsets are generated, and the local data samples K item sets mean field values are calculated. The invention Apriori Apriori algorithm LS algorithm for mining frequent itemsets based on the nature of the data, the basic idea of the application of Apriori algorithm, based on the average support local sample average support degree and overall sample size, using the principle of competition and the total principle for finding frequent itemsets, which takes into account the local sample data in the Apriori algorithm, effective to solve the classical Apriori algorithm can not very good consideration of local optimum defects.

【技术实现步骤摘要】
一种兼顾局部样本的频繁项集数据挖掘方法
本专利技术属于数据挖掘方法,特别涉及一种兼顾局部样本的频繁项集数据挖掘方法。
技术介绍
Apriori算法将发现关联规则的过程分为两个步骤:第一步是通过迭代检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;第二步是利用频繁项集构造出满足用户最小置信度的规则,其中,挖掘和识别所有频繁项集是该算法的核心,占据了整个计算量的大部分。Apriori算法运用频繁项集的子集必然是频繁项集的思想,通过已知的频繁项集构造更大的项集,并将其称为候选频繁项集,以后只计算后选项集的支持度。Apriori算法采用人为设定域值的方式,这样就存在根据人的经验设定域值与实际的数据挖掘是否匹配的问题,近些年研究的重点是如何使得人为设定域值与实际的数据挖掘匹配,对于Apriori算法如何兼顾局部样本数据的问题研究甚少。然而在实际的应用中,Apriori算法能够发现全局频繁项集,但是局部样本的频繁项集却不能够被体现,这样的现象越来越多。
技术实现思路
本专利技术提供一种基于Apriori性质的频繁项集数据挖掘算法LS-Apriori算法,其目的在于充分兼顾局部样本本文档来自技高网...
一种兼顾局部样本的频繁项集数据挖掘方法

【技术保护点】
一种兼顾局部样本的频繁项集数据挖掘方法,是基于Apriori性质的频繁项集数据挖掘算法的LS‑Apriori算法,其特征在于,竞争原则:按照支持度从高到低依次排列,依据截取的数量进行取舍;总数原则:按照百分比的形式对各样本项集进行取舍;其具体方法和步骤为:(1)总体数据样本频繁一项集生成:重新组合数据样本,根据总体数据样本,计算候选一项集C1的支持度及平均支持度ZS1,确定频繁一项集L1,L1数量计作M1;(2)局部数据样本一项集平均域值计算:根据局部数据样本计算一项集平均支持度JS1;如果JS1≥ZS1,按照竞争原则,重新确定频繁项集;若JS1<ZS1,局部样本均值≤总体样本均值,说明这部分...

【技术特征摘要】
1.一种兼顾局部样本的频繁项集数据挖掘方法,是基于Apriori性质的频繁项集数据挖掘算法的LS-Apriori算法,其特征在于,竞争原则:按照支持度从高到低依次排列,依据截取的数量进行取舍;总数原则:按照百分比的形式对各样本项集进行取舍;其具体方法和步骤为:(1)总体数据样本频繁一项集生成:重新组合数据样本,根据总体数据样本,计算候选一项集C1的支持度及平均支持度ZS1,确定频繁一项集L1,L1数量计作M1;(2)局部数据样本一项集平均域值计算:根据局部数据样本计算一项集平均支持度JS1;如果JS1≥ZS1,按照竞争原则,重新确定频繁项集;若JS1<ZS1,局部样本均值≤总体样本均...

【专利技术属性】
技术研发人员:柴明亮高冰宋宝宇李连成刘宝权张岩宋君王靖震杨东晓费静
申请(专利权)人:鞍钢股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1