System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种改进apriori的频繁有序项集挖掘方法技术_技高网

一种改进apriori的频繁有序项集挖掘方法技术

技术编号:40541399 阅读:6 留言:0更新日期:2024-03-05 18:57
一种改进apriori的频繁有序项集挖掘方法,包括:采取项为首、特征为尾拼接的方式生成新项集,以发现数据中频繁出现的连续有序项集,而不是无序的关联规则;在候选项筛选中,加入项预判断,减少对事务集的扫描次数;另外,还采用记录项事务集的方式避免了对全部数据集的频繁扫描,提高了算法的时间性能。该方法有效解决了Apriori算法无法用于发现频繁有序项集,以及候选集筛选过程中频繁扫描整个事务集带来的时间开销巨大的问题。

【技术实现步骤摘要】

本专利技术涉及数据的规则发现领域,特别涉及一种改进apriori算法的频繁有序项集挖掘方法,属于数据挖掘的规则挖掘领域。


技术介绍

1、apriori算法是数据挖掘领域的经典算法,自其被提出以来就受到大家的广泛关注,算法主要有两个步骤:生成候选集和候选集筛选。生成步采用保留项内部组合的方式来生成新候选项集,筛选步则采用逐个遍历数据集统计其支持数,与设定的支持度阈值比较进行筛选。apriori是基于一个定理:如果某个项集是频繁项集,那么它所有的子集也是频繁的来进行缩小搜索空间的。且在迭代过程中假设各项集是无序的。在候选集筛选过程中需要频繁扫描事务集,带来较高的时间复杂度。

2、随着大数据时代的到来,越来越多的数据,而人们需要的数据模式也多种多样,所以就需要设计对应的算法来帮助我们发现数据的特定规则。apriori算法在生成候选集的过程中采用项集内部组合的形式,且假设各项之间是无序的,这就限制了其无法应用在有序项集的发现问题上,且每次筛选候选集都需要反复扫描整个数据集,导致算法具有较高的时间复杂度。


技术实现思路

1、为了解决上述apriori算法无法用于发现频繁有序项集,以及候选集筛选过程中频繁扫描整个事务集带来的时间开销巨大的问题,本公开提供了一种改进apriori的频繁有序项集挖掘方法,通过生成有序的候选集以及记录各项所在的事务集合来避免对全体数据集的频繁扫描,且在生成新的项集后进行项集预判断,可加快候选集筛选的过程。

2、本公开提供的改进apriori的频繁有序项集挖掘方法,主要思路在于:

3、为了弥补apriori算法无法发现有序项集的不足,在其候选集生成步做了改进,为其生成有序特征的候选项集,以将其用于有序项集的发现问题中;

4、另外,在候选集筛选步,在每次迭代时记录下各项满足支持度数据的编号,在下一步候选集筛选时则不需要对全部数据集进行扫描,且在筛选中加入预判断,可减少扫描事务集的次数,大大提高算法的时间性能。

5、更加具体的,主要包括以下步骤的改进:

6、在候选集生成步,采用项为首特征为尾拼接的方式来生成新候选集;由此保证生成的候选项是有序的,保留了生成过程追加特征的顺序;

7、在对每个候选项进行筛选时,首先进行预判断,若满足则计算支持度,若不满足则直接剔除;由此减少遍历事务集的次数,降低时间复杂度。

8、作为优选,还在候选集筛选步记录下各项所对应的项事务集,项所对应的项事务集,即包含该项的所有事务的集合。在下一步筛选时,只需遍历生成该项的项事务集即可。项事务集一般远远小于全部事务集,所以遍历速度较快,可大幅提高算法的时间性能。

9、与现有技术相比,本公开的有益效果是:(1)采取项为首、特征为尾的拼接的方式生成新项集,可发现数据中频繁出现的连续有序项集,而不是无序的关联规则;(2)在候选项筛选中,加入项预判断,减少对事务集的扫描次数;(3)采用记录项事务集的方式避免了对全部数据集的频繁扫描,提高了算法的时间性能。

本文档来自技高网...

【技术保护点】

1.一种改进apriori算法的频繁有序项集挖掘方法,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,在候选集生成步骤前还包括预处理的步骤,包括:

3.根据权利要求1或2所述的方法,其特征在于,还包括以下步骤:

4.根据权利要求3所述的方法,其特征在于,在候选集筛选步骤中,所述基于该项支持度的计算进行筛选的方法具体包括:

5.根据权利要求1所述的方法,其特征在于,还包括以下步骤:

【技术特征摘要】

1.一种改进apriori算法的频繁有序项集挖掘方法,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,在候选集生成步骤前还包括预处理的步骤,包括:

3.根据权利要求1或2所述的方法,其特...

【专利技术属性】
技术研发人员:刘晓辉赵淳璐刘洋张琳张翠姚晓殷伟
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1