一种基于Top-K频繁项集的挖掘算法制造技术

技术编号：22218816 阅读：46 留言：0更新日期：2019-09-30 01:13

本发明专利技术特别涉及一种基于Top‑K频繁项集的挖掘算法。该基于Top‑K频繁项集的挖掘算法，建立测试数据集T，项集I和最频繁项集数量变量N；循环遍历求解测试数据集T中每个数据项Ti的支持度TID集和支持度；初始化itemsList数组和border_sup；通过对数组itemsList的后续遍历将支持度TID集进行遍历赋值；如果支持度TID的绝对值大于系统支持的边界值，则利用AddItems函数得到项集L，利用函数InsertList将下标为t的元素插入到数组itemsList中，以静态双链表形式存储当前N个最频繁项集，实现频繁项集的分析。该基于Top‑K频繁项集的挖掘算法，基于贪心策略生成的频繁链表，抛弃了人工对于最小支持度的干预，只需一次遍历数据库操作，具有较强的可行性和时间及空间的优越性。

A mining algorithm based on Top-K frequent itemsets

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Top-K频繁项集的挖掘算法
本专利技术涉及数据仓库与数据挖掘
，特别涉及一种基于Top-K频繁项集的挖掘算法。
技术介绍
科学技术的发展及网络技术的提高使得人们能够提取的数据信息越来越多，如何从这些数据中挖掘出对社会有用的信息成为了急需要解决的问题。现如今，数据挖掘和仓库技术为运个难题提供了有效的解决办法，也因此数据仓库技术和数据挖掘技术成为各个领域争先研究的方向。关联规则(AssociationRule)是数据挖掘的重要组成部分，它被应用于发现数据库中的不同数据之间关联关系的重要工具。发现的这些数据可成为商业决策的一种依据，因为这些规则反应的是顾客购物的行为数据集。也正因为这一大因素，使得关联规则成为数据挖掘中最重要的、成熟的研究内容,而频繁项集的挖掘同时又是关联规则挖掘的核心步骤，所以频繁项集的挖掘被赋予了重要的意义。1、在进行挖掘的时候，会产生大量的不需要的待选的频繁项集，而需要把这些频繁项集存储到内存中，这样会占用和耗费大量的空间和时间，一种基于Top-K频繁项集的NFIMG挖掘算法可以避免处理支持度较小的候选频繁项集，从而减少耗费较多的存储空间和运行时间。2、传统挖掘算法在挖掘的时候每挖掘一次项集都需要对数据库进行一次扫描，然后通过项集的匹配来找到一个候选集合，这样的挖掘方法也会使得时间复杂度大大提高，一种基于Top-K频繁项集的NFIMG挖掘算法只需一次遍历数据库操作，大大减少了数据挖掘的时间复杂度。基于上述情况，本专利技术提出了一种基于Top-K频繁项集的挖掘算法。
技术实现思路
本专利技术为了弥补现有技术的缺陷，提供了一种简单高...

【技术保护点】
1.一种基于Top‑K频繁项集的挖掘算法，其特征在于：包括以下步骤：(1)建立测试数据集T，项集I和最频繁项集数量变量N；(2)扫描数据集T，求解测试数据集T中每个数据项Ti的支持度TID集和支持度，求解时采用循环遍历；(3)初始化itemsList数组和当前的边界支持度border_sup；(4)利用链表的后向指针next循环遍历构造数组itemsList；(5)通过对数组itemsList的后续遍历，将支持度TID集进行遍历赋值，并对边界度值进行判定；(6)如果初始化边界值与支持度TID集不存在包含关系，则输出提示信息，并跳出遍历循环，进程结束；否则，则将支持度TID的绝对值与系统支持的边界值进行对比；(7)如果支持度TID的绝对值不大于系统支持的边界值，则跳出遍历循环，进程结束；否则，则利用AddItems函数实现在数组itemsList中执行连接操作后得到的项集L，利用函数InsertList实现将下标为t的元素插入到数组itemsList中合适的位置，数组itemsList[N]以静态双链表形式存储当前N个最频繁项集，实现频繁项集的分析，进程结束。

【技术特征摘要】
1.一种基于Top-K频繁项集的挖掘算法，其特征在于：包括以下步骤：(1)建立测试数据集T，项集I和最频繁项集数量变量N；(2)扫描数据集T，求解测试数据集T中每个数据项Ti的支持度TID集和支持度，求解时采用循环遍历；(3)初始化itemsList数组和当前的边界支持度border_sup；(4)利用链表的后向指针next循环遍历构造数组itemsList；(5)通过对数组itemsList的后续遍历，将支持度TID集进行遍历赋值，并对边界度值进行判定；(6)如果初始化边界值与支持度TID集不存在包含关系，则输出提示信息，并跳出遍历循环，进程结束；否则，则将支持度TID的绝对值与系统支持的边界值进行对比；(7)如果支持度TID的绝对值不大于系统支持的边界值，则跳出遍历循环，进程结束；否则，则利用AddItems函数实现在数组itemsList中执行连接操作后得到的项集L，利用函数InsertList实现将下标为t的元素插入到数组itemsList中合适的位置，数组itemsList[N]以静态双链表形式存储当前N个最频繁项集，实现频繁项集的分析，进程结束。2.根据权利要求1所述的基于Top-K频繁项集的挖掘算法，其特征在于：所述步骤(3)中，设置初始化参数静态双链表的头指针head＝0，静态双链表的尾指针rear＝0，当前的边界支持度border_sup＝0，测试数据集T中的数据项Ti，i＝0。3.根据权利要求1所述的基于Top-K频繁项集的挖掘算法，其特征在于：所述步骤(4)中，循环遍历时设置循环次数即数组长度，测试数据集设置数组长度为12。4.根据权利要求1所述的基于Top-K频繁项集的挖掘算法，其特征在于：所述步骤(7)中，将当前已求得的Top-K项集按照支持度降序存储到静态双链表中，在尚未连接的Top-K项集中选择支持度最高的两个频繁项集进行连接操作；在执行连接操作后，如果结果项集的支持度大于边界支持度，并且结果项集的长度大于2，则查找该结果项集是否存在；由于查找只须在等长项集中进行...

【专利技术属性】
技术研发人员：朱波，邹建军，杨培强，
申请(专利权)人：浪潮软件集团有限公司，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人