一种基于大数据平台的频繁模式挖掘方法技术

技术编号：18289506 阅读：19 留言：0更新日期：2018-06-24 04:13

本发明专利技术公开了一种基于大数据平台的频繁模式挖掘方法。它利用大数据平台从海量数据中发现满足用户需求的频繁模式，一是采用混合的搜索策略，将宽度优先搜索和深度优先搜索相结合，实现混合挖掘，二是采用混合垂直数据格式来表示数据，充分利用交集与差集的运算特点保证垂直数据格式始终保持最小状态，同时实现水平数据格式与垂直数据格式的相互转换，并采用了基于快速失败机制的交叉计算优化方案提高计算效率，三是在宽度优先搜索挖掘阶段采用基于有序搜索树的快速剪枝策略，提高剪枝效率，四是结合大数据平台的特性，进行有效地缓存和均衡分组，实现整个系统负载均衡。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据平台的频繁模式挖掘方法
本专利技术涉及智能化信息处理领域。本专利技术设及一种能从海量数据中发现满足用户需求的频繁模式挖掘方法，特别适用于智能化推荐系统、网络信息检索、文本挖掘以及知识发现等领域。
技术介绍
随着互联网时代的不断迈进，数字信息化技术也在不断地提高，以数据库及数据仓库等数据存储技术为核心的信息化处理方案在各行各业得到广泛应用。随之而来的便是激增的数据量，这些庞大的数据背后暗含着许多有价值的信息。如何从中获取到具有实用性的有效信息和知识，以便更好的利用这些数据创造更多的价值，这便是大数据时代带来的机遇与挑战，数据挖掘技术正是在此背景下应运而生。数据挖掘作为一项处理分析数据的技术，便是在大量数据中分析、计算、识别出有效的、有用的、具有潜在价值的信息或知识。数据挖掘，同时又被称作数据库中的知识发现，按照其挖掘的任务可分为关联规则、聚类、分类、时间序列预测模型等。其中，关联规则是用来描述事务记录中不同数据元素之间存在的内在相关性关系，其核心任务便是频繁模式的挖掘。然而，在已有的众多频繁模式挖掘成果中，大多都是采用单一的搜索策略或是单一的数据格式，虽然现有的技术在处理某些特定数据时已经有了相当不错的效果，但当面对更加复杂且规模更大的数据时，或多或少的会出现效率低下或是可伸缩性差等问题，从而衍生了时间浪费、能源浪费等问题。
技术实现思路
针对现有技术中的缺陷，本专利技术提供了一种基于大数据平台的频繁模式挖掘方法基于大数据平台，采用混合的搜索策略和数据格式，并结合高效的剪枝方案实现并行化挖掘频繁模式，从而解决效率和伸缩性等问题。一种基于大数据平台的...

【技术保护点】
1.一种基于大数据平台的频繁模式挖掘方法，其特征在于，根据事务数据库D、用户设置的最小支持度ð，快速地从D中发掘出频繁度不低于ð的模式，主要包括以下步骤：(1)数据输入；(2)统计频繁1‑项集和2‑项集；(3)估算最大内存上限值SMUB，对搜索策略进行划分；(4)混合挖掘；(5) 数据输出；其中所述步骤（2）和（4）中的宽度挖掘阶段的垂直数据格式采用混合数据格式，并采用基于快速失败机制的交叉计算优化方案提高计算速率，同时采用基于有序搜索树的快速剪枝方案避免资源浪费问题；所述步骤（3）中对搜索策略进行了划分，从单一搜索策略转入混合搜索，在所述步骤（4）中按照混合搜索策略执行混合挖掘任务，所述步骤（4）中进行混合挖掘时对宽度挖掘进行有效的缓存机制来降低中间输出量，同时对于深度挖掘采用均衡分组方案实现整个系统

【技术特征摘要】
1.一种基于大数据平台的频繁模式挖掘方法，其特征在于，根据事务数据库D、用户设置的最小支持度𝜎，快速地从D中发掘出频繁度不低于𝜎的模式，主要包括以下步骤：(1)数据输入；(2)统计频繁1-项集和2-项集；(3)估算最大内存上限值SMUB，对搜索策略进行划分；(4)混合挖掘；(5)数据输出；其中所述步骤（2）和（4）中的宽度挖掘阶段的垂直数据格式采用混合数据格式，并采用基于快速失败机制的交叉计算优化方案提高计算速率，同时采用基于有序搜索树的快速剪枝方案避免资源浪费问题；所述步骤（3）中对搜索策略进行了划分，从单一搜索策略转入混合搜索，在所述步骤（4）中按照混合搜索策略执行混合挖掘任务，所述步骤（4）中进行混合挖掘时对宽度挖掘进行有效的缓存机制来降低中间输出量，同时对于深度挖掘采用均衡分组方案实现整个系统的负载均衡。2.根据权利要求1所述的方法，其特征在于，所述的混合搜索通过在挖掘过程中伺机选择搜索策略，通过宽度搜索的逐层搜索方式，减少数据维度，使部分共享一个父节点的项集可以转入深度挖掘，从而减少宽度搜索的层数，降低了宽度搜索挖掘时的I/O开销，解决深度搜索挖掘时的内存限制；具体步骤如下：2.1、扫描事务数据库D第一遍，使用垂直数据格式保存每个频繁1-项集的信息，同时对其按照支持度的升序排序后得到一阶频繁模式的有序序列F，并输出；2.2、通过对频繁1-项集的交集操作计算出频繁2-项集，在生成2-项集后，通过估算具有相同前缀的所有2-项集在一起做深度搜索挖掘可能需要的内存来判断这些2-项集是否适合转入深度挖掘，如果所需内存高于设定的阈值，则将继续宽度搜索；否则将会转入深度搜索；2.3、对具有相同k阶前缀模式X的所有(k+1)阶模式组成的集合，称其为父节点为X的一组sibling，记为sibling({X})，判断能否进行深度搜索是通过估算每组sibling在执行深度挖掘时可能所需的最大内存上限值SMUB，对于一组以k阶模式X为前缀的sibling({X})集合，按照公式1计算其做深度挖掘的内存上限值，其中n表示该sibling中包含的模式个数，l表示模式个数，p表示一个项目在内存中所占的字节数，q为其所有模式对应的垂直数据格式所含元素之和。3.根据权利要求1所述的方法，其特征在于，所述的混合垂直数据格式是利用不同垂直数据格式之间的交集与差集的运算特点来保证垂直数据格式始终保持最小状态，降低内存消耗...

【专利技术属性】
技术研发人员：刘君强，江波，
申请(专利权)人：浙江工商大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人