一种大数据挖掘系统技术方案

技术编号:17032985 阅读:48 留言:0更新日期:2018-01-13 19:26
本发明专利技术涉及一种大数据挖掘系统,包括大数据存储模块、数据提取模块、数据检查模块、数据挖掘模块、结果验证模块、数据报告模块和日志模块。数据提取模块从大数据存储模块中提取符合用户需求的数据集,将数据集发送给数据检查模块;数据检查模块检查数据集的完整性并对数据集进行过滤,去除数据集中错误的或不一致的数据,保证了有效数据集的有效性,将过滤后的有效数据集发送给数据挖掘模块;数据挖掘模块采用多种挖掘算法对有效数据集进行挖掘分析,既能够提高大数据挖掘的准确性,又能保护用户隐私信息不被泄露;结果验证模块验证数据挖掘结果的准确性;数据报告模块根据数据挖掘结果生成数据报告;日志模块记录数据挖掘过程中产生的日志数据。

【技术实现步骤摘要】
一种大数据挖掘系统
本专利技术涉及数据处理
,具体说是一种大数据挖掘系统。
技术介绍
数据挖掘是指从大量的、有噪声的、随机的数据中提取潜在的、有效的、新颖的、有用的模式或信息,用于决策者进行相应的决策。近年来,随着网络技术的迅猛发展,海量数据不断增长,数据挖掘引起了信息产业界的极大关注,多元化、个性化的数据挖掘需求越来越强,其主要原因是存在大量数据,迫切需要将这些数据转换成有用的信息和知识。目前对数据挖掘的研究主要集中在改进挖掘算法方法,但如何从大量数据中提取有用信息,得出有效的数据挖掘结果仍然是目前亟待解决的问题。并且现有的数据挖掘系统可能导致用户隐私信息泄露。因此需要提出一种新的大数据挖掘系统,能够提高大数据挖掘的有效性并且保护用户隐私信息不被泄露。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种基于大数据的智能家居系统,能够提高大数据挖掘的速度和准确性,又能保护用户隐私信息不被泄露,同时便于工作人员对数据挖掘过程的监控和管理。为达到以上目的,本专利技术采取的技术方案是:一种大数据挖掘系统,包括大数据存储模块、数据提取模块、数据检查模块、数据挖掘模块、结果验证模块、数据报告模块和日志模块;所述数据提取模块用于根据用户需求、通过回归统计分析从大数据存储模块中提取符合用户需求的数据集,将数据集发送给数据检查模块;所述数据检查模块用于根据用户需求检查数据集,并对数据集进行过滤,去除数据集中错误的或不一致的数据,过滤后的有效数据构成有效数据集,将有效数据集发送给数据挖掘模块;所述数据挖掘模块用于采用挖掘算法对有效数据集进行挖掘分析,获得数据挖掘结果,将数据挖掘结果发送给结果验证模块;所述结果验证模块用于验证数据挖掘结果的准确性,准确性低于用户预设阈值时,返回数据提取模块,重新进行数据提取;准确性达到或超过用户预设阈值时,将数据挖掘结果发送给数据报告模块;所述数据报告模块用于根据数据挖掘结果生成数据报告;所述日志模块用于记录整个数据挖掘过程中产生的日志数据。在上述方案的基础上,所述大数据存储模块包括存储层、管理层、应用接口层和访问层。在上述方案的基础上,所述存储层为满足FC协议、iSCSI协议和NAS协议的存储设备。在上述方案的基础上,所述管理层是大数据存储模块的核心,用于通过集群、分布式文件系统和网格计算实现多存储设备间的协同工作。在上述方案的基础上,所述应用接口层用于提供各种应用服务接口。在上述方案的基础上,所述访问层用于控制数据提取模块的访问权限;所述数据提取模块接收用户需求,向大数据存储模块发送访问请求,大数据存储模块中的访问层对数据提取模块进行权限认证,认证通过后,大数据存储模块将相应数据发送给数据提取模块。在上述方案的基础上,所述数据检查模块根据用户需求检查数据集的完整性和一致性,当数据集中的数据不完整时,返回数据提取模块继续进行数据提取。在上述方案的基础上,所述数据挖掘模块内嵌有敏感关联规则隐藏算法模块、决策树挖掘分类算法模块和K-Means聚类算法模块,采用这三种算法分别对有效数据集进行挖掘分析。在上述方案的基础上,所述数据挖掘模块进行数据挖掘的流程如下:步骤1,采用敏感关联规则隐藏算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅰ;步骤2,采用决策树挖掘分类算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅱ;步骤3,采用K-Means聚类算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅲ;步骤4,数据挖掘结果Ⅰ、数据挖掘结果Ⅱ和数据挖掘结果Ⅲ同时发送给结果验证模块,进行准确性验证;步骤5,选取准确率最高的数据挖掘结果发送给数据报告模块。上述步骤1中采用敏感关联规则隐藏算法进行挖掘分析的具体过程如下:(1)找出有效数据集中各数据项之间的关联性,根据各数据项之间的关联性预设最小支持度阈值和最小置信度阈值;(2)根据Partition算法,挖掘出有效数据集中满足最小支持度阈值的所有数据项,构成频繁项集;(3)从频繁项集中挖掘出所有满足最小置信度阈值的数据项,生成强关联规则集R;(4)根据需求预设敏感规则集RH,通过清理算法降低敏感规则集RH中数据项的支持度和置信度,使之低于最小支持度阈值和最小置信度阈值,从而实现对敏感规则的隐藏。在上述方案的基础上,所述决策树挖掘分类算法为基于Hadoop的混合并行共享决策树挖掘分类算法。本专利技术所述的一种大数据挖掘系统,具有以下有益效果:1、所述大数据存储模块中具有海量并行扩容、强大的负载均衡功能、统一管理、统一向外提供服务、管理效率高和高速缓存等优点,大幅提高了系统的存储性能。2、所述数据检查模块根据用户需求检查数据集的完整性和一致性,并对数据集进行过滤,去除数据集中错误的或不一致的数据,保证了有效数据集的有效性。3、所述数据挖掘模块采用多种算法对有效数据集进行挖掘,既能够提高大数据挖掘的准确性,又能保护用户隐私信息不被泄露;本专利技术采用的Partition算法是分别求每个区的频繁项集,因此可分别同时对各区进行操作,大大提高了算法的效率。4、所述结果验证模块可以验证数据挖掘结果的准确性,当准确性较低时重新进行数据提取和数据挖掘,极大地提高了结果的准确性。5、所述日志模块可以记录整个数据挖掘过程中的日志数据,便于工作人员对数据挖掘过程的监控和管理。附图说明本专利技术有如下附图:图1本专利技术的结构示意图。具体实施方式以下结合附图对本专利技术作进一步详细说明。如图1所示,本专利技术所述的一种大数据挖掘系统,包括大数据存储模块、数据提取模块、数据检查模块、数据挖掘模块、结果验证模块、数据报告模块和日志模块;所述数据提取模块用于根据用户需求、通过回归统计分析从大数据存储模块中提取符合用户需求的数据集,将数据集发送给数据检查模块;所述数据检查模块用于根据用户需求检查数据集,并对数据集进行过滤,去除数据集中错误的或不一致的数据,过滤后的有效数据构成有效数据集,将有效数据集发送给数据挖掘模块;所述数据挖掘模块用于采用挖掘算法对有效数据集进行挖掘分析,获得数据挖掘结果,将数据挖掘结果发送给结果验证模块;所述结果验证模块用于验证数据挖掘结果的准确性,准确性低于用户预设阈值时,返回数据提取模块,重新进行数据提取;准确性达到或超过用户预设阈值时,将数据挖掘结果发送给数据报告模块;所述数据报告模块用于根据数据挖掘结果生成数据报告;所述日志模块用于记录整个数据挖掘过程中产生的日志数据。在上述方案的基础上,所述大数据存储模块包括存储层、管理层、应用接口层和访问层。在上述方案的基础上,所述存储层为满足FC协议、iSCSI协议和NAS协议的存储设备。在上述方案的基础上,所述管理层是大数据存储模块的核心,用于通过集群、分布式文件系统和网格计算实现多存储设备间的协同工作。在上述方案的基础上,所述应用接口层用于提供各种应用服务接口。在上述方案的基础上,所述访问层用于控制数据提取模块的访问权限;所述数据提取模块接收用户需求,向大数据存储模块发送访问请求,大数据存储模块中的访问层对数据提取模块进行权限认证,认证通过后,大数据存储模块将相应数据发送给数据提取模块。在上述方案的基础上,所述数据检查模块根据用户需求检查数据集的完整性和一致性,当数据集中的数据不完整时,返回数据提取模块继续进行数据提取。在上本文档来自技高网...
一种大数据挖掘系统

【技术保护点】
一种大数据挖掘系统,其特征在于:包括大数据存储模块、数据提取模块、数据检查模块、数据挖掘模块、结果验证模块、数据报告模块和日志模块;所述数据提取模块用于根据用户需求、通过回归统计分析从大数据存储模块中提取符合用户需求的数据集,将数据集发送给数据检查模块;所述数据检查模块用于根据用户需求检查数据集,并对数据集进行过滤,去除数据集中错误的或不一致的数据,过滤后的有效数据构成有效数据集,将有效数据集发送给数据挖掘模块;所述数据挖掘模块用于采用挖掘算法对有效数据集进行挖掘分析,获得数据挖掘结果,将数据挖掘结果发送给结果验证模块;所述结果验证模块用于验证数据挖掘结果的准确性,准确性低于用户预设阈值时,返回数据提取模块,重新进行数据提取;准确性达到或超过用户预设阈值时,将数据挖掘结果发送给数据报告模块;所述数据报告模块用于根据数据挖掘结果生成数据报告;所述日志模块用于记录整个数据挖掘过程中产生的日志数据。

【技术特征摘要】
1.一种大数据挖掘系统,其特征在于:包括大数据存储模块、数据提取模块、数据检查模块、数据挖掘模块、结果验证模块、数据报告模块和日志模块;所述数据提取模块用于根据用户需求、通过回归统计分析从大数据存储模块中提取符合用户需求的数据集,将数据集发送给数据检查模块;所述数据检查模块用于根据用户需求检查数据集,并对数据集进行过滤,去除数据集中错误的或不一致的数据,过滤后的有效数据构成有效数据集,将有效数据集发送给数据挖掘模块;所述数据挖掘模块用于采用挖掘算法对有效数据集进行挖掘分析,获得数据挖掘结果,将数据挖掘结果发送给结果验证模块;所述结果验证模块用于验证数据挖掘结果的准确性,准确性低于用户预设阈值时,返回数据提取模块,重新进行数据提取;准确性达到或超过用户预设阈值时,将数据挖掘结果发送给数据报告模块;所述数据报告模块用于根据数据挖掘结果生成数据报告;所述日志模块用于记录整个数据挖掘过程中产生的日志数据。2.根据权利要求1所述的大数据挖掘系统,其特征在于:所述大数据存储模块包括存储层、管理层、应用接口层和访问层。3.根据权利要求2所述的大数据挖掘系统,其特征在于:所述存储层为满足FC协议、iSCSI协议和NAS协议的存储设备;所述管理层是大数据存储模块的核心,用于通过集群、分布式文件系统和网格计算实现多存储设备间的协同工作;所述应用接口层用于提供各种应用服务接口;所述访问层用于控制数据提取模块的访问权限。4.根据权利要求3所述的大数据挖掘系统,其特征在于:所述数据提取模块接收用户需求,向大数据存储模块发送访问请求,大数据存储模块中的访问层对数据提取模块进行权限认证,认证通过后,大数据存储模块将相应数据发送给数据提取模块。5.根据权利要求1所述的大数据挖掘系统...

【专利技术属性】
技术研发人员:白云飞
申请(专利权)人:北京海融兴通信息安全技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1