一种大数据统计分析系统技术方案

技术编号:21298816 阅读:25 留言:0更新日期:2019-06-12 07:44
本发明专利技术公开了一种大数据统计分析系统,包括目标数据采集模块、数据处理模块、数据标准化模块、数据识别分类模块、数据统计分析模块、图形绘制模块、数据可视化分析模块、数据定位模块。本发明专利技术基于目标数据采集模块进行数据的针对性挖掘,然后基于Hadoop的粗糙集快速属性约简算法进行数据的预处理,提高了大规模数据的分析效率,从而可以将纷繁多样的海量数据转换成具有信息和商业价值的可用数据,基于Tableau Desktop实现了数据的可视化分析,从而实现了多种目标数据的计算获取,大大方便了工作人员的使用。

A Statistical Analysis System for Large Data

The invention discloses a large data statistical analysis system, which includes target data acquisition module, data processing module, data standardization module, data recognition and classification module, data statistical analysis module, graphics drawing module, data visualization analysis module and data positioning module. The invention aims at data mining based on target data acquisition module, and then preprocesses data based on Hadoop's fast attribute reduction algorithm of rough set, which improves the analysis efficiency of large-scale data, thus transforming numerous and diverse massive data into available data with information and commercial value, and realizes data visualization analysis based on Tableau Desktop. Thus, the calculation and acquisition of multiple target data are realized, which greatly facilitates the use of staff.

【技术实现步骤摘要】
一种大数据统计分析系统
本专利技术涉及数据分析领域,具体涉及一种大数据统计分析系统。
技术介绍
大数据、云计算、“互联网+”已成为创新发展的新趋势,在大数据条件下,,企业需具备在第一时间洞察数据的变化、感知有问题的数据,并提供有效的安全策略的能力。企业的每个系统就会产生成千上万的数据,虽然现在有很多传统的日志或者其他专业工具能够帮助企业分析这些数据,而传统的安全产品工具却不能给我们带来效率,来自传统IPS/IDS、防火墙/UTM、AV、日志系统的各类信息每天高达数千万条,但传统的产品工具对数据的处理目前仅仅停留在各自割裂的、独立的、简易的图表与简单列示查询的方式,这些数据还没有很好的呈现为可视化的关联,关键数据的提取与关联要靠人工进行逐条甄别。鉴于此,迫切需要设计一种可实现数据自动获取识别分析处理的系统。
技术实现思路
为解决上述问题,本专利技术提供了一种大数据统计分析系统,基于目标数据采集模块进行数据的针对性挖掘,然后基于Hadoop的粗糙集快速属性约简算法进行数据的预处理,提高了大规模数据的分析效率,从而可以将纷繁多样的海量数据转换成具有信息和商业价值的可用数据,基于TableauDesktop实现了数据的可视化分析,从而实现了多种目标数据的计算获取,大大方便了工作人员的使用。为实现上述目的,本专利技术采取的技术方案为:一种大数据统计分析系统,包括:目标数据采集模块,用于进行目标数据的采集;数据处理模块,采用基于Hadoop的粗糙集快速属性约简算法对目标数据进行预处理;数据标准化模块,基于BP神经网络模对完成预处理的目标数据进行标准化处理;数据识别分类模块,基于BP神经网络模型根据特征数据对完成标准化处理的数据进行识别分类;数据统计分析模块,基于数据识别分类模块的识别分类结果进行对应数据统计模型、数据分析模型的调用,并输出对应的统计结果、分析结果;图形绘制模块,用于根据完成标准化处理后的数据生成各种曲线图。进一步地,所述数据标准化模块采用PCA-BP神经网络模型。进一步地,还包括一数据可视化分析模块,基于完成标准化处理后的数据通过TableauDesktop实现数据的可视化分析。进一步地,还包括一数据定位模块,基于完成识别分类后的数据在数据库中找到合适的位置,并为其找到相似数据点,建立其与相似数据点之间的关系。进一步地,所述标准化后的数据至少包括数据的属性参数和特征参数。进一步地,还包括一数据整理模块,用于查找并清除所接收到的数据之间存在的冗余内容。进一步地,在调用对应数据统计模型和数据分析模型前需先经多特征加权融合模块完成多特征的融合操作。进一步地,所述多特征加权融合模块采用自适应的融合算法,公式如下:(1)其中,表示主因素项的得分,表示次因素项的得分,其中,,和采用自适应的取值方案,公式如(2)和(3)所示:(2)(3)。进一步地,所述数据识别分类模块基于不同的分析目标调用不同的于BP神经网络模型实现数据的识别分类,每个数据的识别结果均携带主/次因素标记。本专利技术具有以下有益效果:1)基于目标数据采集模块进行数据的针对性挖掘,然后基于Hadoop的粗糙集快速属性约简算法进行数据的预处理,提高了大规模数据的分析效率,从而可以将纷繁多样的海量数据转换成具有信息和商业价值的可用数据;2)基于TableauDesktop实现了数据的可视化分析,从而实现了多种目标数据的计算获取,大大方便了工作人员的使用;3)将多特征分为主因素项和次因素项,然后采用加权的方式进行最终特征项的获取,从而提高了数据分析的精确度;4)不同数据的类型采用不同的统计模型和分析模型,实现了数据的分开加载分析,提高了系统的工作效率;5)基于数据整理模块实现了亢余数据的清除,通过数据定位模块实现了数据的自动分类储存,在减轻工作人员工作量的同时,方便了后续数据的调用。附图说明图1为本专利技术实施例一种大数据统计分析系统的系统框图。具体实施方式为了使本专利技术的目的及优点更加清楚明白,以下结合实施例对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术实施例提供了一种大数据统计分析系统,包括:目标数据采集模块,用于进行目标数据的采集;使用时,用户可以根据需要经人机操作模块选中算法调用编辑模块进行目标数据采集规则的编辑,从而可以实现在大数据库中进行目标数据的自动查询挖掘;数据整理模块,用于查找并清除所接收到的数据之间存在的冗余内容,所述数据整理模块采用EKA算法和AKF算法查找亢余内容,具体的,在redundancy函数中,分别将k1和k2中的知识元素取出e1和e2,然后将e1和e2中的X,Y以及关系R取出进行比较并分别对比xe1,xe2,ye1,ye2,将具有相同内容的元素项挖掘出来,通过对话框的模式进行显示;所述冗余内容采用redundancy函数进行查找。数据处理模块,采用基于Hadoop的粗糙集快速属性约简算法对目标数据进行预处理;数据标准化模块,基于PCA-BP神经网络模型对完成预处理的目标数据进行标准化处理;所述标准化后的数据至少包括数据的属性参数和特征参数;数据识别分类模块,基于BP神经网络模型根据特征数据对完成标准化处理的数据进行识别分类;数据统计分析模块,基于数据识别分类模块的识别分类结果进行对应数据统计模型、数据分析模型的调用,并输出对应的统计结果、分析结果;图形绘制模块,用于根据完成标准化处理后的数据生成各种曲线图;数据可视化分析模块,基于完成标准化处理后的数据通过TableauDesktop实现数据的可视化分析;数据定位模块,基于完成识别分类后的数据在数据库中找到合适的位置,并为其找到相似数据点,建立其与相似数据点之间的关系。所述数据定位模块基于刻面技术来实现数据定位,通过计算不同数据术语间的刻面距离来准确定位数据;在定位数据时,在已知刻面的约束下选择相应的术语,以此来完成对所需数据的描述,如果选择成功,则返回相应的数据;如果选择不成功,则系统将根据同义词词典和概念距离图计算术语的相似性,形成新的定位信息;中央处理器,用于协调上述模块工作。本实施例中,在调用对应数据统计模型和数据分析模型前需先经多特征加权融合模块完成多特征的融合操作。所述多特征加权融合模块采用自适应的融合算法,公式如下:(1)其中,表示主因素项的得分,表示次因素项的得分,其中,,采用自适应的取值方案,公式如(2)和(3)所示:(2)(3)。本实施例中,所述数据识别分类模块基于不同的分析目标调用不同的于BP神经网络模型实现数据的识别分类,每个数据的识别结果均携带主/次因素标记。以上所述仅是本专利技术的优选实施方式,应当指出,对于本
的普通技术人员来说,在不脱离本专利技术原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本专利技术的保护范围。本文档来自技高网
...

【技术保护点】
1.一种大数据统计分析系统,其特征在于,包括:目标数据采集模块,用于进行目标数据的采集;数据处理模块,采用基于Hadoop的粗糙集快速属性约简算法对目标数据进行预处理;数据标准化模块,基于BP神经网络模对完成预处理的目标数据进行标准化处理;数据识别分类模块,基于BP神经网络模型根据特征数据对完成标准化处理的数据进行识别分类;数据统计分析模块,基于数据识别分类模块的识别分类结果进行对应数据统计模型、数据分析模型的调用,并输出对应的统计结果、分析结果;图形绘制模块,用于根据完成标准化处理后的数据生成各种曲线图。

【技术特征摘要】
1.一种大数据统计分析系统,其特征在于,包括:目标数据采集模块,用于进行目标数据的采集;数据处理模块,采用基于Hadoop的粗糙集快速属性约简算法对目标数据进行预处理;数据标准化模块,基于BP神经网络模对完成预处理的目标数据进行标准化处理;数据识别分类模块,基于BP神经网络模型根据特征数据对完成标准化处理的数据进行识别分类;数据统计分析模块,基于数据识别分类模块的识别分类结果进行对应数据统计模型、数据分析模型的调用,并输出对应的统计结果、分析结果;图形绘制模块,用于根据完成标准化处理后的数据生成各种曲线图。2.如权利要求1所述的一种大数据统计分析系统,其特征在于,所述数据标准化模块采用PCA-BP神经网络模型。3.如权利要求1所述的一种大数据统计分析系统,其特征在于,还包括一数据可视化分析模块,基于完成标准化处理后的数据通过TableauDesktop实现数据的可视化分析。4.如权利要求1所述的一种大数据统计分析系统,其特征在于,还包括一数据定位模块,基于完成识别分类...

【专利技术属性】
技术研发人员:滕飞杜金涛陆媛媛王晓红滕佳含王红宇
申请(专利权)人:吉林师范大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1