一种基于大数据的数据分析方法技术

技术编号:38540106 阅读:14 留言:0更新日期:2023-08-19 17:08
本发明专利技术公开了一种基于大数据的数据分析方法,包括采集单元,所述采集单元采集电子信息网络中的系统数据;整合单元,所述整合单元和采集单元通信连接,通过整合单元对采集的数据整合成统一数据仓库;预处理单元,所述预处理单元和整合单元通信连接,通过预处理单元,对整合后的数据进行预处理;挖掘单元,所述挖掘单元和预处理单元通信连接,通过挖掘单元对预处理后的数据进行挖掘操作;所述分析方法如下:步骤一:通过采集单元采集电子信息网络中的系统数据;本发明专利技术的有益效果是:通过预处理单元,对整合后的数据进行预处理,减少干扰;挖掘操作采用的方法为K

【技术实现步骤摘要】
一种基于大数据的数据分析方法


[0001]本专利技术属于数据分析
,具体涉及一种基于大数据的数据分析方法。

技术介绍

[0002]大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和必理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
[0003]大数据所涉及数据并非只有广度,即经过分析的数据才具有实用价值,因此大数据所指为经过分析的数据,由此大数据的分析成为了处理大数据的关键部分;大数据具有大数据量、多数据类型、快速处理速度、低密度的四重特点;高维低密度的数据具有法则性,因此大数据的分析应优化数据维度并细化低密度数据,使数据有意义的存在,大数据的分析应具有直接、准确、快速、大规模的特点;大数据的分析是为背后的各行各业的需求与发展进行服务,因此大数据的目标为实现基于数据的决策与资源配置;大数据的处理角度应以客户的需求为出发点,即提供符合客户需求的个性化服务,并在企业的整个营销过程中起到预测发展趋势、配置资源比例的中间索引作用,将庞大的宏数据资源与产品定位进行链接。
[0004]申请号为CN201510036086.8的一种基于大数据的数据分析方法,该专利公开了接收用户定义的数据挖掘过程和组件信息,实现图形化的数据流程处理;生成符合Hadoop规范的代码,然后将用户定义的数据挖掘过程模型转换成可在Hadoop上运行的代码;将数据挖掘组件连接起来构成数据挖掘过程;以Hadoop提供的框架作为数据挖掘过程执行平台,向执行框架提交代码,运用云平台的并行计算能力实现挖掘过程的并行化。
[0005]现有的基于大数据的数据分析方法,处理中存在着很多的干扰项,不利于提高数据精度,前期处理繁琐,还需生成规范代码,增加了数据挖掘的繁琐。

技术实现思路

[0006]本专利技术的目的在于提供一种基于大数据的数据分析方法,减少干扰,提高数据挖掘的效率。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种基于大数据的数据分析方法,包括
[0008]采集单元,所述采集单元采集电子信息网络中的系统数据;
[0009]整合单元,所述整合单元和采集单元通信连接,通过整合单元对采集的数据整合成统一数据仓库;
[0010]预处理单元,所述预处理单元和整合单元通信连接,通过预处理单元,对整合后的数据进行预处理;
[0011]挖掘单元,所述挖掘单元和预处理单元通信连接,通过挖掘单元对预处理后的数据进行挖掘操作;
[0012]所述分析方法如下:
[0013]步骤一:通过采集单元采集电子信息网络中的系统数据;
[0014]步骤二:通过整合单元对采集的数据整合成统一数据仓库;
[0015]步骤三:通过预处理单元,对整合后的数据进行预处理;
[0016]步骤四:通过挖掘单元对预处理后的数据进行挖掘操作。
[0017]作为本专利技术的一种优选的技术方案,整合数据方法如下:获取每个数据源在当前数据采集周期内产生的增量数据表;根据规则引擎中配置的数据表信息,确定每个数据源产生的每张增量数据表的数据表类型;数据表类型包括数据表中单个字段可对应多个值的多值数据表类型和数据表中单个字段只对应单个值的单值数据表类型;针对属于多值数据表类型的每个多值增量数据表,将该多值增量数据表中的增量数据叠加到目标系统的数据库中;针对属于单值数据表类型的每个单值增量数据表,根据规则引擎中配置的规则信息和每个单值增量数据表中的增量数据,对目标系统的数据库中的数据进行覆盖。
[0018]作为本专利技术的一种优选的技术方案,所述预处理包括计算、清洗、删减、去除唯一属性、处理缺失值。
[0019]作为本专利技术的一种优选的技术方案,所述处理缺失值的方法:直接使用含有缺失值的特征;删除含有缺失值的特征;缺失值补全。
[0020]作为本专利技术的一种优选的技术方案,所述缺失值补全包括均值插补、同类均值插补、建模预测、高维映射、多重插补。
[0021]作为本专利技术的一种优选的技术方案,所述挖掘操作采用的方法为K

Means算法、AdaBoost算法、Apriori算法、CART决策树。
[0022]作为本专利技术的一种优选的技术方案,所述AdaBoost算法具体如下:
[0023]先通过对N个训练样本的学习得到第一个弱分类器;
[0024]将分错的样本和其他的新数据—起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器;
[0025]将和都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器;
[0026]反复,最终得到经过提升的强分类器。
[0027]作为本专利技术的一种优选的技术方案,所述Apriori算法分为两个阶段:寻找频繁项集;由频繁项集找关联规则。
[0028]与现有技术相比,本专利技术的有益效果是:
[0029]通过预处理单元,对整合后的数据进行预处理,减少干扰;
[0030]挖掘操作采用的方法为K

Means算法、AdaBoost算法、Apriori算法、CART决策树,提高数据挖掘的效率。
附图说明
[0031]图1为本专利技术的分析方法流程图。
具体实施方式
[0032]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]实施例1
[0034]请参阅图1,为本专利技术的第一个实施例,该实施例提供一种基于大数据的数据分析方法,包括
[0035]采集单元,采集单元采集电子信息网络中的系统数据;
[0036]整合单元,整合单元和采集单元通信连接,通过整合单元对采集的数据整合成统一数据仓库;
[0037]预处理单元,预处理单元和整合单元通信连接,通过预处理单元,对整合后的数据进行预处理;
[0038]挖掘单元,挖掘单元和预处理单元通信连接,通过挖掘单元对预处理后的数据进行挖掘操作;
[0039]分析方法如下:
[0040]步骤一:通过采集单元采集电子信息网络中的系统数据;
[0041]步骤二:通过整合单元对采集的数据整合成统一数据仓库;
[0042]步骤三:通过预处理单元,对整合后的数据进行预处理;
[0043]步骤四:通过挖掘单元对预处理后的数据进行挖掘操作。
[0044]本实施例中,优选的,整合数据方法如下:获取每个数据源在当前数据采集周期内产生的增量数据表;根据规则引擎中配置的数据表信息,确定每个数据源产生的每张增量数据表的数据表类型;数据表类型包括数据表中单个字段可对应多个值的多值数据表类型和数据表中单个字段本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的数据分析方法,其特征在于:包括采集单元,所述采集单元采集电子信息网络中的系统数据;整合单元,所述整合单元和采集单元通信连接,通过整合单元对采集的数据整合成统一数据仓库;预处理单元,所述预处理单元和整合单元通信连接,通过预处理单元,对整合后的数据进行预处理;挖掘单元,所述挖掘单元和预处理单元通信连接,通过挖掘单元对预处理后的数据进行挖掘操作;所述分析方法如下:步骤一:通过采集单元采集电子信息网络中的系统数据;步骤二:通过整合单元对采集的数据整合成统一数据仓库;步骤三:通过预处理单元,对整合后的数据进行预处理;步骤四:通过挖掘单元对预处理后的数据进行挖掘操作。2.根据权利要求1所述的一种基于大数据的数据分析方法,其特征在于:整合数据方法如下:获取每个数据源在当前数据采集周期内产生的增量数据表;根据规则引擎中配置的数据表信息,确定每个数据源产生的每张增量数据表的数据表类型;数据表类型包括数据表中单个字段可对应多个值的多值数据表类型和数据表中单个字段只对应单个值的单值数据表类型;针对属于多值数据表类型的每个多值增量数据表,将该多值增量数据表中的增量数据叠加到目标系统的数据库中;针对属于单值数据表类型的每个单值增量数据表,根据规则引擎中配置的规则信息和每个单值增量数据表中的增量数据,对目标系统的数据库中的数据进行覆...

【专利技术属性】
技术研发人员:顾广宇顾博馨易庆史伟豪
申请(专利权)人:国网安徽省电力有限公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1