一种大数据分析方法及装置制造方法及图纸

技术编号:15437462 阅读:225 留言:0更新日期:2017-05-26 03:31
本发明专利技术实施例公开了一种大数据分析方法及装置。该方法包括:接入数据并根据数据量和是否需要缓存数据将数据存入关系型数据库或者大数据集群中;对关系型数据库和大数据集群中的数据进行解析、挖掘和封装;将封装后的数据以预设展示形式展示在可视化平台中。本发明专利技术实施例可以解决现有技术中数据库单一、存储容量小且数据分析效率低的问题,有效提高数据分析效率。

Large data analysis method and device

The embodiment of the invention discloses a large data analysis method and device. The method includes: access data and according to the amount of data and whether to cache data data will be stored in a relational database or data mining, cluster analysis; and encapsulation of relational database and data cluster data; will the packaged data to the default display form displayed in the visualization platform in. The embodiment of the invention can solve the problems of single database, small storage capacity and low data analysis efficiency in the prior art, thereby effectively improving the efficiency of data analysis.

【技术实现步骤摘要】
一种大数据分析方法及装置
本专利技术实施例涉及数据分析技术,尤其涉及一种大数据分析方法及装置。
技术介绍
近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。一些行业/企业的数据量达到数百TB甚至数十至数百PB,巨大的数据资产迫切需要数据价值化展示及对实时数据进行监测。下面介绍两种传统的数据处理方法:第一种是抽样调查,这是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象做出估计和推断的一种调查方法。第二种是利用传统关系型数据库进行数据处理,具体是通过对数据进行筛选、排序、分组、运算等操作形成统计报表。现有技术的缺陷是:第一种调查方法是非全面调查,不仅耗时长、耗费较多的人力资源,而且调查效率较低;第二种虽然用到了数据处理技术,但目前的关系型数据库都比较单一,只能存储有限的数据,且数据量较多时会影响访问速度,因此进行数据分析的效率相对较低。
技术实现思路
本专利技术实施例提供一种大数据分析方法及装置,以实现提高数据分析效率的目的。第一方面,本专利技术实施例提供了一种大数据分析方法,包括:接入数据并根据数据量和是否需要缓存数据将数据存入关系型数据库或者大数据集群中;对关系型数据库和大数据集群中的数据进行解析、挖掘和封装;将封装后的数据以预设展示形式展示在可视化平台中。第二方面,本专利技术实施例还提供了一种大数据分析装置,该装置包括:存储模块,用于接入数据并根据数据量和是否需要缓存数据将数据存入关系型数据库或者大数据集群中;处理模块,用于对关系型数据库和大数据集群中的数据进行解析、挖掘和封装;展示模块,用于将封装后的数据以预设展示形式展示在可视化平台中。本专利技术实施例通过接入数据并根据数据量和是否需要缓存数据将数据存入关系型数据库或者大数据集群中,对关系型数据库和大数据集群中的数据进行解析、挖掘和封装,将封装后的数据以预设展示形式展示在可视化平台中。解决了现有技术中数据库单一、存储容量小且数据分析效率低的问题,有效提高了数据分析效率。附图说明图1为本专利技术实施例一提供的一种大数据分析方法的流程示意图;图2为本专利技术实施例二提供的一种大数据分析方法的流程示意图;图3为本专利技术实施例三提供的一种大数据分析装置的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种大数据分析方法的流程示意图,本实施例可适用于通过一个可视化平台对多源数据进行分析、处理并展示的情况,该方法可以由大数据分析装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于对多源数据进行分析、处理并展示的移动终端或者PC端中。参考图1,本实施例提供的大数据分析方法具体包括:S110、接入数据并根据数据量和是否需要缓存数据将数据存入关系型数据库或者大数据集群中。其中,可利用数据采集工具实时采集移动终端或者PC端的用户数据,数据采集工具可以是网络爬虫或者移动终端/PC端中安装的数据采集软件。还可以通过数据导入工具将不同的数据源导入大数据分析装置中。优选接入的数据为日志数据。其中,关系型数据库主要用来存储数据量不大且经过缓存后的数据,可以包括Oracle数据库和MySQL数据库,大数据集群主要用来存储数据量大的数据。由于接入的数据是多源的,后续对数据处理要求可能比较高,因此根据接入数据量的大小以及数据是否需要缓存来决定存储到不同的数据库,如此可以提高系统处理数据的效率。S120、对关系型数据库和大数据集群中的数据进行解析、挖掘和封装。其中,对数据进行解析主要是为了在海量数据中提取出有用的数据并对数据进行初步的计算,计算后的数据经过一系列特定处理汇总成前端需要的目标数据,再将目标数据封装为前端可以展示的格式。S130、将封装后的数据以预设展示形式展示在可视化平台中。其中,所述预设展示形式可以包括文字、图形以及表格中的任意一种或者任意组合。图形可以是饼状图、曲线图、折线图或地图等。本实施例的技术方案,通过接入数据并根据数据量和是否需要缓存数据将数据存入关系型数据库或者大数据集群中,对关系型数据库和大数据集群中的数据进行解析、挖掘和封装,将封装后的数据以预设展示形式展示在可视化平台中。解决了现有技术中数据库单一、存储容量小且数据分析效率低的问题,有效提高了数据分析效率。实施例二图2为本专利技术实施例二提供的一种大数据分析方法的流程示意图,本实施例在上述实施例的基础上,优选是对接入数据并根据数据量和是否需要缓存数据将数据存入关系型数据库或者大数据集群中以及对关系型数据库和大数据集群中的数据进行解析、挖掘和封装进一步优化,具体包括如下:S210、接入数据,并将数据量未超过预设阈值的数据存入关系型数据库中,将数据量超过预设阈值的数据存入大数据集群中。优选的,接入的数据可以通过Flume或Kafka等数据传输工具传输到关系型数据库或者大数据集群中。其中,Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。其中,Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。具体地,可以根据关系型数据库和大数据集群对数据存储的能力来确定预设阈值,在接入数据时根据数据量是否超过预设阈值来决定将数据存入关系型数据库还是大数据集群中。S220、根据预设定时任务对大数据集群中需要进行缓存的数据进行预处理,并将预处理后的数据缓存到关系型数据库中。其中,大数据集群主要用于存储数据量大的数据,根据数据的处理方式不同,又分为以Hadoop、HBase、Solr以及Hive等为主要组件构建的通过策略提取有用信息的系统,该系统可以对大数据进行预处理,主要是把大量数据进行筛选、分类以及聚合成相对小量的数据,筛选出有效数据。其中,在处理大数据时通常可采用添加索引、分区等优化查询速度的方法,但有时即使优化也会造成延时过长,这种场景下可使用定时任务,将历史统计数据通过提前执行算法存储到缓存表中,提高查询性能。预设的定时任务可以是每日或者每小时需要实时更新的数据任务,示例性的,可以是每小时动态分析接入机场网络的用户数据分析任务。具体地,数据存储到大数据集群后,可进一步判断该数据是否需要缓存,如果需要缓存,则可根据预设的定时任务调用Hadoop、HBase、Solr以及Hive中的至少一种对数据进行预处理,筛选出有效数据,再将数据缓存到关系型数据库中。其中,Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上,而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求本文档来自技高网...
一种大数据分析方法及装置

【技术保护点】
一种大数据分析方法,其特征在于,包括:接入数据并根据数据量和是否需要缓存数据将数据存入关系型数据库或者大数据集群中;对关系型数据库和大数据集群中的数据进行解析、挖掘和封装;将封装后的数据以预设展示形式展示在可视化平台中。

【技术特征摘要】
1.一种大数据分析方法,其特征在于,包括:接入数据并根据数据量和是否需要缓存数据将数据存入关系型数据库或者大数据集群中;对关系型数据库和大数据集群中的数据进行解析、挖掘和封装;将封装后的数据以预设展示形式展示在可视化平台中。2.根据权利要求1所述的大数据分析方法,其特征在于,所述接入数据并根据数据量和是否需要缓存数据将数据存入关系型数据库或者大数据集群中包括:接入数据,并将数据量未超过预设阈值的数据存入关系型数据库中,将数据量超过预设阈值的数据存入大数据集群中;根据预设定时任务对大数据集群中需要进行缓存的数据进行预处理,并将预处理后的数据缓存到关系型数据库中。3.根据权利要求2所述的大数据分析方法,其特征在于,所述预处理包括:对数据进行分类、聚合、转换、计算以及汇总中的任意一种或者任意组合。4.根据权利要求1所述的大数据分析方法,其特征在于,所述对关系型数据库和大数据集群中的数据进行解析、挖掘和封装包括:对关系型数据库和/或大数据集群中的数据进行提取和计算;对计算后的数据进行分类和/或汇总和/或聚合,得到目标数据;对目标数据进行封装。5.根据权利要求1所述的大数据分析方法,其特征在于,所述预设展示形式包括文字、图形以及表格中的任意一种或者任意组合。6.一种...

【专利技术属性】
技术研发人员:刘文博
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1