数据分析系统、方法、存储介质及电子设备技术方案

技术编号：20992574 阅读：21 留言：0更新日期：2019-04-29 22:33

本发明专利技术提供一种数据分析系统、方法、存储介质及电子设备，所述数据分析系统包括：数据采集模块：用以采集实时数据及离线数据，将已采集的离线数据以Hive的形式存储至HDFS；实时计算模块：响应于用户的查询指令，通过分布式处理引擎Flink消费实时数据形成实时数据宽表，所述实时数据宽表数据经过消息中间件kafka转存在Druid中；离线计算模块：用Hive清洗计算离线数据以形成离线数据宽表并将所述离线数据宽表同步到分布式分析引擎Kylin中以形成多维的离线数据预汇总表；以及查询引擎模块。本发明专利技术能够实时或者离线的方式接入数据，并抽象计算出核心模型。数据分析人员可以通过托拉拽的方式筛选自己要分析的内容，然后可以选择以丰富的可视化图表的方式展现。

Data Analysis System, Method, Storage Media and Electronic Equipment

The present invention provides a data analysis system, method, storage medium and electronic equipment. The data analysis system includes: data acquisition module: data acquisition module for acquiring real-time data and off-line data, storing the collected off-line data in Hive form to HDFS; real-time calculation module: real-time data consumption through distributed processing engine Flink in response to user's query instructions. The real-time data broadsheet is transferred to Druid through message middleware kafka; the off-line computing module: calculating the off-line data with Hive cleaning to form the off-line data broadsheet and synchronizing the off-line data broadsheet to the distributed analysis engine Kylin to form a multi-dimensional off-line data summary table; and the query engine module. The invention can access data in a real-time or offline manner, and abstractly calculate the core model. Data analysts can select the content they want to analyze by pulling and pulling, and then they can choose to display it in a rich visual chart.

全部详细技术资料下载

【技术实现步骤摘要】
数据分析系统、方法、存储介质及电子设备
本专利技术涉及计算机
，尤其涉及一种数据分析系统、方法、存储介质及电子设备。
技术介绍
随着互联网及数据技术的发展，各互联网平台所储存、计算的数据量非常庞大，尤其对车货匹配平台，其面对的通常是全国的司机和货主。一方面，每天用户的行为数据量非常大，有些需要实时计算，有些需要离线计算，复杂度非常高。另一方面，数据分析人员的需求灵活多变，每次数据分析都非常耗时。现在有一些成熟的商业化分析软件，这些软件普遍存在的问题是：在接入大数据量的时候，计算非常慢，甚至卡死；有一些对实时计算不支持；有一些权限管理很难控制不同存储组件上的数据；还有一些缺乏数据安全审计功能。
技术实现思路
针对现有技术中的问题，本专利技术的目的在于提供一种数据分析系统、方法、存储介质及电子设备，以快速分析实时和离线数据。根据本专利技术的一方面，提供一种数据分析系统，所述数据分析系统包括：数据采集模块：用以采集实时数据及离线数据，将已采集的离线数据以Hive的形式存储至HDFS；实时计算模块：响应于用户的查询指令，通过分布式处理引擎Flink消费实时数据形成实时数据宽表，所述实时数据宽表数据经过消息中间件kafka转存在Druid中；离线计算模块：用Hive清洗计算离线数据以形成离线数据宽表并将所述离线数据宽表同步到分布式分析引擎Kylin中以形成多维的离线数据预汇总表；查询引擎模块：将用户的查询指令转化成SQL语句；若所述查询指令的类型为实时查询，则将所述SQL语句转换为Druid语法查询实时数据宽表；若所述查询类型为离线查询，则将所述SQL语句哈希后作...

【技术保护点】
1.一种数据分析系统，其特征在于，包括：数据采集模块：用以采集实时数据及离线数据，将已采集的离线数据以Hive的形式存储至HDFS；实时计算模块：响应于用户的查询指令，通过分布式处理引擎Flink消费实时数据形成实时数据宽表，所述实时数据宽表数据经过消息中间件kafka转存在Druid中；离线计算模块：用Hive清洗计算离线数据以形成离线数据宽表并将所述离线数据宽表同步到分布式分析引擎Kylin中以形成多维的离线数据预汇总表；以及查询引擎模块：将用户的查询指令转化成SQL语句；若所述查询指令的类型为实时查询，则将所述SQL语句转换为Druid语法查询实时数据宽表；若所述查询类型为离线查询，则将所述SQL语句哈希后作为关键字，通过所述关键字查询redis中与该关键字对应的值，以将与该关键字对应的值作为所查询的离线数据。

【技术特征摘要】
1.一种数据分析系统，其特征在于，包括：数据采集模块：用以采集实时数据及离线数据，将已采集的离线数据以Hive的形式存储至HDFS；实时计算模块：响应于用户的查询指令，通过分布式处理引擎Flink消费实时数据形成实时数据宽表，所述实时数据宽表数据经过消息中间件kafka转存在Druid中；离线计算模块：用Hive清洗计算离线数据以形成离线数据宽表并将所述离线数据宽表同步到分布式分析引擎Kylin中以形成多维的离线数据预汇总表；以及查询引擎模块：将用户的查询指令转化成SQL语句；若所述查询指令的类型为实时查询，则将所述SQL语句转换为Druid语法查询实时数据宽表；若所述查询类型为离线查询，则将所述SQL语句哈希后作为关键字，通过所述关键字查询redis中与该关键字对应的值，以将与该关键字对应的值作为所查询的离线数据。2.根据权利要求1所述的数据分析系统，其特征在于，所述查询引擎模块还用以当redis中查不到相应的离线数据时，将所述SQL语句转为Kylin语法以从所述Kylin中获取相应的离线数据,将所述SQL语句哈希后作为关键字并将所获取的离线数据作为值存储在redis。3.根据权利要求2所述的数据分析系统，其特征在于，所获取的离线数据作为值在redis储存的时间不超过预定时间段，所述预定时间段根据数据刷新周期和redis的储存容量确定。4.根据权利要求1所述的数据分析系统，其特征在于，还包括用户权限管理模块，所述用户权限管理模块用以通过用户和组以及组和数据的映射关系，对用户的数据使用权限进行鉴权。5.根据权利要求1所述的数据分析系统，其特征...

【专利技术属性】
技术研发人员：王东，李大学，严旭东，张超，
申请(专利权)人：江苏满运软件科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人