一种大数据统计方法、系统、计算机设备及存储介质技术方案

技术编号：21115757 阅读：34 留言：0更新日期：2019-05-16 08:59

本申请实施例公开了一种大数据统计方法、系统、计算机设备及存储介质。本申请实施例方法包括：通过读取Mysql数据库的binlog日志，将日志记录按顺序放入消息队列；通过ETL服务对消息队列进行消费，对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中；通过Spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果；将数据通过增量方式导入仓库，数据仓库进行数据清洗，清洗后存起来，通过离线计算，将统计数据提前算好，等到业务系统使用的时候直接取统计后的数据，提高统计速度，减轻数据库统计的压力。

A Large Data Statistics Method, System, Computer Equipment and Storage Media

The embodiment of the application discloses a large data statistics method, a system, a computer device and a storage medium. The embodiments of this application include: putting log records into message queues in order by reading binlog logs of Mysql database; consuming message queues through ETL service; extracting, cleaning, transforming and loading log records in message queues to obtain corresponding business data and loading them into corresponding data warehouses; and loading them into corresponding data warehouses through Spark distributed query engine. Real-time analysis, aggregation, query and off-line calculation of the business data are carried out to obtain the corresponding statistical results; the data are imported into the warehouse by incremental way, the data warehouse is cleaned and stored after cleaning, and the statistical data are calculated in advance by off-line calculation, and the statistical data are directly taken when the business system is used to improve the statistical speed and reduce the database system. The pressure of the meter.

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据统计方法、系统、计算机设备及存储介质
本申请涉及大数据
，尤其涉及一种大数据统计方法、系统、计算机设备及存储介质。
技术介绍
目前，随着互联网的爆发式增长，数据量急剧增长，数据库的损耗越来越大，一些统计等操作容易导致数据库的锁表、卡死等现象，数据库主从部署会大量的占用服务器IO，特别是对数据库文件比较大的主从复制，系统很容易卡死。刚开始数据业务不多，压力不大，一台数据库服务器就可以满足需求。随着业务的快速发展，数据越来越多，这个时候需要把DB、WebServer等服务分开部署了。但是随着用户量的不断增长，一些报表统计越来越多，会发现数据库不行了，速度很慢，有时候还会宕掉。这个时候就得利用读写分离，有一个MasterServer(主服务器)专门负责收集数据，另外的几个SalveServer(从服务器)专门进行读取，这时候压力会减轻点。但是随着用户数量的继续增多，容易导致服务器IO占用过大，导致数据库卡死，数据报表统计慢，无法展示正确数据。
技术实现思路
本申请实施例提供了一种大数据统计方法、系统、计算机设备及存储介质，用于解决现有技术中数据量多统计等操作会导致数据库的资源占用变大，导致数据统计不出来的问题。本申请实施例提供的大数据统计方法，包括：读取Mysql数据库的binlog日志，将日志记录按顺序放入消息队列；通过ETL服务对消息队列进行消费，对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中；通过Spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果。可选地，...

【技术保护点】
1.一种大数据统计方法，其特征在于，包括：读取Mysql数据库的binlog日志，将日志记录按顺序放入消息队列；通过ETL服务对消息队列进行消费，对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中；通过Spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果。

【技术特征摘要】
1.一种大数据统计方法，其特征在于，包括：读取Mysql数据库的binlog日志，将日志记录按顺序放入消息队列；通过ETL服务对消息队列进行消费，对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中；通过Spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果。2.根据权利要求1所述的方法，其特征在于，所述读取Mysql数据库的binlog日志，将日志记录按顺序放入消息队列，包括：Mysql数据库开启binlog；开启同步服务，定时拉取binlog日志，解析binlog日志；同步服务将binlog日志发送给消息队列。3.根据权利要求1所述的方法，其特征在于，所述通过ETL服务对消息队列进行消费，对所述消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据并加载到对应的数据仓库中，包括：开启ETL服务；通过ETL服务对消息队列进行消费；根据业务需求对消息队列中的日志记录进行抽取、清洗、转换及装载处理得到对应的业务数据；按照预先定义好的数据仓库模型，将不同业务数据加载到对应的数据仓库中。4.根据权利要求3所述的方法，其特征在于，所述数据仓库为有且仅有一个多字段复合索引的存储引擎。5.根据权利要求1所述的方法，其特征在于，所述通过Spark分布式查询引擎对所述业务数据做实时分析、聚合、查询及离线计算得到对应的统计结果，包括：通过用Spark分布式查询引擎做实时分析、聚合、查询及离线计算，得到对应的统计结果；所述Spark是专为大规模数据处理...

【专利技术属性】
技术研发人员：周志文，朱宇翔，李朝武，王剑，
申请(专利权)人：深圳市麦谷科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人