一种数据提取方法技术

技术编号：18497321 阅读：13 留言：0更新日期：2018-07-21 20:17

本发明专利技术公开了一种数据提取方法，包括：步骤1，客户端采集数据，将数据保存在日志服务器、业务数据库、缓存服务器中；步骤2，对采集到的数据预处理，将数据按照数据量以及数据及时性的要求，定时从日志服务器、业务数据库中同步到分布式文件存储器中；步骤3，计算机集群按照需求分配CPU核心数以及内存数，从分布式文件存储器中提取数据并进行数据计算处理，将结果数据写回分布式文件存储器中；步骤4，将计算处理后的结果数据进行数据结果化处理，并同步到业务数据库中；步骤5，业务服务器根据需求选择从缓存服务器或业务数据库中提取数据。本发明专利技术的有益效果：高效提取数据中的价值，便于BI系统提取数据，提高BI系统的效率。

A method of data extraction

The invention discloses a method of data extraction, including step 1. The client collects data and stores the data in the log server, the business database and the cache server. Step 2, the data is preprocessed, and the data is timed from the log server and the service number according to the requirement of the data quantity and the timeliness of the data. The database is synchronized to the distributed file memory; step 3, the computer cluster assigns the CPU core and the number of memory according to the requirement, extracts the data from the distributed file memory and carries out the data calculation and processing, and writes the result data back to the distributed file memory; step 4, the data is calculated after the processing of the data. Results are processed and synchronized to the business database; step 5, the business server selects data from the cache server or the business database according to the requirements. The beneficial effect of the invention is that the value of the data can be extracted efficiently, and the data of the BI system can be easily extracted to improve the efficiency of the BI system.

全部详细技术资料下载

【技术实现步骤摘要】
一种数据提取方法
本专利技术涉及计算机
，具体而言，涉及一种数据提取方法。
技术介绍
随着互联网的快速发展，以及云计算技术的推广，海量数据不断产生，海量数据的处理越来越重要。对于传统的基于关系型数据库(RDS)架构的数据分析系统，当表单数据超过千万，对于RDS的压力就会呈指数增加，最主要的表现体现在IOPS的增加和CPU使用率的提升，严重的情况会影响正常业务的进行。BI系统在提取数据时，当从单一数据库中提取时，由于用户数量不大，每天的业务数据不大，可以直接在生产库中查询；而当业务数据量增加时，数据表之间的连表查询需求越来越大，如果直接生产库中查询，对生产库的压力非常大，很容易就会影响生产库正常的读写任务。
技术实现思路
为解决上述问题，本专利技术的目的在于提供一种数据提取方法，高效提取数据中的价值，便于BI系统提取数据，提高BI系统的效率。本专利技术提供了一种数据提取方法，该方法包括：步骤1，客户端采集数据，将数据根据需要保存在日志服务器、业务数据库、缓存服务器中；步骤2，对采集到的数据预处理，将数据按照数据量以及数据及时性的要求，定时从日志服务器、业务数据库中同步到分布式文件存储器中；步骤3，计算机集群按照需求分配CPU核心数以及内存数，从分布式文件存储器中提取数据并进行数据计算处理，将计算处理后的结果数据写回分布式文件存储器中；步骤4，将计算处理后的结果数据进行数据结果化处理，并同步到业务数据库中；步骤5，业务服务器根据需求选择从缓存服务器或业务数据库中提取数据。作为本专利技术进一步的改进，步骤2中，将数据从日志服务器、业务数据库同步到分布式文件存储...

【技术保护点】
1.一种数据提取方法，其特征在于，该方法包括：步骤1，客户端采集数据，将数据根据需要保存在日志服务器、业务数据库、缓存服务器中；步骤2，对采集到的数据预处理，将数据按照数据量以及数据及时性的要求，定时从日志服务器、业务数据库中同步到分布式文件存储器中；步骤3，计算机集群按照需求分配CPU核心数以及内存数，从分布式文件存储器中提取数据并进行数据计算处理，将计算处理后的结果数据写回分布式文件存储器中；步骤4，将计算处理后的结果数据进行数据结果化处理，并同步到业务数据库中；步骤5，业务服务器根据需求选择从缓存服务器或业务数据库中提取数据。

【技术特征摘要】
1.一种数据提取方法，其特征在于，该方法包括：步骤1，客户端采集数据，将数据根据需要保存在日志服务器、业务数据库、缓存服务器中；步骤2，对采集到的数据预处理，将数据按照数据量以及数据及时性的要求，定时从日志服务器、业务数据库中同步到分布式文件存储器中；步骤3，计算机集群按照需求分配CPU核心数以及内存数，从分布式文件存储器中提取数据并进行数据计算处理，将计算处理后的结果数据写回分布式文件存储器中；步骤4，将计算处理后的结果数据进行数据结果化处理，并同步到业务数据库中；步骤5，业务服务器根据需求选择从缓存服务器或业务数据库中提取数据。2.根据权利要求1所述的数据提取方法，其特征在于，步骤2中，将数据从日志服务器、业务数据库同步到分布式文件存储器中时，需要根据业务场景需要按分钟、按小时、按天、按月同步；当数据是从日志服务器中同步到分布式文件存储器中时：将日志文件细分到分钟，根据细分后的日志文件预计的大小，按照分布式文件存储器的文件格式分别投递到分布式文件存储器中，同时在分布式文件存储器中设置好字段类型，并将不符合的数据清洗掉；当数据是从业务数据库中同步到分布式文件存储器中时：将业务数据库中该数据对应的表加上创建时间索引及ID索引，并按照分钟、小时、天火月将该数据同步分布式文件存储器中。3.根据权利要求2...

【专利技术属性】
技术研发人员：冯叶男，
申请(专利权)人：杭州哲信信息技术有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人