一种hadoop采集系统的运行方法技术方案

技术编号：27413215 阅读：31 留言：0更新日期：2021-02-21 14:28

本发明专利技术公开了一种hadoop采集系统的运行方法，包括如下步骤：S1)在数据存储层采用hadoop和关系型数据库的混搭架构，存储数据应用层和数据服务层产生的数据；S2)在数据获取层通过基于hadoop的ETL加工过程，对数据应用层和数据服务层产生的数据进行处理，并在数据存储层形成企业数据仓库和数据集市。本发明专利技术提供的hadoop采集系统的运行方法，通过利用HADOOP的计算和存储优势，对海量数据、非结构化数据进行采集预处理整合，提升海量数据采集效率，有效缩短部分流程的超长等待时间；并可提升数据分析及展示，提高数据展示效率。提高数据展示效率。提高数据展示效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种hadoop采集系统的运行方法

[0001]本专利技术涉及一种采集系统的运行方法，尤其涉及一种hadoop采集系统的运行方法。

技术介绍

[0002]Hadoop提供了一个高度容错的中央化分布式存储系统，其有利于集中式的数据分析和数据共享。Hadoop对存储格式没有要求。可以存储用户访问日志、产品信息以及网页数据等数据。
[0003]Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。在大数据生态圈中，HDFS是最重要的底层分布式文件系统，它的稳定性关乎整个生态系统的健康。
[0004]在日常应用中要将各种数据采集到HDFS存储服务中去，常见的两种数据来源。一种是分散的数据源：机器产生的数据、用户访问日志以及用户购买日志。另一种是传统系统中的数据：传统关系型数据库、磁盘阵列以及磁盘。传统关系型数据库虽然可以搭建内集群但是当数据量达到一定限容度之后查询处理速度会变得很慢且对...

【技术保护点】

【技术特征摘要】
1.一种hadoop采集系统的运行方法，其特征在于，包括如下步骤：S1)在数据存储层采用hadoop和关系型数据库的混搭架构，存储数据应用层和数据服务层产生的数据；S2)在数据获取层通过基于hadoop的ETL加工过程，对数据应用层和数据服务层产生的数据进行处理，并在数据存储层形成企业数据仓库和数据集市。2.如权利要求1所述的hadoop采集系统的运行方法，其特征在于，所述步骤S1通过Sqoop把关系型数据库的数据导入到Hadoop系统中或把数据从Hadoop系统里抽取并导出到关系型数据库里，并利用MapReduce进行数据传输。3.如权利要求1所述的hadoop采集系统的运行方法，其特征在于，所述步骤S1中应用层和数据服务层产生的数据为非结构化数据，包括过程数据和业务数据。4.如权利要求3所述的hadoop采集系统的运行方法，其特征在于，所述过程数据和业务数据由日志收集工具Flume进行处理，所述Flume由Master、Collector和Agent三部分构成；Master是集群的控制器，负责通信及配置管理；Collector用于对数据进行聚合，并会产生一个更大的数据流，然后加载到HDFS上；Agent负责采集数据并将产生的数据传输到Collector。5.如权利要求1所述的hadoop采集系统的运行方法，其特征在于，所述步骤S2中的数据处理包括数据校验、数据清洗、数据关联、数据汇总和数据聚合处理。6.如权利要求1所述的hadoop采集系统的运行方法，其特征在于，所述步骤S2中的数据处理包括采集搜索行为的响应时间及结果，得到需要采集索引优化词集合。7.如权利要求1所述的hadoop采集系统的运行方法，其特征在于，所述步骤S2中的数据处理包括数据评估分析，具体...

【专利技术属性】
技术研发人员：程永新，孙玉颖，张玉朋，
申请(专利权)人：上海新炬网络信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人