一种数据采集系统技术方案

技术编号:26478385 阅读:32 留言:0更新日期:2020-11-25 19:22
一种数据采集系统,包括:采集数据服务模块、KAFKA消息队列、SPARK分布式处理计算模块、以及Elasticsearch全文搜索引擎中间件,采集数据服务模块通过python语言开发,利用对不同数据源预先封装的驱动类以参数形式调用数据并进行处理后发送至KAFKA消息队列的指定分区;SPARK分布式处理计算模块采用spark streaming对KAFKA中的数据进行轮询并将计算后的数据写入Elasticsearch全文搜索引擎中间件;Elasticsearch全文搜索引擎中间件存储数据并为其创建索引。采用本申请中的方案,相比于主流的HADOOP平台体系,更轻量、更灵活。

【技术实现步骤摘要】
一种数据采集系统
本申请涉及广播电视技术,具体地,涉及一种数据采集系统。
技术介绍
随着新媒体数据来源越来越多、提供的形式越来越多,电视台的新媒体数据的处理量极大,每天有数百万条数据且要求很高的实时性,接近于实时监测账号的状态。数据处理完成后还要求能通过关键字匹配出相关性高的文章并加以统计。这就要求数据处理系统能够接受数据源多、数据量大且实时性要求高的挑战。现有的大数据技术架构通常使用flume+kafka+mapreduce+hive的大数据处理架构,该技术是在分布式基础架构上搭建复杂集群,配置复杂的flume,并解决headers域乱码问题后,将数据传入kafka中,mapreduce计算程序去消费kafka消息并计算后存入hive,最后通过查询展示出数据。现有技术中存在的问题:面对多种格式的数据源,flume配置复杂且不便于数据源管理,MAPREDUCE计算会因为数据量过大导致在HDFS上读取数据影响数据的实效性,且Hive查询当需要相关性查询Hive无法支撑。专利技术内容本申请实施本文档来自技高网...

【技术保护点】
1.一种数据采集系统,其特征在于,包括:采集数据服务模块、KAFKA消息队列、SPARK分布式处理计算模块、以及Elasticsearch全文搜索引擎中间件,其中,/n采集数据服务模块通过python语言开发,利用对不同数据源预先封装的驱动类以参数形式调用数据并进行处理后发送至KAFKA消息队列的指定分区;/nKAFKA消息队列包括多个分区,用于存放不同种类的数据;/nSPARK分布式处理计算模块采用spark streaming对KAFKA中的数据进行轮询计算,并将计算后的数据写入Elasticsearch全文搜索引擎中间件;/nElasticsearch全文搜索引擎中间件存储所述SPARK...

【技术特征摘要】
1.一种数据采集系统,其特征在于,包括:采集数据服务模块、KAFKA消息队列、SPARK分布式处理计算模块、以及Elasticsearch全文搜索引擎中间件,其中,
采集数据服务模块通过python语言开发,利用对不同数据源预先封装的驱动类以参数形式调用数据并进行处理后发送至KAFKA消息队列的指定分区;
KAFKA消息队列包括多个分区,用于存放不同种类的数据;
SPARK分布式处理计算模块采用sparkstreaming对KAFKA中的数据进行轮询计算,并将计算后的数据写入Elasticsearch全文搜索引擎中间件;
Elasticsearch全文搜索引擎中间件存储所述SPARK分布式处理计算模块计算后的数据并为其创建索引。


2.根据权利要求1所述的数据采集系统,其特征在于,所述采集数据服务模块,包括:
数据源连接模块,用于利用对不同数据源预先封装的驱动类以参数形式调用相应的数据源的数据;
数据处理模块,用于将从各个数据源获取的数据进行解析,并将解析后的数据打上相应的标签;
数据推送模块,用于拉取数据并发送至KAFKA消息队列的指定分区。


3.根据权利要求2所述的数据采集系统,其特征在于,所述数据推送模块,包括:
主题单元,用于根据拉取的数据记录的标签确定KAFKA消息队列的主题;
哈希单元,用于对拉取的数据记录的key计算hash值;
取模单元,用于利用所述hash值对KAFKA所有分区进行取模运算,确定所确定的KAFKA消息队列的主题下的分区位置。


4.根据权利要求2所述的数据采集系统,其特征在于,所述数据处理模块,用于:
对于EXCEL文件数据类型,获取文件列表后将每个sheet作为单个文件,分别将每个sheet的第一行作为字段名称,将数据解析成python字典型数据后进行打标签处理,再转化为json数据;
对于CSV文件数据类型,将传递的-format参数作为分隔符,将第一行header作为字段名称,将数据解析成python字典型数据后进行打标签处理,再转化为json数据;
对于TXT文件数据类型,将该类型数据解析转化为数组型数据,在判断数据长度为传入参数时将其转化为json数据。


5.根据权利要求2所述的数据采集系统,其特征在于,所述数据源连接模块,包括:

【专利技术属性】
技术研发人员:李伟男王雪京苏超王鑫乔立新
申请(专利权)人:中央广播电视总台
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1