一种基于canal和kafka实现实时数仓的系统技术方案

技术编号:20329194 阅读:59 留言:0更新日期:2019-02-13 05:47
一种基于canal和kafka实现实时数仓的系统,包括Canal‑Server、Canal‑Client、Consumer‑plugin‑man和admin‑ods,Canal‑Server和Canal‑Client相连接,Canal‑Client通过kafka与Consumer‑plugin‑man相连接,admin‑ods也与Consumer‑plugin‑man相连接,所述Consumer‑plugin‑man与Hbase相连接;所述Hbase连接有ElasticSearch,ElasticSearch连接有Databus‑query,Databus‑query连接有atabus‑api。本发明专利技术的有益效果是将数据源、数据处理、数据写入解耦并统一管理,灵活配置,大大简化研发成本,易维护,支持不同生产环境下部署同一或不同数据仓库中的数据接入,实现一次研发,多处并灵活使用。

【技术实现步骤摘要】
一种基于canal和kafka实现实时数仓的系统
本专利技术涉及互联网
,具体涉及一种基于canal和kafka实现实时数仓的系统。
技术介绍
随着互联网技术的飞速发展,大数据时代已经到来,实时数据采集、同步、计算并及时响应和反馈结果成为根据业务的实时变化及时调整策略并快速响应执行解决方案中至关重要的环节。本专利技术主要解决其中的数据同步环节。其主要内容是:在不影响业务方正常业务的情况下从业务数据库同步实时数据和历史数据到大数据仓库以供后续的变量计算等操作提供有效实时的数据。Canal,是阿里巴巴集团使用纯java开发的一套基于数据库增量日志解析、提供增量数据订阅&消费、目前主要支持了mysql数据库的同步系统。Kafka,是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等,用s本文档来自技高网...

【技术保护点】
1.一种基于canal和kafka实现实时数仓的系统,其特征在于,包括Canal‑Server、Canal‑Client、Consumer‑plugin‑man和admin‑ods,Canal‑Server和Canal‑Client相连接,Canal‑Client通过kafka与Consumer‑plugin‑man相连接,admin‑ods也与Consumer‑plugin‑man相连接,所述Consumer‑plugin‑man与Hbase相连接;所述Hbase连接有ElasticSearch,ElasticSearch连接有Databus‑query,Databus‑query连接有at...

【技术特征摘要】
1.一种基于canal和kafka实现实时数仓的系统,其特征在于,包括Canal-Server、Canal-Client、Consumer-plugin-man和admin-ods,Canal-Server和Canal-Client相连接,Canal-Client通过kafka与Consumer-plugin-man相连接,admin-ods也与Consumer-plugin-man相连接,所述Consumer-plugin-man与Hbase相连接;所述Hbase连接有ElasticSearch,ElasticSearch连接有Databus-qu...

【专利技术属性】
技术研发人员:卫翀
申请(专利权)人:北京马上慧科技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1