一种开源关系型数据的同步采集方法技术

技术编号：15391604 阅读：83 留言：0更新日期：2017-05-19 04:51

本发明专利技术公开了一种开源关系型数据的同步采集方法，包括：在MySQL中打开BinLog，开启行级变更日志；通过Host1的Tungsten Replicator标准采集器抽取BinLog的变更信息，并通过Tungsten Replicator中的colname过滤器过滤原始数据；从节点Host2d Tungsten Replicator远程读取THL信息，并将其写入到批量的character‑separated格式文件中；通过Tungsten Replicator在大数据平台存入基于行级的CSV文件信息后，可以通过调用大数据平台的CSV组件、MapReduce组件等模块对当前的CSV数据及发生数据变更的信息进行合并归集，形成数据视图，数据视图使用了自定义的特殊格式。可以在不同的数据库版本、异构库进行数据交换，且在数据交换过程中，可以对数据进行过滤和修改。

A method of synchronous acquisition of open source relational data

The invention discloses a synchronous acquisition method, a kind of open source relational data including: open BinLog in MySQL, open the row level change log; by changing the information Host1 Tungsten Replicator BinLog standard collector extraction, and filter the original data by Tungsten in Replicator colname; read THL information from node Host2d Tungsten Replicator remote, and writes it to the bulk character separated format by Tungsten Replicator; in big data platform in the row level CSV file based on the information, you can adjust the use of big data platform CSV component, MapReduce component module of CSV data and the current merger information collection changes the data form, data view and data view using special custom format. Data exchange can be done in different database versions and heterogeneous libraries, and the data can be filtered and modified during the process of data exchange.

全部详细技术资料下载

【技术实现步骤摘要】
一种开源关系型数据的同步采集方法
本专利技术涉及大数据应用领域，特别是指一种开源关系型数据的同步采集方法。
技术介绍
Hadoop本身主要提供了分布式存储(HDFS)和分布计算框架(MapReduce)，解决了大数据存储和离线计算问题。Hadoop生态系统中其他上层应用为Hadoop扩展了SQL能力、脚本语言、流式计算、内存计算、数据挖掘等功能，补充了Hadoop的实时计算、交互式计算能力，使得Hadoop应用领域不断扩展。目前Hadoop除在线交易型应用(OLTP)能力不足之外，在实时、交互式、离线等数据计算领域都有相应的支撑组件。在关系型数据同步复制到大数据平台术路线上，由于国家电网公司目前关系型数据库呈现多种不同类型的数据库，而且数据库的版本也不一，因此在考虑关系型数据库同步复制技术的选型上必须选用支持异构数据库复制框架的，且必须支持灵活的事务处理、并且提高可靠性，保证零停机直接实现数据库迁移和升级。
技术实现思路
有鉴于此，本专利技术的目的在于提出一种灵活的、基于行级的数据复制解决方案，可以在不同的数据库版本、异构库进行数据交换，且在数据交换过程中，可以对数据...
一种开源关系型数据的同步采集方法

【技术保护点】
一种开源关系型数据的同步采集方法，其特征在于，包括：在MySQL中打开BinLog，开启行级变更日志；通过Host1的Tungsten Replicator标准采集器抽取BinLog的变更信息，并通过Tungsten Replicator中的colname过滤器过滤原始数据；从节点Host2d Tungsten Replicator远程读取THL信息，并将其写入到批量的character‑separated格式文件中；通过Tungsten Replicator在大数据平台存入基于行级的CSV文件信息后，可以通过调用大数据平台的CSV组件、MapReduce组件等模块对当前的CSV数据及发生数据...

【技术特征摘要】
1.一种开源关系型数据的同步采集方法，其特征在于，包括：在MySQL中打开BinLog，开启行级变更日志；通过Host1的TungstenReplicator标准采集器抽取BinLog的变更信息，并通过TungstenReplicator中的colname过滤器过滤原始数据；从节点Host2dTungstenReplicator远程读取THL信息，并将其写入到批量的character-separated格式文件中；通过TungstenReplicator在大数据平台存入基于行级的CSV文件信息后，可以通过调用大数据平台的CSV组件、MapReduce组件等模块对当前的...

【专利技术属性】
技术研发人员：裴旭斌，方舟，沈志豪，吴尚远，王志强，沈潇军，王以良，裘炜浩，戚伟强，龚小刚，张秋霞，王冠男，张金帅，
申请(专利权)人：国网浙江省电力公司，北京国电通网络技术有限公司，国网信息通信产业集团有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人