【技术实现步骤摘要】
一种基于字节流格式的kudu数据导入系统及方法
本专利技术涉及软件服务数据同步
,具体提供一种基于字节流格式的kudu数据导入系统及方法。
技术介绍
ApacheKudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力,是兼具HBase和HDFS的优点。Kudu数据库有着良好的应用前景,当前数据源大都存储在oracle、SqlServer、MySQL中,Kudu数据库虽然提供了高效的入库、批量扫描性能和强大的数据分析能力,但是如果没有数据导入方法将数据导入到Kudu数据库,它也是没法发挥其作用的,现在急需一款高效稳定的方法将数据导入到Kudu数据库中。现有官方给出的入库Kudu数据库方法只支持通过impala入库kudu数据库,但是,这种方法不能支持常用的OLTP(如oracle、SqlServer、MySQL)业务数据的导入,有很大局限性。
技术实现思路
本专利技术的技术任务是针对上述存在的问题,提供一种支持分布式部署,能充分利用机器性能,有效提高数据入库速度的基于字节流格式的kudu数据导入系统。本专利技术进一步的技术任务 ...
【技术保护点】
1.一种基于字节流格式的kudu数据导入系统,其特征在于:该系统包括源数据库、源数据库抽取服务模块、消息中间件集群模块、kudu入库服务模块和kudu数据库,源数据库抽取服务模块获取源数据库的数据流,消息中间件集群模块转发源数据库的数据流,kudu入库服务模块解析出源数据库的表结构数据、源数据库的全量数据、源数据库的增量数据,并保存到kudu数据库。
【技术特征摘要】
1.一种基于字节流格式的kudu数据导入系统,其特征在于:该系统包括源数据库、源数据库抽取服务模块、消息中间件集群模块、kudu入库服务模块和kudu数据库,源数据库抽取服务模块获取源数据库的数据流,消息中间件集群模块转发源数据库的数据流,kudu入库服务模块解析出源数据库的表结构数据、源数据库的全量数据、源数据库的增量数据,并保存到kudu数据库。2.根据权利要求1所述的基于字节流格式的kudu数据导入系统,其特征在于:所述消息中间件集群模块为CMSP消息中间件。3.根据权利要求1或2所述的基于字节流格式的kudu数据导入系统,其特征在于:通过配置源数据类型和kudu数据类型的映射关系,将源数据库的表结构与kudu数据库进行转换。4.根据权利要求3所述的基于字节流格式的kudu数据导入系统,其特征在于:通过接收含有源数据库的表结构数据内容的字节流,解析出源数据库的表结构的字段内容,获取kudu数据库的表结构对应的字段格式,将源数据库的表结构的字段内容转换成kudu数据库的表结构对应的字段格式,完成表结构数据的同步,然后将源数据库现有数据批量导入到kudu数据库中,完成全量数据的导入。5.根据权利要求4所述的基于字节流格式的kudu数据导入系统,其特征在于:源数据库的全量数据导入至kudu数据库的过程支持多线程操作。6.根据权利要求5所述的基于字节流格式的kudu数据导入系统,其特征在于:源数据库的全量数据导入至kudu数据库中后,将源数据库的增删改操作,同步到kudu数据库中,完成源数据库的增量数据同步导入至kudu数据库。7.根据权利要求6所述的基于字节...
【专利技术属性】
技术研发人员:许作亮,邓光超,李朝铭,
申请(专利权)人:浪潮软件股份有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。