一种超大规模数据导出方法技术

技术编号:43399288 阅读:32 留言:0更新日期:2024-11-19 18:16
本发明专利技术涉及软件服务技术领域,尤其涉及一种超大规模数据导出方法,包括以下步骤:S1:通过BINLOG日志解析工具对源端数据库进行快速配置,配置复制通道;S2:通过搜索引擎或通过任务中心提交SQL模块将源端数据库的历史数据写入到终端数据库,历史数据通过BINLOG日志解析工具自动采集到终端数据库;S3:后台监控到历史数据写入到终端数据库完成后,后台调用SQL执行模块执行导出到文件中,文件上传到对象存储服务中,实现客户端根据对象存储服务下载。本发明专利技术支持超大型互联网公司,在导出百万级数据分钟级别导出,通过搜索引擎Elasticsearch搜索的结果和导出数据一致性,能够实现后端java研发快速的进行功能研发,异构平台的数据实时复制,完成实时数据的快速导出。

【技术实现步骤摘要】

本专利技术涉及软件服务,尤其涉及一种超大规模数据导出方法


技术介绍

1、saas及企业服务行业内已有的数据导出方法基本都是预生成,利用离线平台进行导出,或者只能导出小批量的几万条数据。业内的通用型方案中,有以下几点弊端:利用离线平台导出,由于离线平台如hadoop等技术和java研发人员采用的技术体系不一样,此类开发需要大数据研发人员介入研发,而整体的表结构又是java研发人员进行设计,相较于大数据研发人员,java研发人员更加熟悉自身的业务,现方案无法支持各个业务线的java研发人员进行快速的进行功能迭代;导出时效性较低,性能较慢,往往需要几十分钟才能导出,并且由于离线计算平台和业务数据无法实时同步,基本无法导出实时数据,只能支持导出离线数据,客户体验较差;对于大体量超过百亿数据的场景,无法解决大批量数据查询和导出一致性的问题。

2、此外,由于搜索引擎elasticsearch的分词策略和离线的查询策略不一致,存在导出和搜索结果数据不一致的问题。对于小型公司,可能直接在业务数据库mysql中进行开发导出;而大型公司对于超过上百亿,千亿的数据本文档来自技高网...

【技术保护点】

1.一种超大规模数据导出方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种超大规模数据导出方法,其特征在于,在步骤S1中,所述快速配置,进一步包括:

3.根据权利要求2所述的一种超大规模数据导出方法,其特征在于,在步骤S1中,所述BINLOG日志解析工具,进一步包括:

4.根据权利要求3所述的一种超大规模数据导出方法,其特征在于,所述保障所述源端数据库和所述终端数据库的一致性,进一步包括:

5.根据权利要求4所述的一种超大规模数据导出方法,其特征在于,在步骤S2中,所述通过任务中心提交SQL模块将所述源端数据库的历史数据写入到所...

【技术特征摘要】

1.一种超大规模数据导出方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种超大规模数据导出方法,其特征在于,在步骤s1中,所述快速配置,进一步包括:

3.根据权利要求2所述的一种超大规模数据导出方法,其特征在于,在步骤s1中,所述binlog日志解析工具,进一步包括:

4.根据权利要求3所述的一种超大规模数据导出方法,其特征在于,所述保障所述源端数据库和所述终端数据库的一致性,进一步包括:

5.根据权利要求4所述的一种超大规模数据导出方法,其特征在于,在步骤s2中,所述通过任务中心提交sql模块将所述源端数据库的历史数据写入到所...

【专利技术属性】
技术研发人员:刘浩王友运刘泉
申请(专利权)人:企迈科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1