一种实时数据全量获取方法、装置及计算机设备制造方法及图纸

技术编号:33705132 阅读:31 留言:0更新日期:2022-06-06 08:25
本发明专利技术提供一种实时数据全量获取方法、装置及计算机设备。方法包括:利用flinkcdc组件监听并采集mysql数据库的binlog数据;对采集的binlog数据分配全局排序id,在写入kafka系统时,按表的主键作为分区策略,主键值采用hash分区,使相同表数据的相同主键数据在同一个分区;创建doris大宽表,其中除主键以外的其它字段均采用REPLACE_IF_NOT_NULL代替;创建多个flink流任务,将kafka系统中多个dwd层或者dws层数据通过stream load方式写入至doris大宽表,使doris大宽表中相同主键的数据被覆盖更新;根据实际需求查询doris大宽表获取全量数据。本发明专利技术提供的有益效果是:主要解决了mysql跨库分析的问题,且成本低。mysql跨库分析的问题,且成本低。mysql跨库分析的问题,且成本低。

【技术实现步骤摘要】
一种实时数据全量获取方法、装置及计算机设备


[0001]本专利技术涉及大数据领域,尤其涉及一种实时数据全量获取方法、装置及计算机设备。

技术介绍

[0002]随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息,对企业的决策运营策略调整有很大帮助。
[0003]从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助决策者更快的做出决策,更好的进行相应软件产品迭代,而实时数仓在这一过程中起到了不可替代的作用。
[0004]通常,数仓都是希望从新业务上线的第一天开始有数据,然后一直记录到现在。但实时流处理技术,又是强调当前处理状态的一个技术,这两者之间存在一定的矛盾,会使得当前离线数仓的数据时效性非常低。
[0005]具体的说:
[0006](1)目前实时大宽表(数仓)是Flink+clickhouse,宽表的生成是依赖flink组件关联各个表生成的结果写入到clickhous本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实时数据全量获取方法,其特征在于:包括以下步骤:S101:接入实时二进制日志binlog数据:利用flinkcdc组件监听并采集mysql数据库的binlog数据;S102:写入binlog数据至kafka系统:对采集的binlog数据分配全局排序id,在写入kafka系统时,按表的主键作为分区策略,主键值采用hash分区,使相同表数据的相同主键数据在同一个分区;S103:创建doris大宽表:创建doris大宽表,其中除主键以外的其它字段均采用REPLACE_IF_NOT_NULL代替;S104:写数据至doris大宽表:创建多个flink流任务,将kafka系统中多个dwd层或者dws层数据通过stream load方式写入至doris大宽表,使doris大宽表中相同主键的数据被覆盖更新;S105:获取全量数据:根据实际需求查询doris大宽表获取全量数据。2.如权利要求1所述的一种实时数据全量获取方法,其特征在于:步骤S105中,在查询doris大宽表时,通过与其它表的关联字段作为查询条件,进行跨纬度关联查询。3.如权利要求1所述的一种实时数据全量获取方法,其特征在于:所述doris大宽表数据写入完成后,任意时刻对该表进行新增字段时,采用异步执行方式,具体过程如下:S201:在doris大宽表中,新建一个字段d;字段d新建完成后开始接入原先存在的任务a的增量数据。S202:新建一个离线任务b,该离线任务b向字段d中导入字段d新建前,doris大宽表中的全量数据;S203:导入的过程中,字段d同时接收增量数据与历史全量数据,两者发生紊乱...

【专利技术属性】
技术研发人员:王祖正汪健吴凡
申请(专利权)人:武汉物易云通网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1