【技术实现步骤摘要】
基于分布式数据处理架构的数据存储方法、装置及设备
[0001]本申请实施例涉及数据处理
,特别涉及一种基于分布式数据处理架构的数据存储方法
、
装置及设备
。
技术介绍
[0002]Flink
是一种框架和分布式处理引擎,用于对无界和有界流数据进行有状态计算
。
[0003]目前,
Flink
提供了
Savepoint(
保存点
)
和
Checkpoint(
检查点
)
机制,来进行
Flink
任务的恢复
。
其中,
Flink
定期地给
Flink
任务的每一个算子
(Operator)
的瞬时状态生成一个快照,然后自动进行持久化保存,在
Flink
任务因诸如任务崩溃
、
服务器故障
、
网络故障
、
软件故障等因素,需要重启或关闭的情况下, ...
【技术保护点】
【技术特征摘要】
1.
一种基于分布式数据处理架构的数据存储方法,其特征在于,所述方法包括:获取当前时间窗口内的新增数据;在键值对数据库中,对所述新增数据和历史去重数据进行比对去重,得到所述当前时间窗口对应的去重数据;其中,所述历史去重数据是指所述当前时间窗口的上一个时间窗口对应的去重数据;对所述当前时间窗口对应的去重数据进行统计,得到所述当前时间窗口对应的统计结果,所述统计结果用于指示所述去重数据对应的目标指标的统计量;将所述当前时间窗口对应的去重数据和统计结果进行分离存储
。2.
根据权利要求1所述的方法,其特征在于,所述将所述当前时间窗口对应的去重数据和统计结果进行分离存储,包括:将所述当前时间窗口对应的去重数据存储至所述键值对数据库中;将所述当前时间窗口对应的统计结果作为状态数据存储至所述键值对数据库中;将所述当前时间窗口对应的统计结果和历史统计结果之间的和值存储至关系型数据库中;其中,所述历史统计结果是指所述当前时间窗口的上一个时间窗口对应的统计结果
。3.
根据权利要求1所述的方法,其特征在于,所述键值对数据库为所述分布式数据处理架构的外置数据库
。4.
根据权利要求1所述的方法,其特征在于,所述对所述当前时间窗口对应的去重数据进行统计,得到所述当前时间窗口对应的统计结果之后,还包括:响应于触发所述分布式数据处理架构对应的检查点,获取所述检查点对应的快照数据,所述快照数据包括流数据对应的消费情况
、
水印和时间窗口;将所述检查点对应的快照数据存储至快速读取数据库中
。5.
根据权利要求1所述的方法,其特征在于,所述获取当前时间窗口内的新增数据之后,还包括:对所述当前窗口对应的新增数据进行预聚合,得到预聚合后的新增数据,所述预聚合后的新增数据的维度小于所述新增数据的维度;对所述预聚合后的新增数据进行预去重,得到调整后的新增数据,所述调整后的新增数据的数据量小于所述新增数据的数据量;其中,所述调整后的新增数据用于和所述历史去重数据进行比对去重,得到所述当前时间窗口对应的去重数据
。6.
...
【专利技术属性】
技术研发人员:青超群,施雯洁,唐辉,刘帆,黄伟康,聂晓楠,
申请(专利权)人:腾讯科技成都有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。