一种数据处理的方法和装置制造方法及图纸

技术编号:31917363 阅读:21 留言:0更新日期:2022-01-15 12:59
本发明专利技术公开了一种数据处理的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取待存储的数据流,所述数据流包括状态数据和所述状态数据的元数据;将所述状态数据保存到预先建立的存储表中,所述存储表位于数据流处理平台外部;响应于对数据流处理平台进行数据快照的指令,基于快照机制对所述状态数据的元数据进行快照处理。该实施方式实现了状态数据从数据流管理中的剥离,减少了快照数据的数据量,缩短了快照的时间,解决海量数据实时计算时快照卡顿问题,从而有效增强了数据实时计算的鲁棒性、稳定性和容错性。稳定性和容错性。稳定性和容错性。

【技术实现步骤摘要】
一种数据处理的方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种数据处理的方法和装置。

技术介绍

[0002]随着大数据产业的快速发展,对于数据流上有状态的数据计算,被广泛用于大数据实时计算场景中。以Flink框架为例,Flink框架作为一种面向分布式数据流处理和批量数据处理的开源计算框架,可部署在各种集群环境中,实现对各种数据规模的快速计算,Flink通过启动快照(Check Point)机制,实现状态数据的持久化,以防止数据丢失。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中存在如下问题:
[0004]实时计算时,以现有的技术进行状态数据存储,在海量数据实时计算中,由于处理的数据量大,状态多,导致状态数据存储量骤增,数据流处理平台的快照时间变长,甚至出现任务卡顿,影响了实时计算程序的性能。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种数据处理的方法,通过将状态数据从数据流中剥离以及状态数据持久化的外部存储管理,实现了数据流处理平台仅需对状态数据的元数据进行快照处本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:获取待存储的数据流,所述数据流包括状态数据和所述状态数据的元数据;将所述状态数据保存到预先建立的存储表中,所述存储表位于数据流处理平台外部;响应于对数据流处理平台进行数据快照的指令,基于快照机制对所述状态数据的元数据进行快照处理。2.根据权利要求1所述的方法,其特征在于,将所述状态数据保存到预先建立的存储表中之前,还包括:创建存储表,并对所述存储表进行配置,所述配置包括配置存储表与状态数据的对应关系,配置所述状态数据的结构化处理规则;并且,将所述状态数据保存到预先建立的存储表中包括:根据所述存储表与状态数据的对应关系,确定所述状态数据对应的存储表;根据所述结构化处理规则对所述状态数据进行结构化处理,并将结构化处理后的状态数据保存到所述对应的存储表中。3.根据权利要求2所述的方法,其特征在于,所述配置还包括配置存储表的数据结构;将结构化处理后的状态数据保存到所述对应的存储表中包括:将结构化处理后的状态数据保存到缓存中;将缓存中的状态数据按照所述存储表的数据结构保存到所述对应的存储表中。4.根据权利要求2所述的方法,其特征在于,所述配置还包括配置所述状态数据的逆结构化处理规则;并且,所述方法还包括:在需要读取状态数据的情况下,从所述存储表中读取结构化的状态数据;根据所述逆结构化处理规则对所述结构化的状态数据进行逆结构化处理,得到状态数据。5.根据权利要求4所述的方法,其特征在于,所述结构化处理规则和所述逆结构化处理规则是...

【专利技术属性】
技术研发人员:安金龙刘业辉袁建军
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1