一种数据处理的方法和装置制造方法及图纸

技术编号:31917363 阅读:10 留言:0更新日期:2022-01-15 12:59
本发明专利技术公开了一种数据处理的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取待存储的数据流,所述数据流包括状态数据和所述状态数据的元数据;将所述状态数据保存到预先建立的存储表中,所述存储表位于数据流处理平台外部;响应于对数据流处理平台进行数据快照的指令,基于快照机制对所述状态数据的元数据进行快照处理。该实施方式实现了状态数据从数据流管理中的剥离,减少了快照数据的数据量,缩短了快照的时间,解决海量数据实时计算时快照卡顿问题,从而有效增强了数据实时计算的鲁棒性、稳定性和容错性。稳定性和容错性。稳定性和容错性。

【技术实现步骤摘要】
一种数据处理的方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种数据处理的方法和装置。

技术介绍

[0002]随着大数据产业的快速发展,对于数据流上有状态的数据计算,被广泛用于大数据实时计算场景中。以Flink框架为例,Flink框架作为一种面向分布式数据流处理和批量数据处理的开源计算框架,可部署在各种集群环境中,实现对各种数据规模的快速计算,Flink通过启动快照(Check Point)机制,实现状态数据的持久化,以防止数据丢失。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中存在如下问题:
[0004]实时计算时,以现有的技术进行状态数据存储,在海量数据实时计算中,由于处理的数据量大,状态多,导致状态数据存储量骤增,数据流处理平台的快照时间变长,甚至出现任务卡顿,影响了实时计算程序的性能。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种数据处理的方法,通过将状态数据从数据流中剥离以及状态数据持久化的外部存储管理,实现了数据流处理平台仅需对状态数据的元数据进行快照处理,减少了数据流处理平台快照的数据量,缩短了快照的时间,解决了海量数据实时计算时由于进行快照处理导致的卡顿问题,从而有效增强了数据实时计算的鲁棒性、稳定性和容错性。
[0006]为实现所述目的,根据本专利技术实施例的一个方面,提供了一种数据处理的方法,包括:
[0007]获取待存储的数据流,所述数据流包括状态数据和所述状态数据的元数据;
[0008]将所述状态数据保存到预先建立的存储表中,所述存储表位于数据流处理平台外部;
[0009]响应于对数据流处理平台进行数据快照的指令,基于快照机制对所述状态数据的元数据进行快照处理。
[0010]可选地,将所述状态数据保存到预先建立的存储表中之前,还包括:创建存储表,并对所述存储表进行配置,所述配置包括配置存储表与状态数据的对应关系,配置所述状态数据的结构化处理规则;并且,将所述状态数据保存到预先建立的存储表中包括:根据所述存储表与状态数据的对应关系,确定所述状态数据对应的存储表;根据所述结构化处理规则对所述状态数据进行结构化处理,并将结构化处理后的状态数据保存到所述对应的存储表中。
[0011]可选地,所述配置还包括配置存储表的数据结构;将结构化处理后的状态数据保存到所述对应的存储表中包括:将结构化处理后的状态数据保存到缓存中;将缓存中的状态数据按照所述存储表的数据结构保存到所述对应的存储表中。
[0012]可选地,所述配置还包括配置所述状态数据的逆结构化处理规则;并且,所述方法
还包括:在需要读取状态数据的情况下,从所述存储表中读取结构化的状态数据;根据所述逆结构化处理规则对所述结构化的状态数据进行逆结构化处理,得到状态数据。
[0013]可选地,所述结构化处理规则和所述逆结构化处理规则是基于存储表的数据结构实现的。
[0014]可选地,所述配置还包括:配置状态数据存储的副本个数。
[0015]根据本专利技术实施例的第二方面,提供一种数据处理的装置,包括:
[0016]数据流获取模块,用于获取待存储的数据流,所述数据流包括状态数据和所述状态数据的元数据;
[0017]数据存储模块,用于将所述状态数据保存到预先建立的存储表中,所述存储表位于数据流处理平台外部;
[0018]快照模块,用于响应于对数据流处理平台进行数据快照的指令,基于快照机制对所述状态数据的元数据进行快照处理。
[0019]可选地,还包括存储表配置模块,用于:在将所述状态数据保存到预先建立的存储表中之前,创建存储表,并对所述存储表进行配置,所述配置包括配置存储表与状态数据的对应关系,配置所述状态数据的结构化处理规则;并且,所述数据存储模块还用于:根据所述存储表与状态数据的对应关系,确定所述状态数据对应的存储表;根据所述结构化处理规则对所述状态数据进行结构化处理,并将结构化处理后的状态数据保存到所述对应的存储表中。
[0020]根据本专利技术实施例的第三方面,提供一种数据处理的电子设备,其特征在于,包括:
[0021]一个或多个处理器;
[0022]存储装置,用于存储一个或多个程序,
[0023]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例第一方面提供的方法。
[0024]根据本专利技术实施例的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术实施例第一方面提供的方法。
[0025]所述专利技术中的一个实施例具有如下优点或有益效果:通过获取待存储的数据流,数据流包括状态数据和状态数据的元数据;将状态数据保存到预先建立的存储表中,存储表位于数据流处理平台外部;响应于对数据流处理平台进行数据快照的指令,基于快照机制对状态数据的元数据进行快照处理的技术方案,实现了将状态数据从数据流中剥离以及状态数据持久化的外部存储管理,仅需对状态数据的元数据进行快照处理,从而减少了数据流处理平台快照的数据量,缩短了快照的时间,解决了海量数据实时计算时由于进行快照处理导致的卡顿问题,从而有效增强了数据实时计算的鲁棒性、稳定性和容错性。
附图说明
[0026]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0027]图1是根据本专利技术实施例的数据处理方法的主要流程的示意图;
[0028]图2是本专利技术实施例的状态数据写入存储表的主要流程示意图;
[0029]图3是本专利技术实施例读取存储表的状态数据的主要流程示意图;
[0030]图4是本专利技术实施例的主要配置模块示意图;
[0031]图5是本专利技术实施例基于Flink的状态数据存取原理示意图;
[0032]图6是根据本专利技术实施例的数据处理装置的主要模块示意图;
[0033]图7是本专利技术实施例可以应用于其中的示例性系统架构图;
[0034]图8是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
[0035]以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0036]目前对于海量数据实时计算的场景,以现有的技术进行状态数据存储,由于处理的数据量大,状态多,导致状态数据存储量骤增,数据流处理平台的快照时间变长,甚至出现任务卡顿,影响了实时计算程序的性能,不能很好的满足实际应用。
[0037]为了解决现有技术中存在的上述问题,本专利技术提出一种数据处理方法,通过将状态数据从数据流中剥离以及状态数据持久化的外部存储管理,实现了数据流处理平台仅需对状态数据的元数据进行快照处理,减少了数据流处理平台快照本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:获取待存储的数据流,所述数据流包括状态数据和所述状态数据的元数据;将所述状态数据保存到预先建立的存储表中,所述存储表位于数据流处理平台外部;响应于对数据流处理平台进行数据快照的指令,基于快照机制对所述状态数据的元数据进行快照处理。2.根据权利要求1所述的方法,其特征在于,将所述状态数据保存到预先建立的存储表中之前,还包括:创建存储表,并对所述存储表进行配置,所述配置包括配置存储表与状态数据的对应关系,配置所述状态数据的结构化处理规则;并且,将所述状态数据保存到预先建立的存储表中包括:根据所述存储表与状态数据的对应关系,确定所述状态数据对应的存储表;根据所述结构化处理规则对所述状态数据进行结构化处理,并将结构化处理后的状态数据保存到所述对应的存储表中。3.根据权利要求2所述的方法,其特征在于,所述配置还包括配置存储表的数据结构;将结构化处理后的状态数据保存到所述对应的存储表中包括:将结构化处理后的状态数据保存到缓存中;将缓存中的状态数据按照所述存储表的数据结构保存到所述对应的存储表中。4.根据权利要求2所述的方法,其特征在于,所述配置还包括配置所述状态数据的逆结构化处理规则;并且,所述方法还包括:在需要读取状态数据的情况下,从所述存储表中读取结构化的状态数据;根据所述逆结构化处理规则对所述结构化的状态数据进行逆结构化处理,得到状态数据。5.根据权利要求4所述的方法,其特征在于,所述结构化处理规则和所述逆结构化处理规则是...

【专利技术属性】
技术研发人员:安金龙刘业辉袁建军
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1