一种数据处理方法、装置及计算机设备制造方法及图纸

技术编号:28128314 阅读:16 留言:0更新日期:2021-04-19 11:46
本发明专利技术实施例公开了一种数据处理方法、装置及计算机设备。该方法包括:获取待处理数据,将所述待处理数据添加至第一数据消息队列;基于Flink实时处理框架采用流式数据处理方式处理所述第一数据消息队列中的各所述待处理数据,得到队列处理数据;将所述队列处理数据添加至第二数据消息队列;基于所述Flink实时处理框架对所述第二数据消息队列中的各所述队列处理数据进行实时数据处理。上述技术方案可以保证数据处理过程的一致性和实时性。以保证数据处理过程的一致性和实时性。以保证数据处理过程的一致性和实时性。

【技术实现步骤摘要】
一种数据处理方法、装置及计算机设备


[0001]本专利技术实施例涉及数据处理
,尤其涉及一种数据处理方法、装置及计算机设备。

技术介绍

[0002]随着互联网的快速发展,存在越来越多的多元数据,而这些数据往往都具有实时性。在对大数据进行处理时,需要依托于分布式处理或分布式数据库等技术,而在数据处理过程中保证数据的一致性和实时性始终是数据处理的重要议题。
[0003]目前,在数据处理领域,一般存在批量计算和实时流计算两种任务类型。Flink是一个同时面向分布式实时流处理和批量数据处理的开源数据平台,它能在基于同一个Flink实时处理框架运行时,提供支持流处理和批处理两种类型任务的功能。在实时处理系统中确保数据一致性时,通常是需要对数据进行幂等性写入操作或事务性写入操作。其中,幂等性写入操作在任意多次向一个系统写入数据时,只对目标系统产生一次结果影响,但这种操作要求数据具有幂等性。事务性写入操作结合了Flink的一致性检查点Checkpoint机制来保证只对外部输出产生一次影响,但只有经过Checkpoint确认的数据才可以向外部写入,由于Checkpoint之间存在一定的时间间隔,会降低数据的实时性。因此,如何基于Flink实时处理框架使数据在处理过程中保持一致性和实时性,是亟待解决的问题。

技术实现思路

[0004]本专利技术实施例提供一种数据处理方法、装置及计算机设备,以保证数据处理过程的一致性和实时性。
[0005]第一方面,本专利技术实施例提供了一种数据处理方法,包括:r/>[0006]获取待处理数据,将所述待处理数据添加至第一数据消息队列;
[0007]基于Flink实时处理框架采用流式数据处理方式处理所述第一数据消息队列中的各所述待处理数据,得到队列处理数据;
[0008]将所述队列处理数据添加至第二数据消息队列;
[0009]基于所述Flink实时处理框架对所述第二数据消息队列中的各所述队列处理数据进行实时数据处理。
[0010]第二方面,本专利技术实施例还提供了一种数据处理装置,包括:
[0011]第一数据消息队列生成模块,设置为获取待处理数据,将所述待处理数据添加至第一数据消息队列;
[0012]队列处理数据生成模块,设置为基于Flink实时处理框架采用流式数据处理方式处理所述第一数据消息队列中的各所述待处理数据,得到队列处理数据;
[0013]第二数据消息队列生成模块,设置为将所述队列处理数据添加至第二数据消息队列;
[0014]实时数据处理模块,设置为基于所述Flink实时处理框架对所述第二数据消息队
列中的各所述队列处理数据进行实时数据处理。
[0015]第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术任意实施例所述的数据处理方法。
[0016]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例所述的数据处理方法。
[0017]本专利技术实施例提供的技术方案中,在将获取到的待处理数据添加至第一数据消息队列后,基于Flink实时处理框架并采用流式数据处理方式对第一数据消息队列中的各待处理数据进行处理,得到队列处理数据,然后将队列处理数据添加至第二数据消息队列,从而可以基于Flink实时处理框架对第二数据消息队列中的各队列处理数据进行实时数据处理,实现了基于Flink实时处理框架并采用两个数据消息队列对数据进行实时处理,对数据无特殊要求,解决了现有数据处理过程难以有效保证一致性和实时性的问题,保证了数据处理过程的一致性和实时性。
附图说明
[0018]图1是本专利技术实施例一中的一种数据处理方法的流程示意图;
[0019]图2是本专利技术实施例二中的一种数据处理方法的流程示意图;
[0020]图3是本专利技术实施例二中的一种数据断点续传的流程示意图;
[0021]图4是本专利技术实施例二中的一种数据清洗及处理的流程示意图;
[0022]图5是本专利技术实施例三中的一种数据处理装置的结构示意图;
[0023]图6是本专利技术实施例四中的一种计算机设备的硬件结构示意图。
具体实施方式
[0024]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0025]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0026]实施例一
[0027]图1是本专利技术实施例一提供的一种数据处理方法的流程图,本专利技术实施例可适用于基于Flink实时处理框架对任意类型的数据进行处理以保证数据处理过程的一致性和实时性的情况,该方法可以由本专利技术实施例提供的数据处理装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。
[0028]如图1所示,本实施例提供的数据处理方法,具体包括:
[0029]S110、获取待处理数据,将待处理数据添加至第一数据消息队列。
[0030]其中,待处理数据,可以是各种来源、各种类型及各种格式的日志数据,例如,埋点
数据、log文件或外部数据等等。也即,本专利技术实施例中的待处理数据可以是任意类型的数据,不要求其必须满足幂等性。
[0031]在本专利技术实施例中,可以通过数据采集器采集数据的方式以获取待处理数据。其中,数据采集器可以应用任一种具有数据采集功能的技术,本实施例对此不做具体限定。可选的,可以通过应用Flume技术的数据采集器,对数量庞大的各种待处理数据集中进行采集,例如,通过应用Flume技术的数据采集器收集网站服务器中的日志数据,可以实现分布式的海量日志等数据的采集、聚合和传输,进而保证系统的稳定性和容错性。
[0032]数据消息队列,指的是一个可以写入数据及从中读取数据的消息序列。可选的,第一数据消息队列可以是一个分布式的Kafka消息队列,将待处理数据写入Kafka消息队列中,在对数据进行处理时,可以从Kafka消息队列中读取数据,避免了获取待处理数据的速度与处理数据的速度不一致的问题,进一步保证了系统的稳定性。
[0033]在获取待处理数据之后,将获取的待处理数据添加至第一数据消息队列,以用于后续对第一数据消息队列中的待处理数据进行处理。
[0034]S120、基于Flink实时处理框架采用流式数据处理方式处理第一数据消息本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理数据,将所述待处理数据添加至第一数据消息队列;基于Flink实时处理框架采用流式数据处理方式处理所述第一数据消息队列中的各所述待处理数据,得到队列处理数据;将所述队列处理数据添加至第二数据消息队列;基于所述Flink实时处理框架对所述第二数据消息队列中的各所述队列处理数据进行实时数据处理。2.根据权利要求1所述的方法,其特征在于,所述将所述待处理数据添加至第一数据消息队列,包括:确定所述待处理数据对应的第一目标分区序号和第一目标分区位置;根据所述第一目标分区序号和所述第一目标分区位置将所述待处理数据添加至所述第一数据消息队列中的第一目标数据分区。3.根据权利要求2所述的方法,其特征在于,所述基于Flink实时处理框架采用流式数据处理方式处理所述第一数据消息队列中的各所述待处理数据,包括:确定当前数据分区对应的当前分区序号以及第一数据处理进度标识;根据所述当前分区序号以及所述第一数据处理进度标识确定当前待处理数据;基于所述Flink实时处理框架实时处理所述当前待处理数据。4.根据权利要求3所述的方法,其特征在于,所述基于所述Flink实时处理框架实时处理所述当前待处理数据,包括:基于所述Flink实时处理框架对所述当前待处理数据实时转化为目标指向性数据。5.根据权利要求2

4任一所述的方法,其特征在于,所述将所述队列处理数据添加至第二数据消息队列,包括:确定所述队列处理数据对应的第二目标分区序号和第二数据处理进度标识;根据所述第二目标分区序号和所述第二数据处理进度标识确定所述队列处理数据在所述第二目标分区序号中的第二目标分区位置;根据所述第二目标分区序号和所述第二目标分区位置将所述队列处理数据添加至所述第二数据消息队列中的第二目标数据分区...

【专利技术属性】
技术研发人员:唐杰
申请(专利权)人:大众问问北京信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1