数据处理方法、装置、设备和存储介质制造方法及图纸

技术编号:38863184 阅读:11 留言:0更新日期:2023-09-17 10:04
本申请提供一种数据处理方法、装置、设备和存储介质,该方法包括:应用于提供实时数据分析服务的流式数据处理引擎,包括:若识别出存在实时数据分析服务的新购用户,则通过流式数据处理引擎中的变更数据捕获组件,从新购用户对应的源数据库中获取目标历史时间段内新购用户对应的历史数据;基于实时数据分析服务对历史数据进行数据分析处理,将数据分析结果存入目标数据库中。通过该方案,流式数据处理引擎自动识别新购用户,完成新购用户的实时地历史数据初始化,提升了实时性,并且不用额外维护一个批处理任务,降低了成本。降低了成本。降低了成本。

【技术实现步骤摘要】
数据处理方法、装置、设备和存储介质


[0001]本专利技术涉及云计算
,尤其涉及一种数据处理方法、装置、设备和存储介质。

技术介绍

[0002]目前数据安全、隐私保护相关的法律法规越来越严格,对用户数据的使用要获得用户的显式授权,防止数据滥用。
[0003]因此在商业化的实时数据分析服务产品中,在用户购买之前,是无法在实时数据分析服务中直接使用用户数据的,这就会造成一个问题:在提供实时数据分析服务的产品中,不仅会提供实时数据分析功能,而且还会提供历史数据分析功能(比如对用户过去90天甚至更长的历史数据,按照设定的数据分析处理逻辑进行加工处理),而对应刚购买该产品的用户(即新购用户)来说,往往只能实时/近实时地获取增量数据,对于其历史数据,需要延迟(比如延迟小时级别、天级别)才能完成导入和分析处理即完成初始化处理,这就是通常所说的用户数据的冷启动问题。
[0004]目前采用的方案中,通过流式数据处理引擎(比如Flink)来获取用户的实时增量数据即实时变更数据,并对实时变更数据进行数据分析处理,通过批数据处理引擎(比如Hadoop)来批量地逐步获取用户的历史数据,并对获得的历史数据进行数据分析处理。对于新购用户来说,因为需要等待很长时间才能使用数据分析服务产品的全部功能,用户体验比较差。

技术实现思路

[0005]本专利技术实施例提供一种数据处理方法、装置、设备和存储介质,用以完成新购用户的实时地的历史数据初始化处理。
[0006]第一方面,本专利技术实施例提供一种数据处理方法,应用于流式数据处理引擎,所述流式数据处理引擎用于提供设定的实时数据分析服务,所述方法包括:
[0007]若识别出存在所述实时数据分析服务的新购用户,则通过所述流式数据处理引擎中的变更数据捕获组件,从所述新购用户对应的源数据库中获取目标历史时间段内所述新购用户对应的历史数据;
[0008]基于所述实时数据分析服务对所述历史数据进行数据分析处理;
[0009]将所述历史数据的数据分析结果存入目标数据库中。
[0010]第二方面,本专利技术实施例提供一种数据处理装置,应用于流式数据处理引擎,所述流式数据处理引擎用于提供设定的实时数据分析服务,所述装置包括:
[0011]获取模块,用于若识别出存在所述实时数据分析服务的新购用户,则通过所述流式数据处理引擎中的变更数据捕获组件,从所述新购用户对应的源数据库中获取目标历史时间段内所述新购用户对应的历史数据;
[0012]处理模块,用于基于所述实时数据分析服务对所述历史数据进行数据分析处理;
[0013]存储模块,用于将所述历史数据的数据分析结果存入目标数据库中。
[0014]第三方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,执行如第一方面所述的数据处理方法。
[0015]第四方面,本专利技术实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备中的处理器执行时,至少可以实现如第一方面所述的数据处理方法。
[0016]在本专利技术实施例提供的数据处理方案中,通过提供设定的实时数据分析服务的流式数据处理引擎来进行新购用户的历史数据实时初始化处理。具体地,当该流式数据处理引擎识别出实时数据分析服务的新购用户时,可以即时地通过流式数据处理引擎中的变更数据捕获组件,从新购用户对应的源数据库中获取目标历史时间段发(比如过去90天)内新购用户对应的历史数据,从而完成历史数据的实时初始化。之后,可以基于实时数据分析服务对历史数据进行数据分析处理,将历史数据的数据分析结果存入目标数据库中,以即时完成对历史数据的数据分析处理。通过该方案,流式数据处理引擎自动识别新购用户,完成新购用户的实时地历史数据初始化,提升了实时性,并且不用额外维护一个批处理任务,降低了成本。
附图说明
[0017]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为一种传统的数据处理方法的原理示意图;
[0019]图2为本专利技术实施例提供的一种数据处理方法的流程图;
[0020]图3为本专利技术实施例提供的一种数据处理方法的流程图;
[0021]图4为本专利技术实施例提供的一种数据处理方法的应用示意图;
[0022]图5为本专利技术实施例提供的一种数据处理装置的结构示意图;
[0023]图6为本实施例提供的一种电子设备的结构示意图。
具体实施方式
[0024]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
[0025]需要说明的是,本专利技术实施例中所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授
权或者拒绝。
[0026]先对本专利技术实施例中涉及到的一些概念进行解释说明。
[0027]流批一体:是指流处理和批处理使用同一套处理逻辑,相比传统的流处理和批处理分别采用不同的处理引擎和处理逻辑,可以保证批处理和流处理计算逻辑上的统一性。
[0028]变更数据捕获(Change Data Capture,简称CDC):其核心原理是监测并捕获数据库的变动(增删改等),将这些变更按发生的顺序捕获,当然也可以写入到消息队列中供其他服务消费。
[0029]流式数据处理引擎:可以对流数据进行实时处理的计算引擎,比如Flink、Spark等。
[0030]Flink CDC:是指Flink处理引擎提供的一种数据流处理模式,它可以实时捕获数据库中的增量变更并将其转换为流数据,然后进行流式处理。Flink CDC提供了一个专门的source(数据源)操作符来实现这个功能。这种方式可用于很多场景,例如数据仓库、实时数据分析等。
[0031]云厂商提供的商业化的实时数据分析服务,不仅会提供实时数据分析功能,而且还会提供历史数据分析功能。当某用户购买该实时数据分析服务(假设购买时间为T时刻)后,一方面,需要采集该用户的自购买时刻之后实时产生的数据,并进行相关的分析处理,另一方面,需要获取该用户购买时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于流式数据处理引擎,所述流式数据处理引擎用于提供设定的实时数据分析服务,所述方法包括:若识别出存在所述实时数据分析服务的新购用户,则通过所述流式数据处理引擎中的变更数据捕获组件,从所述新购用户对应的源数据库中获取目标历史时间段内所述新购用户对应的历史数据;基于所述实时数据分析服务对所述历史数据进行数据分析处理;将所述历史数据的数据分析结果存入目标数据库中。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:定期获取所述实时数据分析服务的购买用户表;对比第一时间获取的第一购买用户表与第二时间获取的第二购买用户表,以确定新增用户,所述第一时间与所述第二时间的时间差为设定周期长度,所述第二时间晚于所述第一时间;确定所述新增用户为所述实时数据分析服务的新购用户;或者,若所述新增用户的特征信息符合设定条件,则确定所述新增用户为所述实时数据分析服务的新购用户。3.根据权利要求1所述的方法,其特征在于,所述获取目标历史时间段内所述新购用户对应的历史数据,包括:通过连续地读取所述源数据库中存储的数据表,以获取目标历史时间段内所述新购用户对应的历史数据。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于所述新购用户对所述实时数据分析服务的购买,通过所述变更数据捕获组件从所述源数据库中获取所述新购用户对应的实时变更数据;基于所述实时数据分析服务对所述实时变更数据进行数据分析处理;将所述实时变更数据的数据分析结果存入目标数据库中。5.根据权利要求4所述的方法,其特征在于,所述从所述源数据库中获...

【专利技术属性】
技术研发人员:崔玮
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1