数据处理方法、装置、设备和存储介质制造方法及图纸

技术编号：38863184 阅读：11 留言：0更新日期：2023-09-17 10:04

本申请提供一种数据处理方法、装置、设备和存储介质，该方法包括：应用于提供实时数据分析服务的流式数据处理引擎，包括：若识别出存在实时数据分析服务的新购用户，则通过流式数据处理引擎中的变更数据捕获组件，从新购用户对应的源数据库中获取目标历史时间段内新购用户对应的历史数据；基于实时数据分析服务对历史数据进行数据分析处理，将数据分析结果存入目标数据库中。通过该方案，流式数据处理引擎自动识别新购用户，完成新购用户的实时地历史数据初始化，提升了实时性，并且不用额外维护一个批处理任务，降低了成本。降低了成本。降低了成本。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、设备和存储介质

[0001]本专利技术涉及云计算
，尤其涉及一种数据处理方法、装置、设备和存储介质。

技术介绍

[0002]目前数据安全、隐私保护相关的法律法规越来越严格，对用户数据的使用要获得用户的显式授权，防止数据滥用。
[0003]因此在商业化的实时数据分析服务产品中，在用户购买之前，是无法在实时数据分析服务中直接使用用户数据的，这就会造成一个问题：在提供实时数据分析服务的产品中，不仅会提供实时数据分析功能，而且还会提供历史数据分析功能(比如对用户过去90天甚至更长的历史数据，按照设定的数据分析处理逻辑进行加工处理)，而对应刚购买该产品的用户(即新购用户)来说，往往只能实时/近实时地获取增量数据，对于其历史数据，需要延迟(比如延迟小时级别、天级别)才能完成导入和分析处理即完成初始化处理，这就是通常所说的用户数据的冷启动问题。
[0004]目前采用的方案中，通过流式数据处理引擎(比如Flink)来获取用户的实时增量数据即实时变更数据，并对实时变更数据进行数据分析处理，通过批数据处理引擎(比如Hadoop)来批量地逐步获取用户的历史数据，并对获得的历史数据进行数据分析处理。对于新购用户来说，因为需要等待很长时间才能使用数据分析服务产品的全部功能，用户体验比较差。

技术实现思路

[0005]本专利技术实施例提供一种数据处理方法、装置、设备和存储介质，用以完成新购用户的实时地的历史数据初始化处理。
[0006]第一方面，本专利技术实施例提供一种数据处理方...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，应用于流式数据处理引擎，所述流式数据处理引擎用于提供设定的实时数据分析服务，所述方法包括：若识别出存在所述实时数据分析服务的新购用户，则通过所述流式数据处理引擎中的变更数据捕获组件，从所述新购用户对应的源数据库中获取目标历史时间段内所述新购用户对应的历史数据；基于所述实时数据分析服务对所述历史数据进行数据分析处理；将所述历史数据的数据分析结果存入目标数据库中。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：定期获取所述实时数据分析服务的购买用户表；对比第一时间获取的第一购买用户表与第二时间获取的第二购买用户表，以确定新增用户，所述第一时间与所述第二时间的时间差为设定周期长度，所述第二时间晚于所述第一时间；确定所述新增用户为所述实时数据分析服务的新购用户；或者，若所述新增用户的特征信息符合设定条件，则确定所述新增用户为所述实时数据分析服务的新购用户。3.根据权利要求1所述的方法，其特征在于，所述获取目标历史时间段内所述新购用户对应的历史数据，包括：通过连续地读取所述源数据库中存储的数据表，以获取目标历史时间段内所述新购用户对应的历史数据。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：响应于所述新购用户对所述实时数据分析服务的购买，通过所述变更数据捕获组件从所述源数据库中获取所述新购用户对应的实时变更数据；基于所述实时数据分析服务对所述实时变更数据进行数据分析处理；将所述实时变更数据的数据分析结果存入目标数据库中。5.根据权利要求4所述的方法，其特征在于，所述从所述源数据库中获...

【专利技术属性】
技术研发人员：崔玮，
申请(专利权)人：阿里云计算有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人