数据处理方法、系统及非暂时性存储介质技术方案

技术编号:32518124 阅读:32 留言:0更新日期:2022-03-02 11:16
本说明书提供的数据处理方法、系统及非暂时性存储介质,将实时计算的流任务处理逻辑与批任务处理逻辑相结合,既能使用流任务处理逻辑实时计算在线消息队列中当前时间周期的累计数据,同时又能使用了批任务处理逻辑计算离线数据库中多个历史时间周期的历史数据来补充所需的时间窗口中的数据,并将两部分数据合并后产生累计数据提供给用户使用,既避免了离线数据清洗中缺少当前时间周期的实时数据导致的数据时效性不足的问题,又克服了实时流任务处理逻辑中需要累计运行所需时间窗口长度的时间才能得到完整数据的问题。的时间才能得到完整数据的问题。的时间才能得到完整数据的问题。

【技术实现步骤摘要】
数据处理方法、系统及非暂时性存储介质


[0001]本说明书涉及计算机
,尤其涉及一种数据处理方法、系统及非暂时性存储介质。

技术介绍

[0002]在数据处理中经常有一些需求是对特征主体在指定时间窗口内的累计值进行数据处理。现有技术中的数据处理方法一般有两种,一种是对离线数据源进行批任务计算,另一种是对在线消息队列数据进行流任务计算。由于离线数据源存在数据延迟,因此对离线数据源进行批任务计算可能导致数据延迟,时效性较低。而使用实时流任务计算在线消息队列数据这种方式需要累计够时间窗口的长度的数据才能使用,否则数据不准确,从而导致数据生产周期比较长。
[0003]因此,需要提供一种效率更高以及精度更高的数据处理方法、系统及非暂时性存储介质,缩短数据处理所需的数据生产周期的同时提高数据准确性,从而提高计算效率以及计算精度。

技术实现思路

[0004]本说明书提供一种效率更高以及精度更高的数据处理方法、系统及非暂时性存储介质,缩短数据处理所需的数据生产周期的同时提高数据准确性,从而提高计算效率以及计算精度
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:接收数据处理请求,所述数据处理请求包括对目标时间窗口内的目标数据进行数据处理的请求;基于离线数据库以及在线消息队列确定目标分割点,所述目标分割点将所述目标时间窗口分为所述目标分割点前的第一时间窗口和所述目标分割点后的第二时间窗口;基于批任务处理逻辑,对所述离线数据库中所述第一时间窗口对应的第一数据进行所述数据处理,得到第一结果,所述目标数据包括所述第一数据;以及基于流任务处理逻辑,对所述在线消息队列中所述第二时间窗口对应的第二数据进行所述数据处理,得到第二结果,所述目标数据包括所述第二数据。2.如权利要求1所述的数据处理方法,其中,所述目标时间窗口部分位于所述离线数据库对应的时间窗口内,部分位于所述在线消息队列对应的时间窗口内,所述第一时间窗口完全位于所述离线数据库对应的时间窗口内,所述第二时间窗口完全位于所述在线消息队列对应的时间窗口内。3.如权利要求2所述的数据处理方法,其中,所述基于离线数据库以及在线消息队列确定目标分割点,包括:获取所述离线数据库以及所述在线消息队列;基于所述离线数据库对应的时间窗口以及所述目标时间窗口的交集,确定所述离线数据库对应的第一时间范围;基于所述在线消息队列对应的时间窗口以及所述目标时间窗口的交集,确定所述在线消息队列对应的第二时间范围;基于所述第一时间范围和所述第二时间范围的交集,确定第三时间范围;以及从所述第三时间范围中选择一个时间点作为所述目标分割点。4.如权利要求3所述的数据处理方法,其中,所述从所述第三时间范围中选择一个时间点作为所述目标分割点,包括以下情况中的一种:从所述第三时间范围中选择任意一个时间点作为所述目标分割点;从所述第三时间范围中选择任意一个边界时间点作为所述目标分割点;以及从所述第三时间范围中选择所述离线数据库的分区边界时间点作为所述目标分割点,所述离线...

【专利技术属性】
技术研发人员:周冲
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1