数据处理方法及装置、可读存储介质及电子设备制造方法及图纸

技术编号:38474014 阅读:8 留言:0更新日期:2023-08-15 16:54
本申请提供了一种数据处理方法及装置、可读存储介质及电子设备,涉及计算机技术领域。该数据处理方法包括:获取目标业务对应的实时流数据,获取目标业务对应的离线流数据,对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,以便客户端基于输出流数据进行数据应用,能够灵活满足不同业务场景和时效性的需求,尤其针对传统技术中需要人工手动准备历史数据造成任务研发的学习成本高、工期过长且繁琐的问题,通过将获取的实时流与离线流数据进行合并,确定便于客户端进行数据应用的输出流数据,大幅度减少了任务学习难度和开发量,降低了成本,进一步满足了用户对于数据的查询分析需求。数据的查询分析需求。数据的查询分析需求。

【技术实现步骤摘要】
数据处理方法及装置、可读存储介质及电子设备


[0001]本申请涉及计算机
,具体涉及一种数据处理方法及装置、可读存储介质及电子设备。

技术介绍

[0002]随着互联网技术的快速发展,互联网中的数据量呈现爆发式指数级别增长,数据的处理和存储面临着巨大的考验,大数据处理技术也受到了越来越高的关注。由于业务对数据实时性要求越来越高,Flink正逐步成为主流技术。
[0003]然而,Flink计算过程中处理的数据是通过消息队列传输,数据保存时间有限,在面临不同的业务场景需求(比如在实时计算的时候需要用到历史数据的情况)时,Flink计算会存在历史数据回溯困难的问题,进而导致学习成本高、维护难度大、对状态管控繁琐。

技术实现思路

[0004]为了解决上述技术问题,提出了本申请。本申请实施例提供了一种数据处理方法及装置、可读存储介质及电子设备。
[0005]第一方面,本申请一实施例提供了一种数据处理方法,该方法包括:获取目标业务对应的实时流数据;获取目标业务对应的离线流数据;对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,以便客户端基于输出流数据进行数据应用。
[0006]结合第一方面,在第一方面的某些实现方式中,对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,包括:对实时流数据和离线流数据进行合并处理,得到合并流数据;对合并流数据进行去重处理,确定目标业务对应的输出流数据。
[0007]结合第一方面,在第一方面的某些实现方式中,对实时流数据和离线流数据进行合并处理,得到合并流数据,包括:基于预设筛选规则对离线流数据进行筛选,确定离线流数据中与实时流数据相关联的多个历史数据,其中,实时流数据和多个历史数据的数据结构相同;对实时流数据和多个历史数据进行合并处理,得到合并流数据。
[0008]结合第一方面,在第一方面的某些实现方式中,对合并流数据进行去重处理,确定目标业务对应的输出流数据,包括:基于合并流数据,创建与合并流数据的格式匹配的合并数据表;基于合并数据表的主键信息,对合并流数据进行去重处理,确定目标业务对应的输出流数据。
[0009]结合第一方面,在第一方面的某些实现方式中,基于合并数据表的主键信息,对合并流数据进行去重处理,确定目标业务对应的输出流数据,包括:基于合并数据表的主键信息,对合并流数据进行分组,得到合并流数据对应的多个数据组,其中,每个数据组对应的主键信息相同;在预设时间范围内,按照预设偏移量规则对多个数据组进行排序,以确定多个数据组中偏移量最大的数据组;将偏移量最大的数据组确定为目标业务对应的输出流数据。
[0010]结合第一方面,在第一方面的某些实现方式中,获取目标业务对应的实时流数据,
包括:利用消息队列拉取目标业务对应的实时流数据;其中,该方法还包括:利用消息队列将输出流数据发送至分布式文件系统,分布式文件系统用于存储输出流数据。
[0011]结合第一方面,在第一方面的某些实现方式中,对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,包括:基于批流一体方式,将离线流数据写入到实时流数据中进行计算,确定目标业务对应的输出流数据。
[0012]第二方面,本申请一实施例提供了一种数据处理装置,该装置包括:第一获取模块,用于获取目标业务对应的实时流数据;第二获取模块,用于获取目标业务对应的离线流数据;确定模块,用于对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,以便客户端基于输出流数据进行数据应用。
[0013]第三方面,本申请一实施例提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序用于执行上述第一方面所提及的方法。
[0014]第四方面,本申请一实施例提供了一种电子设备,该电子设备包括:处理器以及用于存储处理器可执行指令的存储器;处理器用于执行上述第一方面所提及的方法。
[0015]本申请实施例提供的数据处理方法,通过获取目标业务对应的实时流数和离线流数据;并对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,以便客户端基于输出流数据进行数据应用,能够灵活满足不同业务场景和时效性的需求,尤其针对传统技术中需要人工手动准备历史数据造成任务研发的学习成本高、工期过长且繁琐的问题,通过将获取的实时流与离线流数据进行合并,确定便于客户端进行数据应用的输出流数据,大幅度减少了任务学习难度和开发量,降低了成本,进一步满足了用户对于数据的查询分析需求。
附图说明
[0016]图1a所示为本申请一示例性实施例提供的数据处理方法的系统架构示意图。
[0017]图1b所示为本申请一示例性实施例提供的数据处理方法的流程示意图。
[0018]图2所示为本申请另一示例性实施例提供的数据处理方法的流程示意图。
[0019]图3所示为本申请又一示例性实施例提供的数据处理方法的流程示意图。
[0020]图4所示为本申请又一示例性实施例提供的数据处理方法的流程示意图。
[0021]图5所示为本申请一示例性实施例提供的确定目标业务对应的输出流数据的流程示意图。
[0022]图6所示为本申请又一示例性实施例提供的数据处理方法的流程示意图。
[0023]图7所示为本申请一实施例提供的数据处理装置的结构示意图。
[0024]图8所示为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
[0025]下面将结合本实施方式中的附图,对本说明书实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅是本说明书一部分实施方式,而不是全部的实施方式。
[0026]下面结合图1a进行应用场景的举例说明。
[0027]图1a所示为本申请一示例性实施例提供的数据处理方法的系统架构示意图。本申
请实施例提及的数据处理方法适用于对学情数据进行数据处理的应用场景。如图1a所示,该方法可以由服务器10执行。服务器10可以与客户端11连接。上述客户端11用于上传用户针对目标业务的学情数据。服务器10用于获取客户端11上传的目标业务对应的实时流数据和离线流数据;对实时流数据和离线流数据进行合并处理,确定目标业务对应的输出流数据,以便客户端11基于输出流数据进行数据应用,从而解决了大数据开发过程中回溯历史数据耗时长、数据维护难度大的问题。
[0028]需要说明的是,同一客户端11可以上传不同用户的学情数据。同时,不同客户端11上传的学情数据中可能包含同一用户的学情数据,即同一用户的学情数据可能存在于多个不同客户端11中。
[0029]可以理解,客户端11的数量可根据实际情况设置,本申请实施例对此不进行统一限定。
[0030]以图1a中所示的客户端11为例,客户端11可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperText Markup Language5,超文本标记语言第5版)应用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取目标业务对应的实时流数据;获取所述目标业务对应的离线流数据;对所述实时流数据和所述离线流数据进行合并处理,确定所述目标业务对应的输出流数据,以便客户端基于所述输出流数据进行数据应用。2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述实时流数据和所述离线流数据进行合并处理,确定所述目标业务对应的输出流数据,包括:对所述实时流数据和所述离线流数据进行合并处理,得到合并流数据;对所述合并流数据进行去重处理,确定所述目标业务对应的输出流数据。3.根据权利要求2所述的数据处理方法,其特征在于,所述对所述实时流数据和所述离线流数据进行合并处理,得到合并流数据,包括:基于预设筛选规则对所述离线流数据进行筛选,确定所述离线流数据中与所述实时流数据相关联的多个历史数据,其中,所述实时流数据和所述多个历史数据的数据结构相同;对所述实时流数据和所述多个历史数据进行合并处理,得到所述合并流数据。4.根据权利要求2所述的数据处理方法,其特征在于,所述对所述合并流数据进行去重处理,确定所述目标业务对应的输出流数据,包括:基于所述合并流数据,创建与所述合并流数据的格式匹配的合并数据表;基于所述合并数据表的主键信息,对所述合并流数据进行去重处理,确定所述目标业务对应的输出流数据。5.根据权利要求4所述的数据处理方法,其特征在于,所述基于所述合并数据表的主键信息,对所述合并流数据进行去重处理,确定所述目标业务对应的输出流数据,包括:基于所述合并数据表的主键信息,对所述合并流数据进行分...

【专利技术属性】
技术研发人员:李兵王石
申请(专利权)人:安徽爱学教育科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1