离线数据处理方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:27877004 阅读:30 留言:0更新日期:2021-03-31 00:56
本公开的实施例公开了离线数据处理方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:根据分布式消息系统订阅信息,从分布式消息系统中获取预先过滤的离线数据,其中,上述分布式消息系统订阅信息用于指示上述预先过滤的离线数据在上述分布式消息系统中的存储位置;对上述预先过滤的离线数据进行格式统一处理,得到目标格式的离线数据;对上述目标格式的离线数据进行内容修正处理,得到与在线数据的内容一致的修正数据。该实施方式无需针对每个业务执行定制化的离线数据处理任务,提高了离线数据处理的业务逻辑的复用性。

【技术实现步骤摘要】
离线数据处理方法、装置、电子设备和计算机可读介质
本公开的实施例涉及计算机
,具体涉及离线数据处理方法、装置、电子设备和计算机可读介质。
技术介绍
离线数据是指业务上线之后所产生的历史业务数据,可以是登录日志、访问日志等等。目前,在对离线数据进行处理时,通常采用的方式为:通过分布式文件系统的映射-规约编程模型(例如,MapReduce)或通用的计算引擎(例如,Spark)对离线数据进行处理。然而,当采用上述方式对离线数据进行处理时,经常会存在如下技术问题:需要针对每个业务执行定制化的离线数据处理任务,导致离线数据处理的业务逻辑的复用性较差。
技术实现思路
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了离线数据处理方法、装置、电子设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。>第一方面,本公开的本文档来自技高网...

【技术保护点】
1.一种离线数据处理方法,包括:/n根据分布式消息系统订阅信息,从分布式消息系统中获取预先过滤的离线数据,其中,所述分布式消息系统订阅信息用于指示所述预先过滤的离线数据在所述分布式消息系统中的存储位置;/n对所述预先过滤的离线数据进行格式统一处理,得到目标格式的离线数据;/n对所述目标格式的离线数据进行内容修正处理,得到与在线数据的内容一致的修正数据。/n

【技术特征摘要】
1.一种离线数据处理方法,包括:
根据分布式消息系统订阅信息,从分布式消息系统中获取预先过滤的离线数据,其中,所述分布式消息系统订阅信息用于指示所述预先过滤的离线数据在所述分布式消息系统中的存储位置;
对所述预先过滤的离线数据进行格式统一处理,得到目标格式的离线数据;
对所述目标格式的离线数据进行内容修正处理,得到与在线数据的内容一致的修正数据。


2.根据权利要求1所述的方法,其中,所述方法还包括:
对所述修正数据进行深度过滤处理,得到深度过滤数据。


3.根据权利要求1所述的方法,其中,所述分布式消息系统中预先过滤的离线数据是通过以下步骤得到的:
根据原始离线数据地址,从分布式文件系统中获取原始离线数据;
根据预先设置的预处理过滤条件对所述原始离线数据进行初步过滤处理,得到初步过滤数据;
将所述初步过滤数据作为所述预先过滤的离线数据发送至所述分布式消息系统。


4.根据权利要求2所述的方法,其中,所述对所述修正数据进行深度过滤处理,得到深度过滤数据,包括:
根据预设的深度过滤信息组对所述修正数据进行深度过滤处理,得到深度过滤数据。


5.根据权利要求4所述的方法,其中,所述深度过滤信息组中的深度过滤信息包括:字段补全信息,深度过滤条件;以及
所述根据预设的深度过滤信息组对所述修正数据进行深度过滤处理,得到深度过滤数据,包括:
将所述修正数据确定为初始修正数据;
从所述深度过滤信息组中选取深度过滤信息,以及执行以下深度过滤处理步骤:
根据选取的深度过滤信息中包括的字段补全信息,对初始修正数据进行字段补全,得到字段补全后的修正数据;
根据选取...

【专利技术属性】
技术研发人员:张文选史忠伟
申请(专利权)人:北京五八信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1