【技术实现步骤摘要】
数据处理方法、装置、存储介质以及电子设备
[0001]本说明书涉及计算机
,尤其涉及一种数据处理方法
、
装置
、
存储介质以及电子设备
。
技术介绍
[0002]相关技术中,按照数据的延迟情况,数据时效性一般分为离线
、
准实时
、
实时,那么可根据上述时效性将数据划分为离线数据
、
准实时数据
、
实时数据
。
离线数据,指的是在今天处理的
N
天前的数据
。
准实时数据,指的是在当前小时处理的
N
小时前的数据
。
实时数据,指的是在当前时刻处理的当前的数据
。
[0003]离线数据处理也称之为“批处理”,数据产生之后,不会立即进行清洗,而是在固定的周期进行抽取
、
转换
、
加载
。
例如每天在凌晨2:
00
之后,处理前一天产生的数据
。
目前,存在大量离线加工数据的场景,在这些场景中,主要是对离线数据做加工处理
(
比如聚合
、
清洗等
)
,加工后再回流至在线服务的存储系统中,供下游调用方使用
。
技术实现思路
[0004]本说明书提供了一种数据处理方法
、
装置
、
存储介质以及电子设备,可在发现离线数据中的异常数据时 ...
【技术保护点】
【技术特征摘要】
1.
一种数据处理方法,所述方法包括:获取离线事务表数据和全量事务表数据;基于所述离线事务表数据和所述全量事务表数据进行新场景检测,确定所述离线事务表数据对应的新场景字段信息;基于所述新场景字段信息确定针对所述离线事务表数据的管理任务,基于所述管理任务对所述离线事务表数据进行处理
。2.
根据权利要求1所述的方法,所述基于所述离线事务表数据和所述全量事务表数据进行新场景检测,确定所述离线事务表数据对应的新场景字段信息,包括:获取场景识别规则,基于所述场景识别规则确定所述全量事务表数据对应的第一场景字段信息和所述离线事务表数据对应的第二场景字段信息;确定所述第二场景字段信息中除所述第一场景字段信息之外的第三场景字段信息,基于所述第三场景字段信息确定所述离线事务表数据对应的新场景字段信息
。3.
根据权利要求2所述的方法,所述方法还包括:检测所述第二场景字段信息中是否存在标记场景字段信息;若所述第二场景字段信息中存在所述标记场景字段信息,则将所述标记场景字段信息确定为所述离线事务表数据对应的新场景字段信息
。4.
根据权利要求2所述的方法,所述获取场景识别规则,基于所述场景识别规则确定所述全量事务表数据对应的第一场景字段信息和所述离线事务表数据对应的第二场景字段信息,包括:确定针对所述离线事务表数据的场景识别字段,基于所述场景识别字段确定场景识别规则,基于所述场景识别规则确定所述全量事务表数据对应的第一场景字段信息和所述离线事务表数据对应的第二场景字段信息;和
/
或,获取场景识别模型,采用所述场景识别模型确定所述全量事务表数据对应的第一场景字段信息和所述离线事务表数据对应的第二场景字段信息,其中,所述场景识别模型基于已标注场景字段信息标签的样本事务数据对机器学习模型训练得到
。5.
根据权利要求4所述的方法,所述确定针对所述离线事务表数据的场景识别字段,包括:获取参考事务语义类型与参考场景识别字段对应的字段映射表;确定所述离线事务表数据对应的目标事务语义类型,在所述字段映射表中查询所述目标事务语义类型对应的目标场景识别字段,将所述目标场景识别字段确定为针对所述离线事务表数据的场景识别字段
。6.
根据权利要求1所述的方法,所述基于所述新场景字段信息确定针对所述离线事务表数据的管理任务,包括:确定所述新场景字段信息对应的场景类别;若所述场景类别不属于场景类别集合,...
【专利技术属性】
技术研发人员:罗小松,韦于评,
申请(专利权)人:重庆蚂蚁消费金融有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。