数据清洗方法、装置、电子设备及介质制造方法及图纸

技术编号:37344324 阅读:30 留言:0更新日期:2023-04-22 21:36
本发明专利技术公开了一种数据清洗方法、装置、电子设备及介质,涉及计算机技术领域。该方法包括:接收规则配置信息,并基于所述规则配置信息,生成规则配置文件;监听所述规则配置文件,以确定所述规则配置文件是否发生变更;在确定所述规则配置文件发生变更的情况下,基于变更的所述规则配置文件,更新本地规则池中的可执行规则;根据所述本地规则池中的可执行规则进行数据清洗,以执行数据清洗任务。该实施方式实现了动态监听数据清洗规则的变更,实现了在不重启数据清洗任务的情况下更新数据清洗任务,即实现了零延迟动态更新实时任务的目的,保证了实时任务的安全性、可靠性和实时性。可靠性和实时性。可靠性和实时性。

【技术实现步骤摘要】
数据清洗方法、装置、电子设备及介质


[0001]本专利技术涉及计算机
,尤其涉及一种数据清洗方法、装置、电子设备及介质。

技术介绍

[0002]Apache Flink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。Flink通常被用来处理流式数据,有着众多的应用场景,例如时延敏感的实时监控报警、实时风控等业务场景。这些场景通常会涉及到实时任务的更新,若在任务启动初始化后更新任务,则需要停止任务、改变启动参数(即变更代码)、重启任务以让任务能够读取到修改后的配置。然而,实时任务重启会造成数据积压,数据积压会导致数据延迟,在数据实时性要求高的场景下影响重大。例如,在实时监控报警、实时风控等业务场景下,短暂的停止会造成监控报警不及时、风险感知延迟等重大问题,因此,在不重启实时任务的前提下实现更新显得尤为重要。

技术实现思路

[0003]为解决上述技术问题或至少部分地解决上述技术问题,本专利技术实施例提供一种数据清洗方法、装置、电子本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:接收规则配置信息,并基于所述规则配置信息,生成规则配置文件;监听所述规则配置文件,以确定所述规则配置文件是否发生变更;在确定所述规则配置文件发生变更的情况下,基于变更的所述规则配置文件,更新本地规则池中的可执行规则;根据所述本地规则池中的可执行规则进行数据清洗,以执行数据清洗任务。2.根据权利要求1所述的方法,其特征在于,所述规则配置信息包括以下一种或多种:数据过滤条件、数据输出主题和规则标识,其中,所述数据输出主题用于指示基于所述数据过滤条件过滤出的数据的存放位置。3.根据权利要求1所述的方法,其特征在于,所述接收规则配置信息,包括:响应于任务选择操作,确定待更新的数据清洗任务;接收针对于所述待更新的数据清洗任务的规则配置信息。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述规则配置文件下发至zookeeper规则配置中心;所述监听所述规则配置文件,以确定所述规则配置文件是否发生变更,包括:监听所述zookeeper规则配置中心,以确定所述zookeeper规则配置中心内的规则配置文件是否发生变更。5.根据权利要求4所述的方法,其特征在于,所述监听所述zookeeper规则配置中心,包括:通过curator监听的方式监听所述zookeeper规则配置中心。6.根据权利要求1或3所述的方法,其特征在于,所述在确定所述规则配置文件发生变更的...

【专利技术属性】
技术研发人员:张明哲魏丫丫仲籽彦洪迪聂延闯
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1