【技术实现步骤摘要】
实时数据清洗方法、系统、电子设备和存储介质
本申请涉及数据处理
,特别是涉及实时数据清洗的方法、系统、电子设备和存储介质。
技术介绍
当今数据时代,大数据的海量接入给平台兼容使用各种结构的数据产生大量挑战。显然,对数据的清洗(ETL)与治理显得尤为重要。随着数据源的增加及数据源结构的多样性,需要有针对的应对各种结构的数据源,进行取值(Extract),转换(Transform),传输或加载(Load),按照既定的规则进行数据转换,传输到下一流程当中。然而在实际生产中,ETL程序服务不会随意终止服务,进行规则的升级与加载,目前针对相关技术中无法实时进行数据清洗的问题,尚未提出有效对的解决方案。
技术实现思路
本申请实施例提供了一种动态更新实时数据清洗ETL规则的方法、系统、电子设备和存储介质,无需停止实时处理任务,仅通过修改设置好的ETL规则池,来进行新增或变更数据的处理,无需修改流程或数据处理代码,以至少解决相关技术中无法实施进行数据清理的问题。第一方面,本申请实施例提供了一 ...
【技术保护点】
1.一种实时数据清洗的方法,其特征在于,包括:/n识别字段获得步骤,分析并获得待新增的数据结构的唯一识别字段;/n规则更新步骤,将新增的所述数据结构对应的ETL清洗规则编写成处理脚本并放入ETL规则池中,所述ETL清洗规则对应所述唯一识别字段;/n规则同步步骤,一数据处理程序每隔一设定时间从所述ETL规则池拉取新增或更新的所述ETL清洗规则;/n数据清洗步骤,所述数据处理程序接收一数据,根据对应所述唯一识别字段选取对应所述ETL清洗规则,并据此清洗所述数据。/n
【技术特征摘要】
1.一种实时数据清洗的方法,其特征在于,包括:
识别字段获得步骤,分析并获得待新增的数据结构的唯一识别字段;
规则更新步骤,将新增的所述数据结构对应的ETL清洗规则编写成处理脚本并放入ETL规则池中,所述ETL清洗规则对应所述唯一识别字段;
规则同步步骤,一数据处理程序每隔一设定时间从所述ETL规则池拉取新增或更新的所述ETL清洗规则;
数据清洗步骤,所述数据处理程序接收一数据,根据对应所述唯一识别字段选取对应所述ETL清洗规则,并据此清洗所述数据。
2.根据权利要求1所述的实时数据清洗的方法,其特征在于,所述ETL清洗规则基于对应所述数据结构根据数据供应方的自身需求制定并存入一文件系统中。
3.根据权利要求2所述的实时数据清洗的方法,其特征在于,所述数据清洗步骤具体包括:
通过一代码脚本从一消息阵列中获取所述数据,并根据其对应所述唯一识别字段从所述文件系统中读取所述ETL清洗规则,据此清洗所述数据后,将清洗结果存入一数据库。
4.根据权利要求1所述的实时数据清洗的方法,其特征在于,所述数据处理程序设置在Flink实时流计算框架下,所述ETL清洗规则存入HDFS文件系统,所述数据处理程序每隔一设定时间从所述HDFS文件系统中拉取或更新所述ETL清洗规则。
5.一种实时数据清洗的系统,应用上述权利要求1-4任意一项所述的方法,其特征在于,包括:
识别字段获得模块,分析并获得待新增的数据结构的唯一识别字段;
规则更新模块,将新增的所述数据结构对应的ETL...
【专利技术属性】
技术研发人员:佘曼曼,
申请(专利权)人:恩亿科北京数据科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。