基于自定义规则的ETL任务失败平台处理方法及系统技术方案

技术编号:29303734 阅读:11 留言:0更新日期:2021-07-17 01:37
基于自定义规则的ETL任务失败平台处理方法及系统,对数据源的质量进行评估,预设所述数据源的融合策略,所述数据源的融合策略包括:只补全但不能新增、只新增但不能修改、新增且能补全和新增且能修改;根据客户字段的特性制定客户字段的融合策略,所述客户字段的融合策略包括只新增但不能修改、只补全但不能更新、只更新但不能被清空和完全更新。本发明专利技术对各个数据源进行质量评估,保证数据在融合后的质量,避免低质的数据源将高质的数据源的数据覆盖,确保数据的质量,减少人力介入,且能够对已有客户数据特殊字段进行保护。已有客户数据特殊字段进行保护。已有客户数据特殊字段进行保护。

【技术实现步骤摘要】
基于自定义规则的ETL任务失败平台处理方法及系统


[0001]本专利技术涉及大数据处理
,具体涉及一种基于自定义规则的ETL任务失败平台处理方法及系统。

技术介绍

[0002]目前,ETL任务用于定义数据的抽取,转换及装载规则。而ETL任务调度用于控制ETL任务的启动运行(启动时间、运行周期及触发条件),实现数据的传输转换操作。ETL调度按照功能复杂度分为简单定时调度和工作流调度二种方式,定时调度用于控制ETL任务按照某一时间属性周期运行,如在每个工作日的19点启动交易数据采集任务或每月1号启动报表数据汇总任务。工作流调度采用模块化方法对ETL过程涉及的各个环节进行协同管理,将ETL整个过程分解为多个数据处理子任务。
[0003]现有的多数据源客户数据融合的方法,主要在各个数据源中抽取需要的字段,配置好相关的映射后数据统一进入数据湖中。各个数据源缺乏质量评估,不能保证数据在融合后的质量,存在低质的数据源将高质的数据源的数据覆盖的问题。为了确保数据的质量,需要大量的人力介入。没有对数据源的质量做出评估。低质量的数据,可能会覆盖高质量的数据。缺少针对系统中已有客户数据特殊字段的保护措施。

技术实现思路

[0004]为此,本专利技术提供一种基于自定义规则的ETL任务失败平台处理方法及系统,以解决现有技术中不能保证数据在融合后的质量,存在低质的数据源将高质的数据源的数据覆盖,及对已有客户数据特殊字段缺少保护措施的问题。
[0005]为了实现上述目的,本专利技术提供如下技术方案:基于自定义规则的ETL任务失败平台处理方法,包括以下步骤:
[0006]对数据源的质量进行评估,预设所述数据源的融合策略,所述数据源的融合策略包括:只补全但不能新增、只新增但不能修改、新增且能补全和新增且能修改;
[0007]根据客户字段的特性制定客户字段的融合策略,所述客户字段的融合策略包括只新增但不能修改、只补全但不能更新、只更新但不能被清空和完全更新。
[0008]作为基于自定义规则的ETL任务失败平台处理方法的优选方案,当所述数据源的数据质量低于预设指标时,执行所述只补全但不能新增的数据源的融合策略。
[0009]作为基于自定义规则的ETL任务失败平台处理方法的优选方案,当所述数据源的数据质量低于已有数据时,执行所述只新增但不能修改的数据源的融合策略。
[0010]作为基于自定义规则的ETL任务失败平台处理方法的优选方案,所述新增且能补全的数据源的融合策略为:只补充缺少的数据字段内容,不允许覆盖存在数据的字段内容。
[0011]作为基于自定义规则的ETL任务失败平台处理方法的优选方案,当所述数据源的数据质量高于预设指标时,执行所述新增且能修改的数据源的融合策略。
[0012]作为基于自定义规则的ETL任务失败平台处理方法的优选方案,所述只新增但不
能修改的客户字段的融合策略为:数据字段只能在进入系统时设定,当数据字段确定后不能被执行数据更新和清除。
[0013]作为基于自定义规则的ETL任务失败平台处理方法的优选方案,所述只补全但不能更新的客户字段的融合策略为:数据字段如果缺少或空值时,允许被指定数据补全,数据字段有值时不能被更新。
[0014]作为基于自定义规则的ETL任务失败平台处理方法的优选方案,所述只更新但不能被清空的客户字段的融合策略为:数据字段允许被更新和补全,但数据字段不允许被清空。
[0015]作为基于自定义规则的ETL任务失败平台处理方法的优选方案,所述完全更新的客户字段的融合策略为:数据字段允许清空或更新。
[0016]本专利技术还提供一种基于自定义规则的ETL任务失败平台处理系统,采用上述的基于自定义规则的ETL任务失败平台处理方法,包括:
[0017]数据源融合单元,用于对数据源的质量进行评估,预设所述数据源的融合策略,所述数据源的融合策略包括:只补全但不能新增、只新增但不能修改、新增且能补全和新增且能修改;
[0018]客户字段融合单元,用于根据客户字段的特性制定客户字段的融合策略,所述客户字段的融合策略包括只新增但不能修改、只补全但不能更新、只更新但不能被清空和完全更新。
[0019]本专利技术具有如下优点:对数据源的质量进行评估,预设所述数据源的融合策略,所述数据源的融合策略包括:只补全但不能新增、只新增但不能修改、新增且能补全和新增且能修改;根据客户字段的特性制定客户字段的融合策略,所述客户字段的融合策略包括只新增但不能修改、只补全但不能更新、只更新但不能被清空和完全更新。本专利技术对各个数据源进行质量评估,保证数据在融合后的质量,避免低质的数据源将高质的数据源的数据覆盖,确保数据的质量,减少人力介入,且能够对已有客户数据特殊字段进行保护。
附图说明
[0020]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
[0021]本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
能涵盖的范围内。
[0022]图1为本专利技术实施例中提供的基于自定义规则的ETL任务失败平台处理方法示意图;
[0023]图2为本专利技术实施例中提供的基于自定义规则的ETL任务失败平台处理流程示意图;
[0024]图3为本专利技术实施例中提供的基于自定义规则的ETL任务失败平台处理系统流程
示意图。
具体实施方式
[0025]以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]实施例1
[0027]参见图1和图2,提供一种基于自定义规则的ETL任务失败平台处理方法,包括以下步骤:
[0028]S1、对数据源的质量进行评估,预设所述数据源的融合策略,所述数据源的融合策略包括:只补全但不能新增、只新增但不能修改、新增且能补全和新增且能修改;
[0029]S2、根据客户字段的特性制定客户字段的融合策略,所述客户字段的融合策略包括只新增但不能修改、只补全但不能更新、只更新但不能被清空和完全更新。
[0030]本实施例中,当所述数据源的数据质量低于预设指标时,执行所述只补全但不能新增的数据源的融合策略。将数据源的融合策略只补全但不能新增定义为规则1,当数据源质量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自定义规则的ETL任务失败平台处理方法,其特征在于,包括以下步骤:对数据源的质量进行评估,预设所述数据源的融合策略,所述数据源的融合策略包括:只补全但不能新增、只新增但不能修改、新增且能补全和新增且能修改;根据客户字段的特性制定客户字段的融合策略,所述客户字段的融合策略包括只新增但不能修改、只补全但不能更新、只更新但不能被清空和完全更新。2.根据权利要求1所述的基于自定义规则的ETL任务失败平台处理方法,其特征在于,当所述数据源的数据质量低于预设指标时,执行所述只补全但不能新增的数据源的融合策略。3.根据权利要求2所述的基于自定义规则的ETL任务失败平台处理方法,其特征在于,当所述数据源的数据质量低于已有数据时,执行所述只新增但不能修改的数据源的融合策略。4.根据权利要求3所述的基于自定义规则的ETL任务失败平台处理方法,其特征在于,所述新增且能补全的数据源的融合策略为:只补充缺少的数据字段内容,不允许覆盖存在数据的字段内容。5.根据权利要求4所述的基于自定义规则的ETL任务失败平台处理方法,其特征在于,当所述数据源的数据质量高于预设指标时,执行所述新增且能修改的数据源的融合策略。6.根据权利要求5所述的基于自定义规则的ETL任务失败平台处理方法,其特征在于,所述只新...

【专利技术属性】
技术研发人员:孟艳冬李武卿
申请(专利权)人:赛诺数据科技南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1