一种数据质量检查规则构建方法、存储介质及系统技术方案

技术编号:35654278 阅读:26 留言:0更新日期:2022-11-19 16:50
本发明专利技术提供一种数据质量检查规则构建方法、存储介质及系统,该方法包括如下步骤:获取用户针对各种数据标准类型分别预设的数据质量检查规则模板;从业务系统中采集用于描述业务数据的多个字段元数据及各个字段元数据的数据信息;对每个字段元数据,判断用户预设的多个数据标准当中是否存在与本字段元数据名称的文本相似度大于预设阈值且类型一致的数据标准,若存在则构建该数据标准与本字段元数据的映射关系;对已建立映射关系的字段元数据,根据与其建立映射关系的数据标准的实例得到条件参数;获取该数据标准所对应预设的数据质量规则模板作为SQL模板;根据条件参数、SQL模板和该字段元数据的数据信息构建数据质量检查规则的SQL实例。检查规则的SQL实例。检查规则的SQL实例。

【技术实现步骤摘要】
一种数据质量检查规则构建方法、存储介质及系统


[0001]本专利技术涉及数据处理
,特别涉及一种数据质量检查规则构建方法、存储介质及系统。

技术介绍

[0002]电网系统在运行时会产生大量的业务数据,这些业务数据能反映电网系统的运行状况,需采集后存储在业务系统中。目前通常会采用数据质量检查规则对业务系统中的业务数据进行质量检查,若有业务数据质量检查结果为异常,则工作人员需对异常的业务数据所对应的电网运行业务进行监控。在此过程中,对不同类型的业务数据需采用不同模板的数据质量检查规则进行质量检查,而对相同类型的业务数据,若其业务对象不同则需采用模板相同但参数不同的数据质量检查规则进行质量检查,但目前用于质量检查的多个数据质量检查规则通常是预先设定好的,而电网系统所产生的业务数据数量庞大且时刻变化,故难以确保为每项业务数据匹配到合适的数据质量检查规则进行质量检查。

技术实现思路

[0003]本专利技术要解决的技术问题是如何令给业务数据提供合适的数据质量检查规则进行质量检查。
[0004]为解决上述技术问题,本专利技术提供一种数据质量检查规则构建方法,包括如下步骤:
[0005]A.获取用户针对各种数据标准类型分别预设的数据质量检查规则模板,其中,所述数据标准类型包括数值类、编码类、文本类和日期类;
[0006]B.从业务系统中采集用于描述业务数据的多个字段元数据及各个字段元数据的数据信息,其中,所述数据信息包括名称信息、来源信息和数据类型信息;
[0007]C.对每个字段元数据,判断用户预设的多个数据标准当中是否存在与本字段元数据名称的文本相似度大于预设阈值且与本字段元数据类型一致的数据标准,若存在则构建该数据标准与本字段元数据的映射关系;
[0008]D.对已建立映射关系的字段元数据执行下述步骤D1、D2、D3:
[0009]——D1.根据与该字段元数据建立映射关系的数据标准的实例,得到待构建的数据质量检查规则的条件参数;
[0010]——D2.获取与该字段元数据建立映射关系的数据标准所对应预设的数据质量规则模板,作为待构建的数据质量检查规则的SQL模板;
[0011]——D3.利用SQL生成引擎,根据所述条件参数、所述SQL模板和该字段元数据的数据信息构建出数据质量检查规则的SQL实例。
[0012]优选地,所述步骤C中,对本字段元数据,先计算各个数据标准与本字段元数据名称的文本相似度,判断是否有数据标准与本字段元数据名称的文本相似度大于预设阈值,若有则再对比判断该数据标准与本字段元数据是否类型一致,若没有则不再对本字段元数
据进行类型判断。
[0013]优选地,所述步骤C中,若判断出用户预设的多个数据标准当中存在与本字段元数据名称的文本相似度大于预设阈值的数据标准,但判断出该数据标准与本字段元数据类型不一致,则不构建该数据标准与本字段元数据的映射关系。
[0014]优选地,所述步骤C中,所述预设阈值为80%。
[0015]优选地,所述步骤D3中,先将所述SQL模板分解成select子句、from子句和where子句,然后向所述select子句填充字段元数据的名称信息、向所述from子句填充字段元数据的来源信息,并向所述where子句填充条件参数,再将已填充的select子句、from子句和where子句组合成所述数据质量检查规则的SQL实例。
[0016]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据质量检查规则构建方法中的步骤。
[0017]本专利技术还提供一种数据质量检查规则构建系统,包括相互连接的计算机可读存储介质和处理器,计算机可读存储介质如上所述。
[0018]本专利技术具有以下有益效果:从业务系统中采集到业务数据的多个字段元数据及各个字段元数据的数据信息之后,对每个字段元数据,判断用户预设的多个数据标准当中是否存在与字段元数据名称的文本相似度大于预设阈值且与字段元数据类型一致的数据标准,若存在则意味着该数据标准适用于该字段元数据,故构建该数据标准与该字段元数据的映射关系,然后根据该数据标准的实例得到待构建的数据质量检查规则的条件参数,获取该数据标准所对应预设的数据质量规则模板作为待构建的数据质量检查规则的SQL模板,再根据该条件参数、该SQL模板和该字段元数据的数据信息构建出数据质量检查规则的SQL实例,即数据质量检查规则的SQL实例构建会依据用于描述业务数据的字段元数据,这样就算业务数据数量庞大且时刻变化,对各项业务数据,本专利技术都会依据业务数据的字段元数据构建出合适的数据质量检查规则的SQL实例,不会出现匹配不到合适的数据质量检查规则对业务数据进行质量检查的情况。
附图说明
[0019]图1是数据质量检查规则构建方法的流程示意图。
具体实施方式
[0020]以下结合具体实施方式对本专利技术创造作进一步详细说明。
[0021]本实施例提供一种数据质量检查规则构建系统,该系统包括相互连接的计算机可读存储介质和处理器,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如图1所示的数据质量检查规则构建方法,该方法具体包括如下步骤A、B、C、D。
[0022]A.获取用户针对各种数据标准类型分别预设的数据质量检查规则模板,其中,数据标准类型包括数值类、编码类、文本类和日期类。
[0023]数据标准包括数值类数据标准、编码类数据标准、文本类数据标准和日期类数据标准,即数据标准类型有数值类、编码类、文本类和日期类。针对这些数据标准类型,用户预设了相应的数据质量检查规则模板,例如用户预设了两个数据标准,分别为数据标准一和
数据标准二,具体地:
[0024]数据标准一是姓名长度,具体实例为length<=32,则数据标准一属于数值类数据标准,用户针对该数据标准一的类型(数值类)所预设的数据质量检查规则模板为“select${colName}from${tabName}where length<=${stdParam}”,其中,${colName}、${tabName}和${stdParam}是待填充参数;
[0025]数据标准二是生成日期,具体实例为form=YYYY

MM

DD,则数据标准二属于日期类数据标准,用户针对该数据标准二的类型(日期类)所预设的数据质量检查规则模板为“select${Date}from${tabName}where form=${stdParam}”,其中,${Date}、${tabName}和${stdParam}是待填充参数。
[0026]B.从业务系统中采集用于描述业务数据的多个字段元数据及各个字段元数据的数据信息,其中,数据信息包括名称信息、来源信息和数据类型信息。
[0027]本实施例中,业务系统存储有电网系统在运行时产生的大量业务数据,这些业务数据能反本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量检查规则构建方法,其特征是,包括如下步骤:A.获取用户针对各种数据标准类型分别预设的数据质量检查规则模板,其中,所述数据标准类型包括数值类、编码类、文本类和日期类;B.从业务系统中采集用于描述业务数据的多个字段元数据及各个字段元数据的数据信息,其中,所述数据信息包括名称信息、来源信息和数据类型信息;C.对每个字段元数据,判断用户预设的多个数据标准当中是否存在与本字段元数据名称的文本相似度大于预设阈值且与本字段元数据类型一致的数据标准,若存在则构建该数据标准与本字段元数据的映射关系;D.对已建立映射关系的字段元数据执行下述步骤D1、D2、D3:——D1.根据与该字段元数据建立映射关系的数据标准的实例,得到待构建的数据质量检查规则的条件参数;——D2.获取与该字段元数据建立映射关系的数据标准所对应预设的数据质量规则模板,作为待构建的数据质量检查规则的SQL模板;——D3.利用SQL生成引擎,根据所述条件参数、所述SQL模板和该字段元数据的数据信息构建出数据质量检查规则的SQL实例。2.根据权利要求1所述的数据质量检查规则构建方法,其特征是,所述步骤C中,对本字段元数据,先计算各个数据标准与本字段元数据名称的文本相似度,判断是否有数据标准与本字段元数据名称的文本相似度大于预设阈值...

【专利技术属性】
技术研发人员:钏涛唐力赵志宇董灿张莉娜
申请(专利权)人:云南电网有限责任公司信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1