数据标准中数据约束条件推荐方法及系统技术方案

技术编号:35601409 阅读:12 留言:0更新日期:2022-11-16 15:22
本申请公开了一种数据标准中数据约束条件推荐方法及系统,用以解决数据约束条件推荐处理效率较低的技术问题。其中,一种数据约束条件推荐方案,通过比较目标数据的属性类型与对比数据的属性类型、比较目标数据的频数分布与对比数据的频数分布,找到与目标数据相似的对比数据,从而确定目标数据的推荐数据约束条件,使得本申请提供的技术方案不再依赖于根据数据的元数据进行数据约束条件匹配,提高了数据约束的自动化水平和约束效率。据约束的自动化水平和约束效率。据约束的自动化水平和约束效率。

【技术实现步骤摘要】
数据标准中数据约束条件推荐方法及系统


[0001]本申请涉及数据处理
,尤其涉及一种数据标准中数据约束条件推荐方法及系统。

技术介绍

[0002]随着越来越多的企业进行数字化转型之路,数字化企业在日常的信息化管理中引入了数据治理理念,利用数据对业务赋能,以提升管理效率。
[0003]数据治理过程中的一项重要工作是为每个数据指标生成对应的数据标准,然后利用数据标准来对数据指标进行约束和规范化。随着企业信息系统的数量增加以及数据量的持续增长,企业在数据治理过程中为数据指标梳理数据标准的工作负担越来越大。
[0004]在实现现有技术的过程中,专利技术人发现:
[0005]现有技术中为数据指标生成数据标准的流程是:建立统一的数据标准库,创建数据标准;为数据指标生成元数据;利用元数据属性和数据标准属性进行比对,将比对匹配度较高的数据标准作为对应的数据指标的候选数据标准,经过人工确认后得到数据指标的数据标准。
[0006]传统方法中的一个重要环节是为数据指标生成元数据属性,目前主要依赖人工设置数据指标的元数据属性。如果数据指标没有设置元数据,现有方法将无法正常工作。在数据指标数量巨大的情况下,这种元数据属性生成方法费时费力,在一定程度上限制了生成数据标准的工作效率。
[0007]因此,需要提供一种新的数据约束条件推荐方案,用以解决数据约束条件推荐效率较低的技术问题。

技术实现思路

[0008]本申请实施例提供一种新的数据约束条件推荐方案,用以解决数据约束条件推荐效率较低的技术问题。
[0009]具体的,一种数据标准中数据约束条件推荐方法,包括以下步骤:
[0010]在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布;
[0011]在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布;
[0012]当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
[0013]当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
[0014]确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据;
[0015]根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。
[0016]进一步的,当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:
[0017]当目标数据的属性类型与对比数据的属性类型同为分类数据类型,采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
[0018]进一步的,当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:
[0019]当目标数据的属性类型与对比数据的属性类型同为非整数数值数据类型,采用柯尔莫哥洛夫

斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
[0020]进一步的,当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:
[0021]当目标数据的属性类型与对比数据的属性类型同为整数数值数据类型,采用柯尔莫哥洛夫

斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第一检验结果;
[0022]采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第二检验结果;
[0023]确定第一检验结果与第二检验结果中数值最高的检验结果作为相似度评估结果。
[0024]进一步的,所述方法应用于推荐数据标准;
[0025]所述目标数据为数据指标。
[0026]本申请实施例还提供一种数据标准中数据约束条件推荐系统。
[0027]具体的,一种数据标准中数据约束条件推荐系统,包括:
[0028]获取模块,用于在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布;还用于在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布;
[0029]评估模块,用于当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;还用于当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;
[0030]推荐模块,用于确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据;还用于根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。
[0031]进一步的,所述评估模块用于当目标数据的属性类型与对比数据的属性类型同为
第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体用于:
[0032]当目标数据的属性类型与对比数据的属性类型同为分类数据类型,采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
[0033]进一步的,所述评估模块用于当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体用于:
[0034]当目标数据的属性类型与对比数据的属性类型同为非整数数值数据类型,采用柯尔莫哥洛夫

斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。
[0035]进一步的,所述评估模块用于当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标准中数据约束条件推荐方法,其特征在于,包括以下步骤:在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布;在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布;当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据;根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。2.如权利要求1所述的方法,其特征在于,当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:当目标数据的属性类型与对比数据的属性类型同为分类数据类型,采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。3.如权利要求2所述的方法,其特征在于,当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:当目标数据的属性类型与对比数据的属性类型同为非整数数值数据类型,采用柯尔莫哥洛夫

斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。4.如权利要求2所述的方法,其特征在于,当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:当目标数据的属性类型与对比数据的属性类型同为整数数值数据类型,采用柯尔莫哥洛夫

斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第一检验结果;采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第二检验结果;确定第一检验结果与第二检验结果中数值最高的检验结果作为相似度评估结果。5.如权利要求1所述的方法,其特征在于,所述方法应用于推荐数据标准;所述目标数据为数据指标。6.一种数据标准中数据约束条件推荐系统,其特征在于,包括:获取模...

【专利技术属性】
技术研发人员:毛大群罗中孙松涛左名才金正平
申请(专利权)人:北京亿信华辰软件有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1