【技术实现步骤摘要】
数据标准中数据约束条件推荐方法及系统
[0001]本申请涉及数据处理
,尤其涉及一种数据标准中数据约束条件推荐方法及系统。
技术介绍
[0002]随着越来越多的企业进行数字化转型之路,数字化企业在日常的信息化管理中引入了数据治理理念,利用数据对业务赋能,以提升管理效率。
[0003]数据治理过程中的一项重要工作是为每个数据指标生成对应的数据标准,然后利用数据标准来对数据指标进行约束和规范化。随着企业信息系统的数量增加以及数据量的持续增长,企业在数据治理过程中为数据指标梳理数据标准的工作负担越来越大。
[0004]在实现现有技术的过程中,专利技术人发现:
[0005]现有技术中为数据指标生成数据标准的流程是:建立统一的数据标准库,创建数据标准;为数据指标生成元数据;利用元数据属性和数据标准属性进行比对,将比对匹配度较高的数据标准作为对应的数据指标的候选数据标准,经过人工确认后得到数据指标的数据标准。
[0006]传统方法中的一个重要环节是为数据指标生成元数据属性,目前主要依赖人工设置数据指标的元数据属性。如果数据指标没有设置元数据,现有方法将无法正常工作。在数据指标数量巨大的情况下,这种元数据属性生成方法费时费力,在一定程度上限制了生成数据标准的工作效率。
[0007]因此,需要提供一种新的数据约束条件推荐方案,用以解决数据约束条件推荐效率较低的技术问题。
技术实现思路
[0008]本申请实施例提供一种新的数据约束条件推荐方案,用以解决数据约束条件推荐效率较 ...
【技术保护点】
【技术特征摘要】
1.一种数据标准中数据约束条件推荐方法,其特征在于,包括以下步骤:在第一数据库中获取目标数据,确定目标数据的属性类型、目标数据的频数分布;在不同于第一数据库、存储对比数据与数据约束条件映射关系的第二数据库中获取对比数据,确定对比数据的属性类型、对比数据的频数分布;当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果;确定相似度评估结果大于第一预设阈值的对比数据,作为相似对比数据;根据对比数据与数据约束条件映射关系,确定相似对比数据的数据约束条件,作为推荐数据约束条件。2.如权利要求1所述的方法,其特征在于,当目标数据的属性类型与对比数据的属性类型同为第一属性类型,根据第一相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:当目标数据的属性类型与对比数据的属性类型同为分类数据类型,采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。3.如权利要求2所述的方法,其特征在于,当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:当目标数据的属性类型与对比数据的属性类型同为非整数数值数据类型,采用柯尔莫哥洛夫
‑
斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成的检验结果作为相似度评估结果。4.如权利要求2所述的方法,其特征在于,当目标数据的属性类型与对比数据的属性类型同为第二属性类型,根据不同于第一相似度评估策略的第二相似度评估策略,对目标数据的频数分布与对比数据的频数分布进行相似度评估,生成相似度评估结果,具体包括:当目标数据的属性类型与对比数据的属性类型同为整数数值数据类型,采用柯尔莫哥洛夫
‑
斯米尔诺夫检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第一检验结果;采用皮尔逊卡方检验算法,对目标数据的频数分布与对比数据的频数分布进行同分布检验,生成第二检验结果;确定第一检验结果与第二检验结果中数值最高的检验结果作为相似度评估结果。5.如权利要求1所述的方法,其特征在于,所述方法应用于推荐数据标准;所述目标数据为数据指标。6.一种数据标准中数据约束条件推荐系统,其特征在于,包括:获取模...
【专利技术属性】
技术研发人员:毛大群,罗中,孙松涛,左名才,金正平,
申请(专利权)人:北京亿信华辰软件有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。