一种基于知识谱图与机器学习的数据质量规则推荐方法技术

技术编号:36185591 阅读:15 留言:0更新日期:2022-12-31 20:48
本发明专利技术提供了一种基于知识谱图与机器学习的数据质量规则推荐方法,包括:获取历史数据质量规则数据集;基于历史数据质量规则数据集,生成数据质量规则知识图谱;根据数据质量规则知识图谱,获得数据质量规则与数据物理表的映射规律;根据所述映射规律,获取当前数据物理表所对应的当前数据质量规则数据集;基于预设的机器学习数据质量检查模型,生成数据质量检查方案;根据所述数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果;获取符合用户要求的数据质量检查结果,将该数据质量检查结果所对应的数据质量规则推荐给用户。本发明专利技术将多个规则组合形成物理表的质量检查方案,可有效提高数据质量检查方案的执行过程。案的执行过程。案的执行过程。

【技术实现步骤摘要】
一种基于知识谱图与机器学习的数据质量规则推荐方法


[0001]本专利技术涉及增强数据管理
,具体涉及一种基于知识谱图与机器学习的数据质量规则推荐方法。

技术介绍

[0002]数据质量是数据治理的核心关键,数据质量的好坏,能够决定数据分析结果的最终有效性,并将引导管理者作出相应决策。一旦数据质量恶劣,达不到要求和标准,必将对决策产生误导,甚至可能会对企业、社会与科学研究造成非常不利影响。但对于不同的数据,如何建立不同的质量规则,以及对那些物理表,该添加何种模式的规则,在实际工作时,通常是由数据管理人员结合质量计划生成。相对来说,管理周期较长,时效性较低,需要更加敏捷、智能的数据质量处理能力,帮助企业提高数据治理的效率。

技术实现思路

[0003]本专利技术提供了一种基于知识谱图与机器学习的数据质量规则推荐方法,根据数据物理表特征与级别、根据历史的数据质量规则与数据物理表的映射规律,将多个数据质量规则形成数据物理表的质量检查方案,可有效提高数据质量检查方案的执行过程。
[0004]一种基于知识谱图与机器学习的数据质量规则推荐方法,包括:
[0005]S1:获取历史数据质量规则数据集;
[0006]S2:基于历史数据质量规则数据集,生成数据质量规则知识图谱;
[0007]S3:根据数据质量规则知识图谱,获得数据质量规则与数据物理表的映射规律;根据所述映射规律,获取当前数据物理表所对应的当前数据质量规则数据集;
[0008]S4:基于预设的机器学习数据质量检查模型,生成数据质量检查方案;根据所述数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果;
[0009]S5:获取符合用户要求的数据质量检查结果,将该数据质量检查结果所对应的数据质量规则推荐给用户。
[0010]进一步地,S1包括:
[0011]S101:设置历史数据质量规则对数据质量进行校核的校核效果值;所述校核效果值为衡量数据质量规则对数据质量进行校核的标量参数;
[0012]S102:比较全部历史数据质量规则的校核效果值与预设校核效果值的大小;将校核效果值大于预设校核效果值的历史数据质量规则保留,生成第一历史数据质量规则数据集;
[0013]S103:将校核效果值小于等于预设校核效果值的历史数据质量规则进行汇总,生成第二历史数据质量规则数据集;
[0014]S104:获取备用历史数据质量规则数据库,根据预设的备用匹配条件,获取与第二历史数据质量规则数据集相匹配的第三历史数据质量规则数据集;
[0015]S105:汇总第一历史数据质量规则数据集和第三历史数据质量规则数据集,生成
历史数据质量规则数据集。
[0016]进一步地,S2包括:
[0017]S201:对历史数据质量规则数据集中的历史数据质量规则逐一编码,生成数据质量规则编码数据集;
[0018]S202:基于数据质量规则编码数据集,获取实体、实体之间的关系以及实体的属性;
[0019]S203:根据实体、实体之间的关系以及实体的属性,生成实体

实体关系

实体属性的三元组结构化数据集;
[0020]S204:处理三元组结构化数据集,生成数据质量规则知识图谱。
[0021]进一步地,S3包括:
[0022]S301:根据数据质量规则知识图谱,获取数据质量规则与数据物理表的映射规律;
[0023]S302:获取当前数据的物理表特征与级别,基于数据质量规则与数据物理表的映射规律,获得与数据物理表相映射的映射数据质量规则;
[0024]S303:汇总所述映射数据质量规则,获得当前数据质量规则数据集。
[0025]进一步地,S4包括:
[0026]S401:将当前数据质量规则数据集划分为训练数据集和测试数据集;
[0027]S402:构建基于逻辑回归的机器学习模型,采用训练数据集训练该机器学习模型,并采用测试数据集测试机器学习模型;
[0028]S403:基于测试过的机器学习模型,结合数据物理表特征,生成数据质量检查方案;
[0029]S404:利用数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果。
[0030]进一步地,S403包括:
[0031]S4031:所述数据质量检查方案包括多个独立、且可以删减的子方案,所述子方案根据用户的使用要求进行删减处理;
[0032]S4032:执行步骤S4031后,删减处理后的子方案归入预设的闲置方案库,以备误删或再次使用时进行调用。
[0033]进一步地,S5包括:
[0034]S501:将数据质量检查结果与预设的检查结果阈值进行比较,若数据质量检查结果大于预设的检查结果阈值,则标记所述数据质量检查结果对应的数据质量规则,生成标记数据质量规则;
[0035]S502:基于预设的评估方法,对标记数据质量规则进行准确率评估;所述评估方法包括设置准确率阈值以及阈值的浮动区间范围,判断准确率与准确率阈值的差值是否位于所述浮动区间范围内;
[0036]S503:将准确率位于所述浮动区间范围内的数据质量规则推荐给用户。
[0037]进一步地,S402包括测量机器学习模型识别的准确度,具体步骤为:
[0038]S4021:获取正确识别目标类别的第一数据数量;
[0039]S4022:获取被错误识别为目标类别的第二数据数量;
[0040]S4023:获取正确识别为非目标类别的第三数据数量;
[0041]S4024:获取被错误识别为非目标类别的第四数据数量;
[0042]S4025:对第一数据数量、第三数据数量求和计算,得到正确识别数据数量总和;对第一数据数量、第二数据数量、第三数据数量、第四数据数量求和计算,得到全部识别数据数量总和;对正确识别数据数量总和、全部识别数据数量总和求商计算,得到机器学习模型识别的准确度。
[0043]进一步地,还包括S6,生成数据质量检查报告:
[0044]S601:获取衡量数据质量的一个或多个核检维度,以及相对应的核检维度标准;
[0045]S602:根据核检维度标准和历史数据质量规则,生成第一核检维度报告模板;
[0046]S603:根据预设的指导决策评价条件对核检维度报告模板进行衡量,生成第一评价值;根据预设的追溯效果评价条件对检维度报告模板进行衡量,生成第二评价值;将第一评价值大于预设第一评价值阈值,并且第二评价值大于第二预设评价值阈值的核检维度报告模板保留,生成第二核检维度报告模板;
[0047]S604:基于第二核检维度报告模板,生成单维度单项报告模板;汇总多个第二核检维度报告模板,生成多维度综合报告模板;
[0048]S605:利用推荐给用户的数据质量规则,代入单维度单项报告模板或多维度综合报告模板,生成单项数据质量检查报告或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,包括:S1:获取历史数据质量规则数据集;S2:基于历史数据质量规则数据集,生成数据质量规则知识图谱;S3:根据数据质量规则知识图谱,获得数据质量规则与数据物理表的映射规律;根据所述映射规律,获取当前数据物理表所对应的当前数据质量规则数据集;S4:基于预设的机器学习数据质量检查模型,生成数据质量检查方案;根据所述数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果;S5:获取符合用户要求的数据质量检查结果,将该数据质量检查结果所对应的数据质量规则推荐给用户。2.根据权利要求1所述的一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,S1包括:S101:设置历史数据质量规则对数据质量进行校核的校核效果值;所述校核效果值为衡量数据质量规则对数据质量进行校核的标量参数;S102:比较全部历史数据质量规则的校核效果值与预设校核效果值的大小;将校核效果值大于预设校核效果值的历史数据质量规则保留,生成第一历史数据质量规则数据集;S103:将校核效果值小于等于预设校核效果值的历史数据质量规则进行汇总,生成第二历史数据质量规则数据集;S104:获取备用历史数据质量规则数据库,根据预设的备用匹配条件,获取与第二历史数据质量规则数据集相匹配的第三历史数据质量规则数据集;S105:汇总第一历史数据质量规则数据集和第三历史数据质量规则数据集,生成历史数据质量规则数据集。3.根据权利要求2所述的一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,S2包括:S201:对历史数据质量规则数据集中的历史数据质量规则逐一编码,生成数据质量规则编码数据集;S202:基于数据质量规则编码数据集,获取实体、实体之间的关系以及实体的属性;S203:根据实体、实体之间的关系以及实体的属性,生成实体

实体关系

实体属性的三元组结构化数据集;S204:处理三元组结构化数据集,生成数据质量规则知识图谱。4.根据权利要求1所述一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,S3包括:S301:根据数据质量规则知识图谱,获取数据质量规则与数据物理表的映射规律;S302:获取当前数据的物理表特征与级别,基于数据质量规则与数据物理表的映射规律,获得与数据物理表相映射的映射数据质量规则;S303:汇总所述映射数据质量规则,获得当前数据质量规则数据集。5.根据权利要求1所述一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,S4包括:S401:将当前数据质量规则数据集划分为训练数据集和测试数据集;S402:构建基于逻辑回归的机器学习模型,采用训练数据集训练该机器学习模型,并采
用测试数据集测试机器学习模型;S403:基于测试过的机器学习模型,结合数据物理表特征,生成数据质量检查方案;S404:利用数据质量检查方案,检查当前数据质量规则数据集,获得数据物理表质量检查结果。6.根据权利要求5所述一种基于知识谱图与机器学习的数据质量规则推荐方法,其特征在于,S403包括:S4031:所述数据质量检查方案包括多个独...

【专利技术属性】
技术研发人员:金震张京日穆宇浩
申请(专利权)人:北京三维天地科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1