基于数据质量检测规则挖掘结果的进一步挖掘方法技术

技术编号:20842285 阅读:28 留言:0更新日期:2019-04-13 08:43
本发明专利技术提供了一种基于数据质量检测规则挖掘结果的进一步挖掘方法,属于数据挖掘技术领域。本发明专利技术通过定义数据质量检测规则的表达形式,自动发现出数据表中属性之间的数据质量检测规则,并在此基础上进一步挖掘属性值中隐藏的具体关系或信息,进而在提升数据质量的同时为数据使用者做出相应决策提供依据。本发明专利技术有效地挖掘出了属性之间存在的数据质量检测规则,减少了领域专家设计、配置数据质量检测规则的工作量,提高了工作效率,并且提取出了隐藏在数据值背后的相关规律,为数据使用者做出相应的决策提供了强有力的数据支撑。

【技术实现步骤摘要】
基于数据质量检测规则挖掘结果的进一步挖掘方法
本专利技术属于数据挖掘
,特别涉及一种基于数据质量检测规则挖掘结果的进一步挖掘方法。
技术介绍
在数据呈爆炸性增长的今天,所有的数据都有一定程度的质量。数据质量(DataQuality)指的是在业务环境中,数据满足用户需求的程度以及在完整性、有效性、一致性等方面的完善程度。数据质量检测规则是检测数据质量的关键,是一种使用语义、语法等限定方法对数据、知识和业务范围进行限制的方式。自动发现数据质量检测规则可以减少领域专家设计、配置数据质量检测规则的周期,减少领域专家的工作量,提高工作效率,加快数据质量的建设进程。随着组织对数据质量建设的重视,对数据质量检测规则的挖掘也越来越具有发展潜力,但是如何在数据质量检测规则挖掘结果的基础上再进一步地挖掘出数据值背后所潜藏的规律,成为了一个新的发展方向。目前虽然已有一些对数据质量检测规则进行挖掘的方法,但并未在挖掘结果之上做进一步的研究,因此对于数据所潜在的应用价值也未进行充分地利用,未能从数据中提炼出潜在的发展规律,从长远的发展角度来看,未能很好地适应当前结合人工智能技术进行持续发展的现状和要求。
技术实现思路
本专利技术的目的在于通过进行数据质量检测规则的挖掘,在挖掘结果的基础上分析、提炼出属性值之间潜藏的规律,为决策者进行相应的决策调整提供强有力的数据支撑。一种基于数据质量检测规则挖掘结果的进一步挖掘方法,包括以下步骤:S1、挖掘数据质量检测规则;S2、根据挖掘结果,得到M字段和N字段的关联关系,将M字段和N字段的字段值进行聚类,对聚类结果中每一簇的特征进行转换,并标记各簇的特征。进一步地,所述步骤S1包括以下流程:R为关系模式,R的一实例为r,attr(R)为关系模式R的所有属性的集合,X为关系模式R的一属性子集,A为关系模式R的单个属性,tp为包含了X和A中属性的模式元组,挖掘到的数据质量检测规则的表达形式为CFD:(X→A,tp)。进一步地,所述步骤S1中挖掘数据质量检测规则的过程包括以下流程:S11、扫描数据库,在所述关系模式R中通过将所有先行值(即X→A中的X)集合建模得到属性包含格,搜索时,先考虑所有由单个属性组成的节点,再逐次考虑多属性组成的节点,直到达到(n-1)级,其中,n为关系模式R中的属性个数;S12、为本层各节点(X,tp)计算其C+(X,tp),其中,C+(X,tp)={(A,CA)};判断本层各个(X,tp)是否有相应的CFD:(X\{A}→A,tp[X\{A}]||tp[A])成立,若CFD成立,则修改本层中所有比节点(X,tp)更具体的(X,Up)的C+(X,Up),从C+(X,Up)中除去节点(A,CA)及(B,CB),其中B属于关系模式R上去除了属性集X的属性集;S13、检查本层各个(X,tp),若C+(X,tp)为空,则剪去(X,tp);S14、若两节点(X,sp)、(Y,tp)的前缀相同,,即X与Y、sp与tp各自的前k-1个值对应相同,则为Lk+1层生成新节点(Z,Up)=(XUY[k],spUtp[k]),并令Lk=Lk+1,直至Lk+1为空集。进一步地,所述步骤S2包括以下流程:S21、根据所述步骤S1的挖掘结果,提取具有关联关系的M字段和N字段,对其中一个字段进行数据列剖析,得到该列字段值中存在的不同值个数,以此作为聚类的簇数m;S22、判断M字段和N字段中是否存在中文,若存在中文,则以数值编码的方式将中文转换为数值进行表示,将两字段的字段值按行取出存入集合中;S23、进行聚类,创建初始划分,从数据集中随机选择m个对象,每个对象初始代表一个簇中心;对于除簇中心m个对象以外的其它对象,计算其与每个簇中心的距离,将其划入到距离最近的簇,采用欧几里得距离公式计算距离;采用迭代的方法,当有新的对象加入簇或已有对象离开簇的时候,重新计算簇中心的值,对对象进行重新分配;直到各簇中对象不再变化,迭代结束,得到聚类结果;S24,对聚类结果中每一个簇的特征进行转换,将数值与对应的中文值进行映射,并标记各簇的特征。本专利技术的有益效果:本专利技术提供了一种基于数据质量检测规则挖掘结果的进一步挖掘方法,本专利技术从数据质量检测规则挖掘结果出发,在挖掘结果的基础上分析、提炼,从数据值中发现出潜在的知识与规律,为数据管理者做出决策提供强有力的数据支撑。附图说明图1为本专利技术实施例的流程图。具体实施方式下面结合附图对本专利技术的实施例做进一步的说明。请参阅图1,本专利技术提出的一种基于数据质量检测规则挖掘结果的进一步挖掘方法,通过以下步骤实现:S1、挖掘数据质量检测规则。本实施例中,R为关系模式,R的一实例为r,attr(R)为关系模式R的所有属性的集合,X为关系模式R的一属性子集,A为关系模式R的单个属性,tp为包含了X和A中属性的模式元组,挖掘到的数据质量检测规则的表达形式为CFD:(X→A,tp),且CFD(条件函数依赖,ConditionalFunctionalDependency,CFD)必须满足以下两个条件:最小性:指的是若(X→A,tp)成立,则对于X的任何一个子集Y,都没有(Y→A,tp)成立;非平凡性:指的是若(X→A,tp)成立,则属性A不属于属性集X。本实施例中,步骤S1的挖掘过程通过以下流程实现:S11、扫描数据库,在关系模式R中通过将所有先行值(即X→A中的X)集合建模得到属性包含格,搜索时,先考虑所有由单个属性组成的节点,再逐次考虑多属性组成的节点,直到达到(n-1)级,其中,n为关系模式R中的属性个数。S12、为本层各节点(X,tp)计算其C+(X,tp),其中,C+(X,tp)={(A,CA)};判断本层各个(X,tp)是否有相应的CFD:(X\{A}→A,tp[X\{A}]||tp[A])成立,若CFD成立,则修改本层中所有比节点(X,tp)更具体的(X,Up)的C+(X,Up),从C+(X,Up)中除去节点(A,CA)及(B,CB),其中B属于关系模式R上去除了属性集X的属性集。S13、检查本层各个(X,tp),若C+(X,tp)为空,则剪去(X,tp)。S14、若两节点(X,sp)、(Y,tp)的前缀相同,即X与Y、sp与tp各自的前k-1个值对应相同,则为Lk+1层生成新节点(Z,Up)=(XUY[k],spUtp[k]),并令Lk=Lk+1,直至Lk+1为空集。在产生的CFD的基础上为了获得感兴趣,或者说达到了指定要求的数据质量检测规则,可以使用三种兴趣度度量指标来进行最终的检验,即支持度、卡方检验和置信度。支持度是一种频率度量,它基于的观点是经常共同出现的值有更多的证据来表明他们是相关的。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。置信度测量了在条件Q下,给定P,发生A的可能性。S2、根据挖掘结果,得到M字段和N字段的关联关系,将M字段和N字段的字段值进行聚类,对聚类结果中每一簇的特征进行转换,并标记各簇的特征。本实施例中,步骤S2通过以下流程实现:S21、根据步骤S1的挖掘结果,提取具有关联关系的M字段和N字段,对其中一个字段进行数据列剖析,得到该列字段值中存在的不同值的个数,以此作为聚类的簇数本文档来自技高网...

【技术保护点】
1.一种基于数据质量检测规则挖掘结果的进一步挖掘方法,其特征在于,包括以下步骤:S1、挖掘数据质量检测规则;S2、根据挖掘结果,得到M字段和N字段的关联关系,将M字段和N字段的字段值进行聚类,对聚类结果中每一簇的特征进行转换,并标记各簇的特征。

【技术特征摘要】
1.一种基于数据质量检测规则挖掘结果的进一步挖掘方法,其特征在于,包括以下步骤:S1、挖掘数据质量检测规则;S2、根据挖掘结果,得到M字段和N字段的关联关系,将M字段和N字段的字段值进行聚类,对聚类结果中每一簇的特征进行转换,并标记各簇的特征。2.如权利要求1所述的基于数据质量检测规则挖掘结果的进一步挖掘方法,其特征在于,所述步骤S1包括以下流程:R为关系模式,R的一实例为r,attr(R)为关系模式R的所有属性的集合,X为关系模式R的一属性子集,A为关系模式R的单个属性,tp为包含了X和A中属性的模式元组,挖掘到的数据质量检测规则的表达形式为CFD:(X→A,tp)。3.权利要求2所述的基于数据质量检测规则挖掘结果的进一步挖掘方法,其特征在于,所述步骤S1中挖掘数据质量检测规则的过程包括以下流程:S11、扫描数据库,在所述关系模式R中通过将所有先行值(即X→A中的X)集合建模得到属性包含格,搜索时,先考虑所有由单个属性组成的节点,再逐次考虑多属性组成的节点,直到达到(n-1)级,其中,n为关系模式R中的属性个数;S12、为本层各节点(X,tp)计算其C+(X,tp),其中,C+(X,tp)={(A,CA)};判断本层各个(X,tp)是否有相应的CFD:(X\{A}→A,tp[X\{A}]||tp[A])成立,若CFD成立,则修改本层中所有比节点(X,tp)更具体的(X,Up)的C+(X,Up),从C+(...

【专利技术属性】
技术研发人员:唐雪飞黄永鑫汪林川胡茂秋
申请(专利权)人:成都康赛信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1