海量结构化数据的质量评估方法及装置制造方法及图纸

技术编号:22260924 阅读:67 留言:0更新日期:2019-10-10 14:04
本发明专利技术公开了一种海量结构化数据的质量评估方法及装置,该方法包括:连接待评估数据库;对所述待评估数据库进行整体数据质量评估;以及,将所述待评估数据库中包括的各个表的字段进行分类,并对每一类型的字段集合进行数据质量评估。该方案可以实现在字段具体含义未知的情况下以及对数据库中的结构化数据进行清洁之前,自动化智能评估结构化数据的质量,以便于后续对数据库中的结构化数据进行数据清洁,确保数据清洁的质量和效率。

Quality Assessment Method and Device for Massive Structured Data

【技术实现步骤摘要】
海量结构化数据的质量评估方法及装置
本专利技术涉及数据库
,尤指一种海量结构化数据的质量评估方法及装置。
技术介绍
数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。当前,会将数据进行结构化处理得到结构化数据,然后保存在数据库中。目前,依靠抽取、清洗、转换和载入(ExtractCleaningTransformandLoad,ECTL)对数据进行清洁,数据清洁从名字上也看的出就是把“脏”的“洗掉”,发现并纠正数据中可识别的错误的最后一道程序,包括检查数据一致性、处理无效值和缺失值等,然后按照一定的规则把“脏数据”“洗掉”,这就是数据清洁。数据清洁的任务是过滤那些不符合要求的数据,不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。而仅仅进行数据清洁是远远不够的,因为“脏数据”表现形式有很大的不确定性,“脏数据”之所以“脏”的原因有很多,例如:空值、字段值溢出、违反外键约束、重复记录、违反业务逻辑等。在最初设计ETL规则时,并不知晓哪个字段会有什么类型的“脏数据”,无法有针对性地建立有效的ETL规则,而只能在ETL规则运行时遇到数据质量问题引发的错误后,才能去解决它。因此,在字段具体含义未知的情况下以及对数据库中的结构化数据进行清洁之前,有必要首先自动化智能评估海量结构化数据的质量。
技术实现思路
本专利技术实施例提供一种海量结构化数据的质量评估方法及装置,以实现在字段具体含义未知的情况下以及对数据库中的结构化数据进行清洁之前,自动化智能评估海量结构化数据的质量。根据本专利技术实施例,提供一种海量结构化数据的质量评估方法,包括:连接待评估数据库;对所述待评估数据库进行整体数据质量评估;以及,将所述待评估数据库中包括的各个表的字段进行分类,并对每一类型的字段集合进行数据质量评估。具体的,对所述待评估数据库进行整体数据质量评估,具体包括:根据预置的整体数据质量评估规则对所述待评估数据库进行整体数据质量分析;基于分析结果生成整体数据质量评估报告。具体的,若字段包括元数据,则将所述待评估数据库中包括的各个表的字段进行分类,具体包括:针对所述待评估数据库中包括的各个表的字段,执行:获取当前字段的元数据包括的字段类型;将所述当前字段添加到所述字段类型对应的字段集合中。具体的,对每一类型的字段集合进行数据质量评估,具体包括:针对数值型的字段集合,根据预置的数值型字段质量评估规则对所述数值型的字段集合进行数据质量分析,基于分析结果生成数值型字段质量评估报告;针对字符型的字段集合,根据预置的字符型字段质量评估规则对所述字符型的字段集合进行数据质量分析,基于分析结果生成字符型字段质量评估报告;针对日期型的字段集合,根据预置的日期型字段评估规则集合对所述日期型的字段集合进行数据质量分析,基于分析结果生成日期型字段质量评估报告。可选的,针对所述数值型的字段集合,还包括:针对所述数值型的字段集合中包括的各个字段,执行:判断当前字段包括的所有字段值的分布是否符合正态分布;若所述当前字段包括的所有字段值符合正态分布,则将与所述当前字段的平均值的偏差超过设定倍数的标准差的字段值确定为第一异常字段值;将所述当前字段包括的所有字段值中除所述第一异常字段值之外的字段值进行聚类分析,将不是核心样本字段值且与任意一个核心样本字段值的距离都大于第一设定阈值的字段值确定为第二异常字段值;合并所述第一异常字段值与所述第二异常字段值,生成异常字段值报告。可选的,针对字符型的字段集合,还包括:针对所述字符型的字段集合中包括的各个字段,执行:利用编辑距离相似度计算当前字段中任意两两字段值之间的相似度;将相似度大于第二设定阈值的两个字段值确定为重复字段值;基于重复字段值生成重复字段值结果报告。根据本专利技术实施例,还提供一种海量结构化数据的质量评估装置,包括:连接模块,用于连接待评估数据库;第一评估模块,用于对所述待评估数据库进行整体数据质量评估;以及,第二评估模块,用于将所述待评估数据库中包括的各个表的字段进行分类,并对每一类型的字段集合进行数据质量评估。具体的,所述第一评估模块,用于对所述待评估数据库进行整体数据质量评估,具体用于:根据预置的整体数据质量评估规则对所述待评估数据库进行整体数据质量分析;基于分析结果生成整体数据质量评估报告。具体的,若字段包括元数据,则所述第二评估模块,用于将所述待评估数据库中包括的各个表的字段进行分类,具体用于:针对所述待评估数据库中包括的各个表的字段,执行:获取当前字段的元数据包括的字段类型;将所述当前字段添加到所述字段类型对应的字段集合中。具体的,所述第二评估模块,用于对每一类型的字段集合进行数据质量评估,具体用于:针对数值型的字段集合,根据预置的数值型字段质量评估规则对所述数值型的字段集合进行数据质量分析,基于分析结果生成数值型字段质量评估报告;针对字符型的字段集合,根据预置的字符型字段质量评估规则对所述字符型的字段集合进行数据质量分析,基于分析结果生成字符型字段质量评估报告;针对日期型的字段集合,根据预置的日期型字段评估规则集合对所述日期型的字段集合进行数据质量分析,基于分析结果生成日期型字段质量评估报告。可选的,针对所述数值型的字段集合,所述第二评估模块,还用于:针对所述数值型的字段集合中包括的各个字段,执行:判断当前字段包括的所有字段值的分布是否符合正态分布;若所述当前字段包括的所有字段值符合正态分布,则将与所述当前字段的平均值的偏差超过设定倍数的标准差的字段值确定为第一异常字段值;将所述当前字段包括的所有字段值中除所述第一异常字段值之外的字段值进行聚类分析,将不是核心样本字段值且与任意一个核心样本字段值的距离都大于第一设定阈值的字段值确定为第二异常字段值;合并所述第一异常字段值与所述第二异常字段值,生成异常字段值报告。可选的,针对字符型的字段集合,所述第二评估模块,还用于:针对所述字符型的字段集合中包括的各个字段,执行:利用编辑距离相似度计算当前字段中任意两两字段值之间的相似度;将相似度大于第二设定阈值的两个字段值确定为重复字段值;基于重复字段值生成重复字段值结果报告。本专利技术有益效果如下:本专利技术实施例提供一种海量结构化数据的质量评估方法及装置,通过连接待评估数据库;对所述待评估数据库进行整体数据质量评估;以及,将所述待评估数据库中包括的各个表的字段进行分类,并对每一类型的字段集合进行数据质量评估。该方案可以实现在字段具体含义未知的情况下以及对数据库中的结构化数据进行清洁之前,自动化智能评估结构化数据的质量,以便于后续对数据库中的结构化数据进行数据清洁,确保数据清洁的质量和效率。附图说明图1为本专利技术实施例中一种海量结构化数据的质量评估方法的流程图;图2为本专利技术实施例中一种海量结构化数据的质量评估装置的结构示意图。具体实施方式为了实现在对数据库中的结构化数据进行清洁之前,评估结构化数据的质量,本专利技术实施例提供一种海量结构化数据的质量评估方法,该方法的流程如图1所示,执行步骤如下:S11:连接待评估数据库。需要进行数据质量评估的数据库可以定义为待评估数据库,在对待评估数据库进行数据质量评估时,首先需要连接待评估数据库。S12:对待评估数据库进行整体数据质量评估。S13:将待评估数据库本文档来自技高网...

【技术保护点】
1.一种海量结构化数据的质量评估方法,其特征在于,包括:连接待评估数据库;对所述待评估数据库进行整体数据质量评估;以及,将所述待评估数据库中包括的各个表的字段进行分类,并对每一类型的字段集合进行数据质量评估。

【技术特征摘要】
1.一种海量结构化数据的质量评估方法,其特征在于,包括:连接待评估数据库;对所述待评估数据库进行整体数据质量评估;以及,将所述待评估数据库中包括的各个表的字段进行分类,并对每一类型的字段集合进行数据质量评估。2.如权利要求1所述的方法,其特征在于,对所述待评估数据库进行整体数据质量评估,具体包括:根据预置的整体数据质量评估规则对所述待评估数据库进行整体数据质量分析;基于分析结果生成整体数据质量评估报告。3.如权利要求1所述的方法,其特征在于,若字段包括元数据,则将所述待评估数据库中包括的各个表的字段进行分类,具体包括:针对所述待评估数据库中包括的各个表的字段,执行:获取当前字段的元数据包括的字段类型;将所述当前字段添加到所述字段类型对应的字段集合中。4.如权利要求1-3任一所述的方法,其特征在于,对每一类型的字段集合进行数据质量评估,具体包括:针对数值型的字段集合,根据预置的数值型字段质量评估规则对所述数值型的字段集合进行数据质量分析,基于分析结果生成数值型字段质量评估报告;针对字符型的字段集合,根据预置的字符型字段质量评估规则对所述字符型的字段集合进行数据质量分析,基于分析结果生成字符型字段质量评估报告;针对日期型的字段集合,根据预置的日期型字段评估规则集合对所述日期型的字段集合进行数据质量分析,基于分析结果生成日期型字段质量评估报告。5.如权利要求4所述的方法,其特征在于,针对所述数值型的字段集合,还包括:针对所述数值型的字段集合中包括的各个字段,执行:判断当前字段包括的所有字段值的分布是否符合正态分布;若所述当前字段包括的所有字段值符合正态分布,则将与所述当前字段的平均值的偏差超过设定倍数的标准差的字段值确定为第一异常字段值;将所述当前字段包括的所有字段值中除所述第一异常字段值之外的字段值进行聚类分析,将不是核心样本字段值且与任意一个核心样本字段值的距离都大于第一设定阈值的字段值确定为第二异常字段值;合并所述第一异常字段值与所述第二异常字段值,生成异常字段值报告。6.如权利要求4所述的方法,其特征在于,针对字符型的字段集合,还包括:针对所述字符型的字段集合中包括的各个字段,执行:利用编辑距离相似度计算当前字段中任意两两字段值之间的相似度;将相似度大于第二设定阈值的两个字段值确定为重复字段值;基于重复字段值生成重复字段值结果报告。7.一种海量结构化数据的质量评估装置,其特征在于,包括:连接模块,用于连接待评估...

【专利技术属性】
技术研发人员:杨仁凤
申请(专利权)人:北京星网锐捷网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1