一种基于Spark的数据质量核查方法、装置、存储介质及终端制造方法及图纸

技术编号:31373898 阅读:13 留言:0更新日期:2021-12-15 11:04
本发明专利技术公开了一种基于Spark的数据质量核查方法、装置、存储介质及终端,方法包括:获取数据分区参数或筛选参数,并根据Spark SQL组件与分区参数或筛选参数创建数据抽取组件;根据数据抽取组件从数据中心获取并预处理待核查数据集;加载数据核查规则表,从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则;根据每个字段对应的数据核查规则将对应的字段进行质量核查,生成每个字段的核查结果;将每个字段的核查结果输入预设报告模板中,生成待核查数据集的数据质量核查报告。因此,采用本申请实施例,可以针对所需数据实现自动化质量核查,从而提升数据核查效率,有效保障数据的准确可靠。有效保障数据的准确可靠。有效保障数据的准确可靠。

【技术实现步骤摘要】
一种基于Spark的数据质量核查方法、装置、存储介质及终端


[0001]本专利技术涉及大数据
,特别涉及一种基于Spark的数据质量核查方法、装置、存储介质及终端。

技术介绍

[0002]在企业数据标准化过程中,期望通过数据标准化管理反馈价值至业务,强调数据质量的重要性。在这个过程中,不可避免的会产生低质量数据,大批量的数据初始化、未处理历史数据带来的问题扩散、紧急业务产生的低质量数据,都将影响数据的质量。目前,随着大数据技术与深度学习技术的崛起,控制低质量数据的产生几率和及时发现低质量数据并进行有效的处理,是研究人员渴望能够实现的举措。
[0003]在现有技术方案中,一般通过数据质量管理软件计算数据质量的综合评分以及根据评分深入追踪到每一个数据质量问题的有效流程机制,由于现有方案中针对每一种数据质量问题的严重程度进行评分的占比无法进行有效控制,甚至一旦确定问题的占比就无法再次调改评分方案,无法根据实际的业务数据量对评分模型进行自适应调整,从而导致整个数据质量的核查方式灵活性较低,导致数据质量核查准确度较低。

技术实现思路

[0004]本申请实施例提供了一种基于Spark的数据质量核查方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0005]第一方面,本申请实施例提供了一种基于Spark的数据质量核查方法,方法包括:
[0006]获取数据分区参数或筛选参数,并根据SparkSQL组件与分区参数或筛选参数创建数据抽取组件;
[0007]根据数据抽取组件从数据中心获取并预处理待核查数据集;
[0008]加载数据核查规则表,从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则;
[0009]根据每个字段对应的数据核查规则将对应的字段进行质量核查,生成每个字段的核查结果;
[0010]将每个字段的核查结果输入预设报告模板中,生成待核查数据集的数据质量核查报告。
[0011]可选的,将每个字段的核查结果输入预设报告模板中,生成待核查数据集的数据质量核查报告之后,还包括:
[0012]将数据质量核查报告发送至相关部门客户端;其中,
[0013]相关部门客户端至少包括钉钉机器人、TXT文件以及邮箱。
[0014]可选的,从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的
数据核查规则,包括:
[0015]获取预处理后的待核查数据集中每个字段的数据值;
[0016]识别每个字段的数据值对应的数据类型;
[0017]基于数据类型从预设数据核查规则表中获取每个字段对应的数据核查规则。
[0018]可选的,识别每个字段的数据值对应的数据类型,包括:
[0019]采用滑动窗口算法创建滑动窗口;
[0020]获取当前已存在的多个数据类型;
[0021]将多个数据类型与滑动窗口进行绑定,生成数据类型判定的滑动窗口;
[0022]将每个字段的数据值逐一输入数据类型判定的滑动窗口中;
[0023]输出每个字段的数据值对应的数据类型。
[0024]可选的,从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则,包括:
[0025]获取预处理后的待核查数据集中每个字段的数据值;
[0026]确定每个字段的数据值对应的质量级别;
[0027]根据质量级别从预设数据核查规则表中获取每个字段对应的数据核查规则。
[0028]可选的,确定每个字段的数据值对应的质量级别,包括:
[0029]初始化预先训练的数据质量级别确定模型;
[0030]将每个字段的数据值输入初始化后的预先训练的数据质量级别确定模型中;
[0031]输出每个字段的数据值对应的质量级别。
[0032]可选的,按照以下步骤生成预先训练的数据质量级别确定模型,包括:
[0033]获取多个字段数据;
[0034]接收针对多个字段数据中每个字段数据标注的数据质量级别,生成标注后的字段数据;
[0035]将标注后的字段数据输入卷积神经网络中,输出固定维度的文本特征向量;
[0036]根据固定维度的文本特征向量计算第一损失值;
[0037]采用YOLOV3神经网络创建数据质量级别确定模型;
[0038]将标注后的字段数据输入数据质量级别确定模型中进行训练,输出第二损失值;
[0039]将第一损失值与第二损失值求和后取平均值,生成目标损失值;
[0040]当目标损失值到达最小时,生成预先训练的数据质量级别确定模型。
[0041]第二方面,本申请实施例提供了一种基于Spark的数据质量核查装置,装置包括:
[0042]数据抽取组件创建模块,用于获取数据分区参数或筛选参数,并根据Spark SQL组件与分区参数或筛选参数创建数据抽取组件;
[0043]数据集预处理模块,用于根据数据抽取组件从数据中心获取并预处理待核查数据集;
[0044]数据核查规则确定模块,用于加载数据核查规则表,从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则;
[0045]核查结果生成模块,根据每个字段对应的数据核查规则将对应的字段进行质量核查,生成每个字段的核查结果;
[0046]质量核查报告生成模块,用于将每个字段的核查结果输入预设报告模板中,生成
待核查数据集的数据质量核查报告。
[0047]第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
[0048]第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
[0049]本申请实施例提供的技术方案可以包括以下有益效果:
[0050]在本申请实施例中,基于Spark的数据质量核查装置首先获取数据分区参数或筛选参数,并根据Spark SQL组件与分区参数或筛选参数创建数据抽取组件,然后根据数据抽取组件从数据中心获取并预处理待核查数据集,再加载数据核查规则表,从数据核查规则表中确定出预处理后的待核查数据集中每个字段对应的数据核查规则,其次根据每个字段对应的数据核查规则将对应的字段进行质量核查,生成每个字段的核查结果,最后将每个字段的核查结果输入预设报告模板中,生成待核查数据集的数据质量核查报告。由于本申请采用大数据组件Spark SQL组件抽取数据,并基于数据核查规则表进行质量核查,从而可以针对所需数据实现自动化质量核查,从而提升数据核查效率,有效保障数据的准确可靠。
[0051]应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Spark的数据质量核查方法,其特征在于,所述方法包括:获取数据分区参数或筛选参数,并根据SparkSQL组件与所述分区参数或筛选参数创建数据抽取组件;根据所述数据抽取组件从数据中心获取并预处理待核查数据集;加载数据核查规则表,从所述数据核查规则表中确定出预处理后的所述待核查数据集中每个字段对应的数据核查规则;根据所述每个字段对应的数据核查规则将对应的字段进行质量核查,生成每个字段的核查结果;将所述每个字段的核查结果输入预设报告模板中,生成待核查数据集的数据质量核查报告。2.根据权利要求1所述的方法,其特征在于,将所述每个字段的核查结果输入预设报告模板中,生成待核查数据集的数据质量核查报告之后,还包括:将所述数据质量核查报告发送至相关部门客户端;其中,所述相关部门客户端至少包括钉钉机器人、TXT文件以及邮箱。3.根据权利要求1所述的方法,其特征在于,所述从所述数据核查规则表中确定出预处理后的所述待核查数据集中每个字段对应的数据核查规则,包括:获取预处理后的所述待核查数据集中每个字段的数据值;识别所述每个字段的数据值对应的数据类型;基于所述数据类型从预设数据核查规则表中获取所述每个字段对应的数据核查规则。4.根据权利要求3所述的方法,其特征在于,所述识别所述每个字段的数据值对应的数据类型,包括:采用滑动窗口算法创建滑动窗口;获取当前已存在的多个数据类型;将所述多个数据类型与所述滑动窗口进行绑定,生成数据类型判定的滑动窗口;将所述每个字段的数据值逐一输入所述数据类型判定的滑动窗口中;输出所述每个字段的数据值对应的数据类型。5.根据权利要求1所述的方法,其特征在于,所述从所述数据核查规则表中确定出预处理后的所述待核查数据集中每个字段对应的数据核查规则,包括:获取预处理后的所述待核查数据集中每个字段的数据值;确定所述每个字段的数据值对应的质量级别;根据所述质量级别从预设数据核查规则表中获取所述每个字段对应的数据核查规则。6.根据权利要求5所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:李红兴蔡抒扬夏曙东陈利玲孙智彬张志平
申请(专利权)人:北京中交兴路信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1