一种数据湖的质量检测方法及装置制造方法及图纸

技术编号:32275536 阅读:15 留言:0更新日期:2022-02-12 19:41
本发明专利技术提供了一种数据湖的质量检测方法及装置,其中,该方法包括:对数据湖的结构化数据进行分类,得到分类结果;根据该分类结果调整该结构化数据的任务参数;根据该结构化数据的任务参数执行该结构化数据的质量检测任务,可以解决相关技术中针对数据湖的结构化数据的检测,资源利用不合理的问题,对接入数据进行分类,根据分类结果动态调整任务参数,加快了检测的效率,提高了资源利用率。提高了资源利用率。提高了资源利用率。

【技术实现步骤摘要】
一种数据湖的质量检测方法及装置


[0001]本专利技术涉及数据处理领域,具体而言,涉及一种数据湖的质量检测方法及装置。

技术介绍

[0002]数据湖是一个集中存储区,用于存储、处理和保护大量结构化、半结构化和非结构化数据。数据仓库里面质量检测系统多种多样,像常用的通过检测每天的数据量通过一定的规则:数量级、日环比、周环比、月环比等,对接入的数据进行检测。针对离线结构化数据的检测数据湖上面面临着更多的问题,结构化数据一般都是存放在关系型数据库里面,数据量特别大、存储规则不一样、采集方法也是多种多样。现在的技术大部分都是通过hive SQL对接入的数据进行各种规则的计算来保证数据质量,但是hive使用传统的mr非常慢,细粒度的资源分配即使很小的表(即使只有1kb)也要至少超过半分钟的时间,因为需要提交app、申请资源、启动container,最后可能执行只用了不到一秒的时间。资源利用不合理,即使并发调到很高,但是数据湖这种小表数量非常多,并行状态的N个任务都是小表,集群资源都在空闲。
[0003]针对相关技术中针对数据湖的结构化数据的检测,资源利用不合理的问题,尚未提出解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种数据湖的质量检测方法及装置,以至少解决相关技术中针对数据湖的结构化数据的检测,资源利用不合理的问题。
[0005]根据本专利技术的一个实施例,提供了一种数据湖的质量检测方法,包括:
[0006]对数据湖的结构化数据进行分类,得到分类结果;
[0007]根据所述分类结果调整所述结构化数据的任务参数;
[0008]根据所述结构化数据的任务参数执行所述结构化数据的质量检测任务。
[0009]可选地,对数据湖的结构化数据进行分类,得到分类结果包括:
[0010]获取数据湖的结构化数据的存储情况;
[0011]根据所述存储情况对所述数据湖的结构化数据进行分类,得到所述分类结果。
[0012]可选地,根据所述存储情况对所述数据湖的结构化数据进行分类,得到所述分类结果包括:
[0013]根据所述存储情况将所述数据湖的结构化数据划分为第一类结构化表、第二类结构化表以及第三类结构化表,其中,所述分类结果包括所述第一类结构化表、所述第二类结构化表以及所述第三类结构化表;
[0014]所述第一类结构化表的存储大小大于或等于第一预设值;所述第二类结构化表的存储大小大于或等于第二预设值,且小于所述第一预设值;所述第三类结构化表的存储大小小于所述第二预设值。
[0015]可选地,在根据所述结构化数据的任务参数执行所述结构化数据的质量检测任务
之前,所述方法还包括:
[0016]启动线程监控集群的资源情况;
[0017]根据所述资源情况动态提交所述质量检测任务到所述集群。
[0018]可选地,在根据所述结构化数据的任务参数执行所述结构化数据的质量检测任务之前,所述方法还包括:
[0019]对所述质量检测任务进行分析,得到分析结果;
[0020]在分析完成之后将所述质量检测任务与对应的分析结果统一加入缓存;
[0021]根据所述分析结果和所述集群的资源情况动态调整启动的任务情况。
[0022]可选地,所述方法还包括:
[0023]通过netty保持与spark driver通信;
[0024]基于spark执行引擎远程控制所述结构化数据的质量检测任务的启停。
[0025]可选地,所述任务参数至少包括以下之一:内存、CPU、并行数、动态资源调整。
[0026]根据本专利技术的另一个实施例,还提供了一种数据湖的质量检测装置,包括:
[0027]分类模块,用于对数据湖的结构化数据进行分类,得到分类结果;
[0028]第一调整模块,用于根据所述分类结果调整所述结构化数据的任务参数;
[0029]执行模块,用于根据所述结构化数据的任务参数执行所述结构化数据的质量检测任务。
[0030]可选地,所述分类模块包括:
[0031]获取子模块,用于获取数据湖的结构化数据的存储情况;
[0032]分类子模块,用于根据所述存储情况对所述数据湖的结构化数据进行分类,得到所述分类结果。
[0033]可选地,所述分类子模块,还用于:
[0034]根据所述存储情况将所述数据湖的结构化数据划分为第一类结构化表、第二类结构化表以及第三类结构化表,其中,所述分类结果包括所述第一类结构化表、所述第二类结构化表以及所述第三类结构化表;
[0035]所述第一类结构化表的存储大小大于或等于第一预设值;所述第二类结构化表的存储大小大于或等于第二预设值,且小于所述第一预设值;所述第三类结构化表的存储大小小于所述第二预设值。
[0036]可选地,所述装置还包括:
[0037]启动模块,用于启动线程监控集群的资源情况;
[0038]提交模块,用于根据所述资源情况动态提交所述质量检测任务到所述集群。
[0039]可选地,所述装置还包括:
[0040]分析模块,用于对所述质量检测任务进行分析,得到分析结果;
[0041]缓存模块,用于在分析完成之后将所述质量检测任务与对应的分析结果统一加入缓存;
[0042]第二调整模块,用于根据所述分析结果和所述集群的资源情况动态调整启动的任务情况。
[0043]可选地,所述装置还包括:
[0044]通信模块,用于通过netty保持与spark driver通信;
[0045]控制模块,用于基于spark执行引擎远程控制所述结构化数据的质量检测任务的启停。
[0046]可选地,所述任务参数至少包括以下之一:内存、CPU、并行数、动态资源调整。
[0047]根据本专利技术的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0048]根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
[0049]通过本专利技术,对数据湖的结构化数据进行分类,得到分类结果;根据所述分类结果调整所述结构化数据的任务参数;根据所述结构化数据的任务参数执行所述结构化数据的质量检测任务,可以解决相关技术中针对数据湖的结构化数据的检测,资源利用不合理的问题,对接入数据进行分类,根据分类结果动态调整任务参数,加快了检测的效率,提高了资源利用率。
附图说明
[0050]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0051]图1是本专利技术实施例的数据湖的质量检测方法的移动终端的硬件结构框图;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据湖的质量检测方法,其特征在于,包括:对数据湖的结构化数据进行分类,得到分类结果;根据所述分类结果调整所述结构化数据的任务参数;根据所述结构化数据的任务参数执行所述结构化数据的质量检测任务。2.根据权利要求1所述的方法,其特征在于,对数据湖的结构化数据进行分类,得到分类结果包括:获取数据湖的结构化数据的存储情况;根据所述存储情况对所述数据湖的结构化数据进行分类,得到所述分类结果。3.根据权利要求2所述的方法,其特征在于,根据所述存储情况对所述数据湖的结构化数据进行分类,得到所述分类结果包括:根据所述存储情况将所述数据湖的结构化数据划分为第一类结构化表、第二类结构化表以及第三类结构化表,其中,所述分类结果包括所述第一类结构化表、所述第二类结构化表以及所述第三类结构化表;所述第一类结构化表的存储大小大于或等于第一预设值;所述第二类结构化表的存储大小大于或等于第二预设值,且小于所述第一预设值;所述第三类结构化表的存储大小小于所述第二预设值。4.根据权利要求1所述的方法,其特征在于,在根据所述结构化数据的任务参数执行所述结构化数据的质量检测任务之前,所述方法还包括:启动线程监控集群的资源情况;根据所述资源情况动态提交所述质量检测任务到所述集群。5.根据权利要求4所述的方法,其特征在于,在根...

【专利技术属性】
技术研发人员:李红伟张勇朱海刚王鹏贾晓鸣刘存玉腰子煜田江向小佳丁永建李璠
申请(专利权)人:光大科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1