一种基于数据湖的数据治理方法及装置制造方法及图纸

技术编号:22167032 阅读:39 留言:0更新日期:2019-09-21 10:38
本申请提供了一种基于数据湖的数据治理方法及装置,基于数据湖的数据治理方法包括:获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;确定所述数据质量分析评分大于存储的数据质量分析评分;根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端。可以提升数据的清洗整合效率。

A Data Governance Method and Device Based on Data Lake

【技术实现步骤摘要】
一种基于数据湖的数据治理方法及装置
本申请涉及石化
,具体而言,涉及一种基于数据湖的数据治理方法及装置。
技术介绍
数据湖(DataLake)作为一集中式的存储库,可以无需对数据进行结构化处理,能够实现以任意规模存储结构化数据和非结构化数据,允许组织中的各种角色,例如,数据科学家、数据开发人员和业务分析师通过各自选择的分析工具和框架来访问数据,达到以不同方式协同处理和分析数据,得到了广泛的应用。目前,对于石油勘探领域产出的数据,已实现了基于数据湖的数据集中,使得其它上层业务应用都可以依托于数据湖中的数据,进行相应的数据协同处理和分析,但由于数据湖中的数据可能会存在大量无效数据或不完整数据或异常数据等低质量的数据,会降低协同处理和分析的质量,因而,数据湖中数据的质量成为影响数据协同处理和分析质量的重要因素,而如何确保数据湖中数据在整个数据生命周期中的高质量,是数据湖生态环境面临的重要技术问题。为了提升数据湖中的数据质量,现有技术中,在数据湖获取到来自各信息系统的源数据后,通过对源数据进行清洗整合来实现对数据的治理,以提高数据质量。但该方法,由于源数据量一般非常巨大,而数据湖进行清洗整合的运算资源较为有限,使得数据的清洗整合效率较低,不能满足数据湖中大数据量的清洗整合需求。
技术实现思路
有鉴于此,本申请的目的在于提供一种基于数据湖的数据治理方法及装置,提升数据的清洗整合效率。第一方面,本申请实施例提供了一种基于数据湖的数据治理方法,包括:获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;确定所述数据质量分析评分大于存储的数据质量分析评分;根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端。结合第一方面,本专利技术提供了第一方面的第一种可能的实施方式,其中,在所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析之前,所述方法还包括:删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据;修复所述待分析过滤数据中缺失的数据值,以对修复的所述待分析过滤数据进行质量分析。结合第一方面的第一种可能的实施方式,本专利技术提供了第一方面的第二种可能的实施方式,其中,所述删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据,包括:对所述待分析数据进行业务类型分类,得到各分类数据;针对每一分类数据,提取该分类数据中的每一条数据中包含的数据键以及该数据键对应的数据值,查询该分类数据对应的数据异常键值对集,得到该数据键对应的数据异常值;依据所述数据值和所述数据异常值,确定所述数据值对应的数据是否异常,若异常,删除该数据,并存入异常预警数据域。结合第一方面的第一种可能的实施方式,本专利技术提供了第一方面的第三种可能的实施方式,其中,所述修复所述待分析过滤数据中缺失的数据值,包括:从所述待分析过滤数据中,提取各第一数据参数对应的第一数据参数值,得到第一数据参数值集;从所述第一数据参数值集中,删除空的数据参数值,得到第二数据参数值集;计算所述第二数据参数值集中的各数据参数值的平均值,将所述平均值填入数据参数值为空的第一数据参数中。结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本专利技术提供了第一方面的第四种可能的实施方式,其中,所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分,包括:针对每一分类的待分析数据,依据该分类的待分析数据中每一数据参数对应的数据参数值,查询预先设置的该数据参数对应的数据参数值质量评分规则,得到该数据参数对应的数据参数质量评分;依据分类的待分析数据中每一数据参数对应的数据参数权重,以及,该数据参数对应的数据参数质量评分,获取该分类的待分析数据的数据质量分析评分。结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本专利技术提供了第一方面的第五种可能的实施方式,其中,所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分,包括:针对每一分类的待分析数据,依据预设的数据参数阈值,对该分类的待分析数据中每一数据参数对应的数据参数值进行归一化处理,得到每一数据参数对应的归一化值;查询预先设置的数据参数归一化值质量评分规则,得到每一数据参数分别对应的数据参数质量评分;依据分类的待分析数据中每一数据参数对应的数据参数权重,以及,该数据参数对应的数据参数质量评分,获取该分类的待分析数据的数据质量分析评分。结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本专利技术提供了第一方面的第六种可能的实施方式,其中,所述根据所述数据质量分析评分调整数据清洗策略,包括:获取所述数据质量分析评分对应的待分析数据中各数据参数对应的数据第一参数值;获取存储的数据质量分析评分对应的待分析数据中各数据参数对应的数据第二参数值;针对每一数据参数,依据该数据参数对应的数据第一参数值以及数据第二参数值,调整数据清洗策略中该数据参数对应的清洗阈值。结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本专利技术提供了第一方面的第七种可能的实施方式,其中,所述方法还包括:若确定的所述数据质量分析评分达到预先设置的数据质量评分阈值,通知所述预设埋点停止采集待分析数据。结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本专利技术提供了第一方面的第八种可能的实施方式,其中,所述方法还包括:利用大于存储的数据质量分析评分的所述数据质量分析评分,替换所述存储的数据质量分析评分。第二方面,本申请实施例提供了一种基于数据湖的数据治理装置,包括:埋点数据获取模块,用于获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;评分模块,用于依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;判断模块,用于确定所述数据质量分析评分大于存储的数据质量分析评分;数据清洗策略调整模块,用于根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端。第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。本申请实施例提供的一种基于数据湖的数据治理方法及装置,通过获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;确定所述数据质量分析评分大于存储的数据质量分析评分;根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传本文档来自技高网...

【技术保护点】
1.一种基于数据湖的数据治理方法,其特征在于,包括:获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;确定所述数据质量分析评分大于存储的数据质量分析评分;根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端。

【技术特征摘要】
1.一种基于数据湖的数据治理方法,其特征在于,包括:获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;确定所述数据质量分析评分大于存储的数据质量分析评分;根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端。2.如权利要求1所述的方法,其特征在于,在所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析之前,所述方法还包括:删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据;修复所述待分析过滤数据中缺失的数据值,以对修复的所述待分析过滤数据进行质量分析。3.如权利要求2所述的方法,其特征在于,所述删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据,包括:对所述待分析数据进行业务类型分类,得到各分类数据;针对每一分类数据,提取该分类数据中的每一条数据中包含的数据键以及该数据键对应的数据值,查询该分类数据对应的数据异常键值对集,得到该数据键对应的数据异常值;依据所述数据值和所述数据异常值,确定所述数据值对应的数据是否异常,若异常,删除该数据,并把异常数据存入异常预警数据域。4.如权利要求2所述的方法,其特征在于,所述修复所述待分析过滤数据中缺失的数据值,包括:从所述待分析过滤数据中,提取各第一数据参数对应的第一数据参数值,得到第一数据参数值集;从所述第一数据参数值集中,删除空的数据参数值,得到第二数据参数值集;计算所述第二数据参数值集中的各数据参数值的平均值,将所述平均值填入数据参数值为空的第一数据参数中。5.如权利要求1至4任一项所述的方法,其特征在于,所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分,包括:针对每一分类的待分析数据,依据该分类的待分析数据中每一数据参数对应的数据参数值,查询预先设置的该数据参数对应的数据参数值质量评分规则,得到该数据参数对应的数据参数质量评分;依据分类的待分析数据中每一...

【专利技术属性】
技术研发人员:黄文俊王铁成南菊红杜金虎杨勇刘景义
申请(专利权)人:北京中油瑞飞信息技术有限责任公司中国石油集团东方地球物理勘探有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1