【技术实现步骤摘要】
自动化数据探查方法及其应用
[0001]本申请涉及数据治理
,特别是涉及自动化数据探查方法及其应用。
技术介绍
[0002]数据探查通常作为大数据服务、咨询业务中采集数据后的第一步工作;通过数据探查可以快速、直观地了解数据质量现状,并对后期的数据挖掘、数据开发、数据决策提供保障。
[0003]目前,在数据治理领域缺少一套完整的数据探查指标体系以及普适性自动化实现脚本,且大部分数据探查停留在表数量、空值率等基础数据质量信息,在数据治理业务中的实际用处不大;同时,未将数据探查与数据质量模块进行互通,使数据探查的意义下降。
[0004]因此,亟待一种自动化数据探查方法及其应用,以解决现有技术存在的问题。
技术实现思路
[0005]本申请实施例提供了一种自动化数据探查方法及其应用,针对目前技术存在的实际用处不大且数据探查意义下降的问题。
[0006]本专利技术核心技术主要是通过配置查询数据参数库、权限库和服务器性能库的MySQL语句,获取账号管理指标体系、数据库指标体系、数据表指标体系和 ...
【技术保护点】
【技术特征摘要】
1.一种自动化数据探查方法,其特征在于,包括以下步骤:S00、基于数据治理业务进行多维度构建数据探查指标体系,拆分为多个维度的数据探查指标;其中,所述数据探查指标的维度至少包括数据库维度、表格维度、字段维度及账号管理维度,以所述数据库维度对应库维度指标,以表格维度对应表维度指标,以字段维度对应字段维度指标,以账号管理维度对应账号管理维度指标;S10、结合存储于各数据库的元数据信息,为对应指标配置带参的查询语句,对所有数据库账号、数据库表以及数据库字段进行遍历,以完成数据探查指标统计,生成能够实现自动化数据探查报告的多个计算机语言脚本;S20、利用该计算机语言中的数据分析库完成数据治理的ETL工作;S30、根据数据质量的六大评估维度并在各维度下配置对应的数据质量校验规则;其中,所述六大评估维度为完整性、唯一性、一致性、准确性、有效性和及时性;S40、根据字段探查报告中的指标数据,对所有数据质量校验规则进行多标签分类,并根据数据质量维度数量设置每个二分类器生成次数,以优化算法运行效率,同时运行质量规则脚本;S50、将所述质量规则脚本封装部署于服务器上,并根据业务需求进行配置,以生成所需要的数据探查报告。2.如权利要求1所述的一种自动化数据探查方法,其特征在于,S10步骤中,具体包括以下步骤:获取待探查的数据库信息,至少包括主机、端口、用户名、密码及数据库名;通过计算机语言导入对应的模块连接该数据库;定义一个函数以快速配置数据库完成SQL语句查询并存储查询结果。3.如权利要求1所述的一种自动化数据探查方法,其特征在于,S10步骤中,还包括以下步骤:完成账号管理维度指标的自动化python脚本,并通过查询MySQL数据库中的user表,保存最终账号管理指标探查结果于表格中;完成对字段维度指标的自动化python脚本,通过对MySQL数据库information_schema库中的tables表和columns表进行参数配置,生成需探查的表清单以及查询表字段信息的MySQL脚本。4.如权利要求3所述的一种自动化数据探查方法,其特征在于,S20步骤中,还包括以下步骤:生成数据探查报告的表格文件,并遍历直行所述MySQL脚本,以获取该表格文件中的字段基本信息;根据table_col_name中的表名与字段名遍历执行,使其作为相应的动态参数,以完成字段维度指标探查报告的查询MySQL脚本,并获取所查询表字段的最大值、最小值、平均值、枚举值、空值率、零值率、字段长度、最大词频、库中同字段词频数及可关联库表等数据指标;重置表抬头,并将表字段基础信息和字段维度指标信息进行合并,写入所述表格文件中。
5.如权利要求4所述的一种自动化数据探查方法,其特征在于,S30步骤中,具体包括以下步骤:通过正则表达式及带参SQL查询语句,结合业务需求,自定义规则对应校验脚本和规则名称并进行预设,选择一致性、准确性、有效性和及时性作为规则校验维度并创建“字段
‑
规则”映射表,完成配置数据指标质量校验规则操作;在所述“字段
...
【专利技术属性】
技术研发人员:李圣权,王增璞,曹鹏寅,叶俊宏,毛云青,
申请(专利权)人:城云科技中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。