【技术实现步骤摘要】
基于Hadoop的海量数据数据质量校验方法
本专利技术涉及大数据
,尤其涉及数据质量的校验方法。
技术介绍
在目前信息化技术和互联网技术的迅速发展下,数据量呈喷井式增长,数据类型也逐渐增多,并且复杂程度越来越高,现代社会已进入大数据时代。在这种背景下,要想充分发挥大数据的应用价值,必须加强数据质量管理力度,提高数据传输及使用的安全性、准确性、稳定性。在过去几十年发展历程中,以Oracle等大型关系数据库为主,近几年也出现了各种各样层出不穷的开源数据库,比如MySQL、PGSQL等关系型数据库,很多半结构化数据库,比如ElasticSearch,mongodb等,以及各种图数据库的兴起,还有很多互联网非结构化数据。基于数据仓库的数据中台建设在数据治理中数据质量就显得尤为重要;如果不对不符合规范的数据进行标准化识别、筛选;不仅面临数据存储的问题,还会导致很多有价值的信息变得很难获取,大量无效数据污染,加大无谓的人力财力成本的投入。在传统的数据质量过程中,很多都忽视了数据质量的重要性,导致很多正常的数据被异常数据污染,通常都是被动地被下游用户或者应用团队发现之后,然后告诉大数据数据分析团队去查找异常数据原因,然后去上游查找根源。这样就会导致排查周期慢、流程复杂、费时费力、只有专门的人员才能理解,学习成本增加、数据堆积等诸多问题。
技术实现思路
本专利技术的目的在于提供基于Hadoop的海量数据数据质量校验方法,有效实现数据质量校验。实现上述目的的技术方案是:基于Ha ...
【技术保护点】
1.基于Hadoop的海量数据数据质量校验方法,其特征在于,包括:/n步骤1,制定数据质量标准,并存储于Hive的第二元数据库中;/n步骤2,用户通过WEBUI浏览器界面、JDBC/ODBC接口或者CLI命令行的方式连接访问Hive;/n步骤3,用户向Hive提交SQL指令,Hive内驱动器识别SQL指令类型,对于DDL指令,将创建表的元数据信息写入Hive自身的第一元数据库中;对于DQL语句,将SQL字符串转换为抽象语法树,对抽象语法树进行语法分析,同时根据第二元数据库中的数据质量标准,解析最新生成SQL语义是否有误,并添加扩展信息;/n步骤4,驱动器中编译器将抽象语法树编译生成相应的逻辑执行计划,结合第二元数据库中的数据质量标准,驱动器中优化器对逻辑执行计划进行优化,驱动器中执行器将优化后的逻辑执行计划转换成物理计划,生成MapReduce的作业并提交到Yarn上执行,最后,将执行结果返回;/n步骤5,返回的执行结果存入HDFS,并进行数据可视以及异常数据导出、追踪、溯源。/n
【技术特征摘要】
1.基于Hadoop的海量数据数据质量校验方法,其特征在于,包括:
步骤1,制定数据质量标准,并存储于Hive的第二元数据库中;
步骤2,用户通过WEBUI浏览器界面、JDBC/ODBC接口或者CLI命令行的方式连接访问Hive;
步骤3,用户向Hive提交SQL指令,Hive内驱动器识别SQL指令类型,对于DDL指令,将创建表的元数据信息写入Hive自身的第一元数据库中;对于DQL语句,将SQL字符串转换为抽象语法树,对抽象语法树进行语法分析,同时根据第二元数据库中的数据质量标准,解析最新生成SQL语义是否有误,并添加扩展信息;
步骤4,驱动器中编译器将抽象语法树编译生成相应的逻辑执行计划,结合第二元数据库中的数据质量标准,驱动器中优化器对逻辑执行计划进行优化,驱动器中执行器将优化后的逻辑执行计划转换成物理计划,生成MapReduce的作业并提交到Yarn上执行,最后,将执行结果返回;
步骤5,返回的执行结果存入HDFS,并进行数据可视以及异常数据导出、追踪、溯源。
2.根据权利要求1所述的基于Hadoop的海量数据数据质量校验方法,其特征在于,所述的数据质量标准包括:
正则规则:通过自定义正则表达式的形式制定的规则;
验证规则:邮箱号码验证,手机号码验证,车牌号码验证;
判断规则:判断内容长度、是否为空、数据范围;
内容格式规则;
特定场景下算法规则;
定义数据质量校验的标准输入与输出:定义数据质量校验的输入参数、输出参数、返回格式、字段格式信息。
3.根据权利要求2所述的基于Hadoop的海量数据数据质量校验方法,其特征在于,所述的返回格式指:使用Json数组的形式作为数据质量探查的结果输出。
4.根据权利要求2所述的基于Hadoop的海量数据数据质量校验方法,其特征在于,步骤3中,所述的对抽象语法树进行语法分析,包括:
驱动...
【专利技术属性】
技术研发人员:李青枝,谢赟,吴新野,黄海清,陈大伟,
申请(专利权)人:上海德拓信息技术股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。