一种数据聚合清洗方法及系统技术方案

技术编号：20389519 阅读：26 留言：0更新日期：2019-02-20 02:43

本发明专利技术提供一种数据聚合清洗方法，该清洗方法包括以下步骤：从原始业务系统中提取原始数据；提取的原始数据经前置清洗后生成前置清洗结果存储在公共数据库内；不同清洗业务根据需求从公共数据库内提取所需前置清洗结果进行清洗运算，以生成相应的清洗结果；该方法将原始业务系统与各个清洗业务进行隔绝，大大降低了原始业务的I/O压力，减少了各个清洗业务对原始业务的干扰。本发明专利技术还提供一种数据聚合清洗系统。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据聚合清洗方法及系统
本专利技术涉及数据清洗领域，具体的说，涉及了一种数据聚合清洗方法及系统。
技术介绍
如图1所示，在传统Hadoop数据聚合清洗业务中，即使要处理的数据源相同，但按照业务的不同仍需要设计不同的数据清洗流程，这样会造成清洗业务效率及灵活度低下；因为各个清洗业务的结果有强业务关联性，故无法提供给其他清洗业务作为输入数据，这会导致运算力的大量浪费；由于每个清洗业务均会直接读取原始数据，这会引起大量重复的I/O操作，甚至会降低原始业务的I/O性能，从而影响原始业务系统；并且各个清洗业务的开发人员水平不尽相同，但每个清洗业务均需要直接接触原始业务系统，可能会出现因操作不规范引起的数据安全问题，从而威胁原始业务的安全性。为了解决以上存在的问题，人们一直在寻求一种理想的技术解决方案。
技术实现思路
本专利技术的目的是针对现有技术的不足，从而提供了一种数据聚合清洗方法及系统，能够降低批量数据清洗业务对原始业务的干扰，提升数据安全性。为了实现上述目的，本专利技术所采用的技术方案是：一种数据聚合清洗方法，该清洗方法包括以下步骤：从原始业务系统中提取原始数据；提取的原始数据经前置清洗后生成前置清洗结果存储在公共数据库内；不同清洗业务根据需求从公共数据库内提取所需前置清洗结果进行清洗运算，以生成相应的清洗结果。基于上述，所述前置清洗采用最小颗粒度清洗方法，包括以下步骤：将提取的原始数据送入至一个或多个MapReduceJob作业中；每个MapReduceJob使用多个预设正则表达式对原始数据的所有有效字段进行匹配，剥离干扰信息，取出目标格式数据，每个正则表达...

【技术保护点】
1.一种数据聚合清洗方法，其特征在于，包括以下步骤：从原始业务系统中提取原始数据；提取的原始数据经前置清洗后生成前置清洗结果存储在公共数据库内；不同清洗业务根据需求从公共数据库内提取所需前置清洗结果进行清洗运算，以生成相应的清洗结果。

【技术特征摘要】
1.一种数据聚合清洗方法，其特征在于，包括以下步骤：从原始业务系统中提取原始数据；提取的原始数据经前置清洗后生成前置清洗结果存储在公共数据库内；不同清洗业务根据需求从公共数据库内提取所需前置清洗结果进行清洗运算，以生成相应的清洗结果。2.根据权利要求1所述的数据聚合清洗方法，其特征在于，所述前置清洗采用最小颗粒度清洗方法，包括以下步骤：将提取的原始数据送入至一个或多个MapReduceJob作业中；每个MapReduceJob使用多个预设正则表达式对原始数据的所有有效字段进行匹配，剥离干扰信息，取出目标格式数据，每个正则表达式对应一种原始数据；匹配结束后将目标格式数据以结构化数据的形式保存在HBase数据库内，即形成前置清洗结果。3.根据权利要求2所述的数据聚合清洗方法，其特征在于，不同清洗业务根据需求从公共数据库内提取所需前置清洗结果进行清洗运算，以生成相应的清洗结果的具体步骤为：创建一个与HBase数据库关联的Hive外联表，并对不同清洗业务的数据读取权限进行限制；不同清洗业务根据需求和数据读取权限从HBase数据库内提取所需前置清洗结果，并基于该清洗业务的数据运算方法进行清洗运算，以生成相应的清洗结果。4.根据权利要求1或2或3所述的数据聚合清洗方法，其特征在于：从原始业务系统中提取原始数据后，将原始数据复制到临时存储服务器中，再从临时存储服务器中读取原始数据进行前置清洗。5.根据权利要求1所述的数据聚合清洗方法，其特征在于，所述前置清洗采用父业务清洗方法，具体包括以下步骤：选取一个清洗业务作为父业务，并依次比较各个清洗业务与父业务之间的重合度，当重合度大于预设重合度阈值时，将该清洗业务并入父业务中；提取的原始数据经父业务清洗后，即生成前置清...

【专利技术属性】
技术研发人员：杨智，李雪燕，何金钢，张东旭，
申请(专利权)人：河南智云数据信息技术股份有限公司，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人