一种基于python脚本的分布式大数据清洗方法技术

技术编号：26790836 阅读：27 留言：0更新日期：2020-12-22 17:05

本发明专利技术公开了一种基于python脚本的分布式大数据清洗方法，该方法包括如下步骤，首先对待清洗的数据的加载，再对加载后的待清洗的数据进行分片操作，对待清洗的数据进行分布式调度以及执行操作，对待清洗的数据进行请求以及对清洗结果进行回填，其中，步骤一具体分为如下步骤，数据加载，首先从HBase列存数据库加载所需要进行清洗的数据，制定清洗策略，设置数据清洗策略。本发明专利技术基于大数据技术，基于HBase列存储数据库做数据清洗，解决了海量数据清洗问题，采用python引擎及脚本做数据清洗，解决了传统SQL清洗规则少的问题和jar包清洗静态编码的问题，基于Spark的分布式计算引擎，并行执行脚本，解决了大数据清洗算力不足的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于python脚本的分布式大数据清洗方法
本专利技术涉及数据清洗领域，具体涉及一种基于python脚本的分布式大数据清洗方法。
技术介绍
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等，与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。现有的分布式大数据清洗方法，清洗能力较为有限，不能够针对大量的数据进行清洗，且现有的清洗方法基本都是采用SQL清洗规则，清洗规则较少，导致清洗效果较为一般，此外传统的清洗数据的方法清洗算力不足，因此，如何将打造一种基于python脚本的分布式大数据清洗方法成为一个亟待解决的问题。
技术实现思路
本专利技术所要解决的技术问题在于：现有的分布式大数据清洗方法，清洗能力较为有限，不能够针对大量的数据进行清洗，且现有的清洗方法基本都是采用SQL清洗规则，清洗规则较少，导致清洗效果较为一般，此外传统的清洗数据的方法清洗算力不足。本专利技术是通过以下技术方案解决上述技术问题的，一种基于python脚...

【技术保护点】
1.一种基于python脚本的分布式大数据清洗方法，其特征在于，该方法包括如下步骤：/n步骤一：首先对待清洗的数据的加载，再对加载后的待清洗的数据进行分片操作；/n步骤二：对待清洗的数据进行分布式调度以及执行操作；/n步骤三：对待清洗的数据进行请求以及对清洗结果进行回填；/n其中，步骤一具体分为如下步骤：/nS1：数据加载，首先从HBase列存数据库加载所需要进行清洗的数据；/nS2：制定清洗策略，设置数据清洗策略；/nS3：根据S2制定的清洗策略，对所有待清洗的数据进行分片，并记录各个分片的信息；/n步骤二具体分为如下步骤：/nA1：调度策略，根据步骤一S2中制定的清洗策略，实现清洗任务的调...

【技术特征摘要】
1.一种基于python脚本的分布式大数据清洗方法，其特征在于，该方法包括如下步骤：
步骤一：首先对待清洗的数据的加载，再对加载后的待清洗的数据进行分片操作；
步骤二：对待清洗的数据进行分布式调度以及执行操作；
步骤三：对待清洗的数据进行请求以及对清洗结果进行回填；
其中，步骤一具体分为如下步骤：
S1：数据加载，首先从HBase列存数据库加载所需要进行清洗的数据；
S2：制定清洗策略，设置数据清洗策略；
S3：根据S2制定的清洗策略，对所有待清洗的数据进行分片，并记录各个分片的信息；
步骤二具体分为如下步骤：
A1：调度策略，根据步骤一S2中制定的清洗策略，实现清洗任务的调度策略；
A2：加载脚本，根据步骤一S2中制定的清洗策略，加载Python清洗脚本；
A3：根据A1中的调度策略，生成调度任务，将调度任务绑定Python脚本引擎，并绑定清洗脚本；
步骤三具体分为如下步骤：
Y1：执行任务，根据步骤二A1中的调度策略，执行待清洗数据分布式调度任务；
Y2：数据清洗，步骤A1中每个调度任务工作节点的执行器，通过绑定的Python脚本引擎执行数据清洗脚本；
Y3：结果回填，将所清洗的数据的清洗结果，回填到HBase列存数据库的数据清洗目标表。

2.根据权利要求1所述的一种基于python脚本...

【专利技术属性】
技术研发人员：鲁红军，
申请(专利权)人：陕西云基华海信息技术有限公司，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人