一种基于大数据和云计算的数据处理方法及云计算平台技术

技术编号:33729203 阅读:22 留言:0更新日期:2022-06-08 21:24
本发明专利技术公开了一种基于大数据和云计算的数据处理方法及云计算平台,包括步骤:S1,获取待处理的原始数据;S2,对原始数据进行缺失值清洗,得到缺失值清洗后数据;S3,对缺失值清洗后数据进行错误值清洗,得到错误值清洗后数据;错误值包括格式错误、拼写错误和属性域错误;S4,对错误值清洗后数据进行相似度重复记录清洗,得到重复清洗后数据。本发明专利技术利用云计算对大数据进行缺失值清洗、错误值清洗和相似度重复记录清洗,可有效提高大数据的质量。可有效提高大数据的质量。可有效提高大数据的质量。

【技术实现步骤摘要】
一种基于大数据和云计算的数据处理方法及云计算平台


[0001]本专利技术涉及数据处理
,尤其是一种基于大数据和云计算的数据处理方法及云计算平台。

技术介绍

[0002]随着计算机技术尤其是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大。人们已经评估出世界上信息的数量每20个月就会翻一番,并且数据库的数量与大小正在以更快的速度增长。
[0003]大数据隐含着极大的价值,人们越来越希望从大量的数据中挖掘出有价值的信息供管理、决策和调控参考使用。目前数据挖掘技术取得了极大的发展,它已经在众多领域取得了广泛的应用。如果能对大数据进行有效地处理,将极大地推动社会经济和科学研究的发展。一般情况下,数据处理中总是假设获取的数据是“干净”和一致的。然而,现实中获取的数据往往是冗余的、不完整的、含有噪声的,且这些数据存在不一致性,这样的数据被统称为“脏数据”,他们严重影响了数据利用的效率和决策质量。根据“垃圾进,垃圾出”原理,若不进行清洗,这些脏数据会影响真实的信息,为企业构建数据仓库、建立决策支持系统、应用商务智能带来隐患。如何充分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于大数据和云计算的数据处理方法,其特征在于,包括步骤:S1,获取待处理的原始数据;S2,对所述原始数据进行缺失值清洗,得到缺失值清洗后数据;S3,对所述缺失值清洗后数据进行错误值清洗,得到错误值清洗后数据;所述错误值包括格式错误、拼写错误和属性域错误;S4,对所述错误值清洗后数据进行相似度重复记录清洗,得到重复清洗后数据。2.根据权利要求1所述的一种基于大数据和云计算的数据处理方法,其特征在于,所述数据处理方法基于Spark

ETL框架。3.根据权利要求2所述的一种基于大数据和云计算的数据处理方法,其特征在于,所述Spark

ETL框架包括:配置单元,用于对清洗流程进行配置,构建大数据清洗流水线;所述大数据清洗流水线包括多个细分的大数据清洗操作单元;解析单元,用于对所述大数据清洗流水线进行解析,得到清洗任务;Spark集群,用于根据所述清洗任务对所述原始数据进行清洗。4.根据权利要求3所述的一种基于大数据和云计算的数据处理方法,其特征在于,所述步骤S4具体包括以下步骤:S41,根据所述错误值清洗后数据特点设定N个属性字段,根据所述属性字段创建一个索引;S42,将所述错误值清洗后数据按照所述索引进行排序;S43,在已经排序好的所述错误值清洗后数据上划定一个大小为M的滑动窗口;S44,将所述窗口内的第一条记录与剩下的M

1条记录进行比较,...

【专利技术属性】
技术研发人员:陈强游建
申请(专利权)人:深圳极联信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1