【技术实现步骤摘要】
一种基于大数据和云计算的数据处理方法及云计算平台
[0001]本专利技术涉及数据处理
,尤其是一种基于大数据和云计算的数据处理方法及云计算平台。
技术介绍
[0002]随着计算机技术尤其是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大。人们已经评估出世界上信息的数量每20个月就会翻一番,并且数据库的数量与大小正在以更快的速度增长。
[0003]大数据隐含着极大的价值,人们越来越希望从大量的数据中挖掘出有价值的信息供管理、决策和调控参考使用。目前数据挖掘技术取得了极大的发展,它已经在众多领域取得了广泛的应用。如果能对大数据进行有效地处理,将极大地推动社会经济和科学研究的发展。一般情况下,数据处理中总是假设获取的数据是“干净”和一致的。然而,现实中获取的数据往往是冗余的、不完整的、含有噪声的,且这些数据存在不一致性,这样的数据被统称为“脏数据”,他们严重影响了数据利用的效率和决策质量。根据“垃圾进,垃圾出”原理,若不进行清洗,这些脏数据会影响真实的信息,为企业构建数据仓库、建立决策支持系统、应用商务智 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据和云计算的数据处理方法,其特征在于,包括步骤:S1,获取待处理的原始数据;S2,对所述原始数据进行缺失值清洗,得到缺失值清洗后数据;S3,对所述缺失值清洗后数据进行错误值清洗,得到错误值清洗后数据;所述错误值包括格式错误、拼写错误和属性域错误;S4,对所述错误值清洗后数据进行相似度重复记录清洗,得到重复清洗后数据。2.根据权利要求1所述的一种基于大数据和云计算的数据处理方法,其特征在于,所述数据处理方法基于Spark
‑
ETL框架。3.根据权利要求2所述的一种基于大数据和云计算的数据处理方法,其特征在于,所述Spark
‑
ETL框架包括:配置单元,用于对清洗流程进行配置,构建大数据清洗流水线;所述大数据清洗流水线包括多个细分的大数据清洗操作单元;解析单元,用于对所述大数据清洗流水线进行解析,得到清洗任务;Spark集群,用于根据所述清洗任务对所述原始数据进行清洗。4.根据权利要求3所述的一种基于大数据和云计算的数据处理方法,其特征在于,所述步骤S4具体包括以下步骤:S41,根据所述错误值清洗后数据特点设定N个属性字段,根据所述属性字段创建一个索引;S42,将所述错误值清洗后数据按照所述索引进行排序;S43,在已经排序好的所述错误值清洗后数据上划定一个大小为M的滑动窗口;S44,将所述窗口内的第一条记录与剩下的M
‑
1条记录进行比较,...
【专利技术属性】
技术研发人员:陈强,游建,
申请(专利权)人:深圳极联信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。