一种基于大数据和云计算的数据处理方法及云计算平台技术

技术编号:33729203 阅读:7 留言:0更新日期:2022-06-08 21:24
本发明专利技术公开了一种基于大数据和云计算的数据处理方法及云计算平台,包括步骤:S1,获取待处理的原始数据;S2,对原始数据进行缺失值清洗,得到缺失值清洗后数据;S3,对缺失值清洗后数据进行错误值清洗,得到错误值清洗后数据;错误值包括格式错误、拼写错误和属性域错误;S4,对错误值清洗后数据进行相似度重复记录清洗,得到重复清洗后数据。本发明专利技术利用云计算对大数据进行缺失值清洗、错误值清洗和相似度重复记录清洗,可有效提高大数据的质量。可有效提高大数据的质量。可有效提高大数据的质量。

【技术实现步骤摘要】
一种基于大数据和云计算的数据处理方法及云计算平台


[0001]本专利技术涉及数据处理
,尤其是一种基于大数据和云计算的数据处理方法及云计算平台。

技术介绍

[0002]随着计算机技术尤其是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大。人们已经评估出世界上信息的数量每20个月就会翻一番,并且数据库的数量与大小正在以更快的速度增长。
[0003]大数据隐含着极大的价值,人们越来越希望从大量的数据中挖掘出有价值的信息供管理、决策和调控参考使用。目前数据挖掘技术取得了极大的发展,它已经在众多领域取得了广泛的应用。如果能对大数据进行有效地处理,将极大地推动社会经济和科学研究的发展。一般情况下,数据处理中总是假设获取的数据是“干净”和一致的。然而,现实中获取的数据往往是冗余的、不完整的、含有噪声的,且这些数据存在不一致性,这样的数据被统称为“脏数据”,他们严重影响了数据利用的效率和决策质量。根据“垃圾进,垃圾出”原理,若不进行清洗,这些脏数据会影响真实的信息,为企业构建数据仓库、建立决策支持系统、应用商务智能带来隐患。如何充分利用海量数据,提高数据质量,为决策支持系统提供正确的数据,实现从数据到信息、信息到知识的提炼,从而为企业的生产经营做出正确决策提供服务,已经成为亟待解决的问题。因此,为了使系统中的数据更加准确、一致,能够支持正确决策,对数据的清洗处理就显得尤为重要。

技术实现思路

[0004]针对现有技术中的缺陷,本专利技术提供了一种基于大数据和云计算的数据处理方法及云计算平台,可提高大数据的质量。
[0005]第一方面,本专利技术提供了一种基于大数据和云计算的数据处理方法,包括以下步骤:
[0006]S1,获取待处理的原始数据;
[0007]S2,对所述原始数据进行缺失值清洗,得到缺失值清洗后数据;
[0008]S3,对所述缺失值清洗后数据进行错误值清洗,得到错误值清洗后数据;所述错误值包括格式错误、拼写错误和属性域错误;
[0009]S4,对所述错误值清洗后数据进行相似度重复记录清洗,得到重复清洗后数据。
[0010]优选地,所述数据处理方法基于Spark

ETL框架。
[0011]优选地,所述Spark

ETL框架包括:
[0012]配置单元,用于对清洗流程进行配置,构建大数据清洗流水线;所述大数据清洗流水线包括多个细分的大数据清洗操作单元;
[0013]解析单元,用于对所述大数据清洗流水线进行解析,得到清洗任务;
[0014]Spark集群,用于根据所述清洗任务对所述原始数据进行清洗。
[0015]优选地,所述步骤S4具体包括以下步骤:
[0016]S41,根据所述错误值清洗后数据特点设定N个属性字段,根据所述属性字段创建一个索引;
[0017]S42,将所述错误值清洗后数据按照所述索引进行排序;
[0018]S43,在已经排序好的所述错误值清洗后数据上划定一个大小为M的滑动窗口;
[0019]S44,将所述窗口内的第一条记录与剩下的M

1条记录进行比较,删除所述剩下的M

1条记录中与所述第一条记录相似度值大于预设相似度阈值的记录;
[0020]S45,循环步骤S44,直至所述窗口中的第一条记录与剩下的M

1条记录的相似度值均小于等于预设相似度阈值;
[0021]S46,将所述窗口向下滑动一条记录;
[0022]S47,重复所述步骤S44、S45和S46,得到重复清洗后数据。
[0023]优选地,所述相似度值的计算方法包括:
[0024]分别计算所要比较的两条记录中各个属性字段值的相似度;
[0025]计算各个属性字段值的相似度的加权运算值,得到两条记录的相似度值。
[0026]优选地,所述错误值的检测方法包括基于规则的错误检测方法和基于统计的错误检测方法。
[0027]优选地,所述缺失值的检测方法包括关联规则方法、聚类方法和基于统计的缺失检测方法。
[0028]优选地,所述数据处理方法还包括:
[0029]S5,对所述重复清洗后数据进行存储和备份。
[0030]第二方面,本专利技术还提供了一种云计算平台,包括:处理器和存储器,所述存储器用于存储一个或多个程序;当所述一个或多个程序被所述处理器执行时,实现第一方面所述的一种基于大数据和云计算的数据处理方法。
[0031]本专利技术的有益效果为:
[0032]利用云计算对大数据进行缺失值清洗、错误值清洗和相似度重复记录清洗,可有效提高大数据的质量;并采用Spark

ETL框架,能够显著提高数据清洗的清洗速度,实现高速度和高效率的数据清洗,更加适用于当前的大数据环境。
附图说明
[0033]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
[0034]图1为本专利技术实施例一种基于大数据和云计算的数据处理方法的数据处理方法的流程示意图;
[0035]图2为本专利技术实施例一种云计算平台的结构示意图。
具体实施方式
[0036]下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只作为示例,而不能以此来限制本专利技术的保护范
围。
[0037]需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。
[0038]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0040]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0041]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0042]参见图1,本专利技术实施例提供了一种基于大数据和云计算的数据处理方法,包括以下步骤:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据和云计算的数据处理方法,其特征在于,包括步骤:S1,获取待处理的原始数据;S2,对所述原始数据进行缺失值清洗,得到缺失值清洗后数据;S3,对所述缺失值清洗后数据进行错误值清洗,得到错误值清洗后数据;所述错误值包括格式错误、拼写错误和属性域错误;S4,对所述错误值清洗后数据进行相似度重复记录清洗,得到重复清洗后数据。2.根据权利要求1所述的一种基于大数据和云计算的数据处理方法,其特征在于,所述数据处理方法基于Spark

ETL框架。3.根据权利要求2所述的一种基于大数据和云计算的数据处理方法,其特征在于,所述Spark

ETL框架包括:配置单元,用于对清洗流程进行配置,构建大数据清洗流水线;所述大数据清洗流水线包括多个细分的大数据清洗操作单元;解析单元,用于对所述大数据清洗流水线进行解析,得到清洗任务;Spark集群,用于根据所述清洗任务对所述原始数据进行清洗。4.根据权利要求3所述的一种基于大数据和云计算的数据处理方法,其特征在于,所述步骤S4具体包括以下步骤:S41,根据所述错误值清洗后数据特点设定N个属性字段,根据所述属性字段创建一个索引;S42,将所述错误值清洗后数据按照所述索引进行排序;S43,在已经排序好的所述错误值清洗后数据上划定一个大小为M的滑动窗口;S44,将所述窗口内的第一条记录与剩下的M

1条记录进行比较,...

【专利技术属性】
技术研发人员:陈强游建
申请(专利权)人:深圳极联信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1