一种大数据清洗方法、系统、存储介质和电子设备技术方案

技术编号:33200088 阅读:14 留言:0更新日期:2022-04-24 00:35
本发明专利技术涉及数据处理技术领域,提供一种大数据清洗方法、系统、存储介质和电子设备,一方面,当判断目标业务数据集合存在缺失业务数据时,直接根据缺失业务数据相关联的业务数据进行填充,既能提高数据清洗效率,还在极大程度上保证了数据清洗质量,另一方面,对第一目标业务数据集合进行去重处理,在去重后所得到的第二目标业务数据的基础进行聚合清洗,进一步提高数据清洗效率,而且,并将每条去重数据的数量关联到相应的清洗后的数据集合中,使用户在调用任一清洗后的数据集合时,能够相应添加去重数据,达到为用户提供更精准的数据支持的目的。目的。目的。

【技术实现步骤摘要】
一种大数据清洗方法、系统、存储介质和电子设备


[0001]本专利技术涉及数据处理
,尤其涉及一种大数据清洗方法、系统、存储介质和电子设备。

技术介绍

[0002]近些年来,大数据技术越来越成熟,广泛应用在医学、电子信息、图像识别、贸易业务处理等领域,以业务数据为例进行说明,随着贸易业务的开展,业务数据会不断增多,日趋庞大,由于业务数据采集来源多样,数据质量也不一致,导致采集到的业务数据会存在空值,异常值等问题。缺失或异常数据会极大影响后续数据分析的质量,如果对采集数据源进行多次对比验证也会降低数据清洗效率。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对现有技术的不足,提供了一种大数据清洗方法、系统、存储介质和电子设备。
[0004]本专利技术的一种大数据清洗方法的技术方案如下:
[0005]判断目标业务数据集合是否存在缺失业务数据,若是,则根据所述目标业务数据集合中的且与所述缺失业务数据相关联的业务数据,对所述缺失业务数据进行填充,得到第一目标业务数据集合;
[0006]对所述第一目标业务数据集合进行去重处理,得到第二目标业务数据集合,并记录每条去重业务数据的数量;
[0007]按照用户指定的每个预设筛选规则分别对所述第二目标业务数据集合进行分类处理,得到多个清洗后的数据集合,并将每条去重业务数据的数量关联到相应的清洗后的数据集合中。
[0008]本专利技术的一种大数据清洗方法的有益效果如下:
[0009]一方面,当判断目标业务数据集合存在缺失业务数据时,直接根据缺失业务数据相关联的业务数据进行填充,既能提高数据清洗效率,还在极大程度上保证了数据清洗质量,另一方面,对第一目标业务数据集合进行去重处理,在去重后所得到的第二目标业务数据的基础进行聚合清洗,进一步提高数据清洗效率,而且,并将每条去重业务数据的数量关联到相应的清洗后的数据集合中,使用户在调用任一清洗后的数据集合时,能够相应添加去重数据,达到为用户提供更精准的数据支持的目的。
[0010]在上述方案的基础上,本专利技术的一种大数据清洗方法还可以做如下改进。
[0011]进一步,所述目标业务数据集合的获取过程,包括:
[0012]将获取得到的原始业务数据集合进行聚类,得到多个业务数据集合,将用户指定的任一业务数据集合确定为所述目标业务数据集合。
[0013]采用上述进一步方案的有益效果是:将获取得到的原始业务数据集合进行聚类,相当于对原始业务数据集合进行预处理,进一步提高数据清洗效率。
[0014]进一步,还包括:
[0015]生成分别指向每个清洗后的数据集合的短链接;
[0016]接收用户的智能终端发送的数据请求,将所述数据请求对应的短链接发送至所述用户的智能终端。
[0017]采用上述进一步方案的有益效果是:相比于直接发送清洗后的数据集合,短链接的字节长度更短,能更快发送至用户的智能终端,提高用户体验度。
[0018]进一步,所述原始业务数据集合的获取过程,包括:
[0019]通过网络爬虫的方式获取所述原始业务数据集合。
[0020]本专利技术的一种大数据清洗系统的技术方案如下:
[0021]包括判断填充模块、去重模块和聚合关联模块;
[0022]所述判断填充模块用于:判断目标业务数据集合是否存在缺失业务数据,若是,则根据所述目标业务数据集合中的且与所述缺失业务数据相关联的业务数据,对所述缺失业务数据进行填充,得到第一目标业务数据集合;
[0023]所述去重模块用于:对所述第一目标业务数据集合进行去重处理,得到第二目标业务数据集合,并记录每条去重业务数据的数量;
[0024]所述聚合关联模块用于:按照用户指定的每个预设筛选规则分别对所述第二目标业务数据集合进行分类处理,得到多个清洗后的数据集合,并将每条去重业务数据的数量关联到相应的清洗后的数据集合中。
[0025]本专利技术的一种大数据清洗系统的有益效果如下:
[0026]一方面,当判断目标业务数据集合存在缺失业务数据时,直接根据缺失业务数据相关联的业务数据进行填充,既能提高数据清洗效率,还在极大程度上保证了数据清洗质量,另一方面,对第一目标业务数据集合进行去重处理,在去重后所得到的第二目标业务数据的基础进行聚合清洗,进一步提高数据清洗效率,而且,并将每条去重数据的数量关联到相应的清洗后的数据集合中,使用户在调用任一清洗后的数据集合时,能够相应添加去重数据,达到为用户提供更精准的数据支持的目的。
[0027]在上述方案的基础上,本专利技术的一种大数据清洗系统还可以做如下改进。
[0028]进一步,还包括第一获取模块,所述第一获取模块用于:将获取得到的原始业务数据集合进行聚类,得到多个业务数据集合,将用户指定的任一业务数据集合确定为所述目标业务数据集合。
[0029]采用上述进一步方案的有益效果是:将获取得到的原始业务数据集合进行聚类,相当于对原始业务数据集合进行预处理,进一步提高数据清洗效率。
[0030]进一步,还包括生成发送模块,所述生成发送模块用于:
[0031]生成分别指向每个清洗后的数据集合的短链接;
[0032]接收用户的智能终端发送的数据请求,将所述数据请求对应的短链接发送至所述用户的智能终端。
[0033]采用上述进一步方案的有益效果是:相比于直接发送清洗后的数据集合,短链接的字节长度更短,能更快发送至用户的智能终端,提高用户体验度。
[0034]进一步,还包括第二获取模块,所述第二获取模块用于:通过网络爬虫的方式获取所述原始业务数据集合。
[0035]本专利技术的一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述任一项所述的一种大数据清洗方法。
[0036]本专利技术的一种电子设备,包括处理器和上述的存储介质,所述处理器执行所述存储介质中的指令。
附图说明
[0037]图1为本专利技术实施例的一种大数据清洗方法的流程示意图;
[0038]图2为本专利技术实施例的一种大数据清洗系统的结构示意图。
具体实施方式
[0039]如图1所示,本专利技术实施例的一种大数据清洗方法,包括如下步骤:
[0040]S1、判断目标业务数据集合是否存在缺失业务数据,若是,则根据所述目标业务数据集合中的且与所述缺失业务数据相关联的业务数据,对所述缺失业务数据进行填充,得到第一目标业务数据集合;
[0041]其中,目标业务数据集合包括多条业务数据,可通过如下方式判断目标业务数据集合是否存在缺失业务数据,缺失业务数据具体指:存在空值和/或的异常值的业务数据,具体地:
[0042]1)预先设置每条业务数据对应的多个数据项如成本价格、出售价格、运费、重量、尺寸、产地(购置地)、买方所在城市和利润等,例如,已卖出的某型号的笔记本电脑的成本价格为5000元,出售价格为5500元,运费为80元,例如,已卖出的某型号的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据清洗方法,其特征在于,包括:判断目标业务数据集合是否存在缺失业务数据,若是,则根据所述目标业务数据集合中的且与所述缺失业务数据相关联的业务数据,对所述缺失业务数据进行填充,得到第一目标业务数据集合;对所述第一目标业务数据集合进行去重处理,得到第二目标业务数据集合,并记录每条去重业务数据的数量;按照用户指定的每个预设筛选规则分别对所述第二目标业务数据集合进行分类处理,得到多个清洗后的数据集合,并将每条去重业务数据的数量关联到相应的清洗后的数据集合中。2.根据权利要求1所述的一种大数据清洗方法,其特征在于,所述目标业务数据集合的获取过程,包括:将获取得到的原始业务数据集合进行聚类,得到多个业务数据集合,将用户指定的任一业务数据集合确定为所述目标业务数据集合。3.根据权利要求1或2所述的一种大数据清洗方法,其特征在于,还包括:生成分别指向每个清洗后的数据集合的短链接;接收用户的智能终端发送的数据请求,将所述数据请求对应的短链接发送至所述用户的智能终端。4.根据权利要求2所述的一种大数据清洗方法,其特征在于,所述原始业务数据集合的获取过程,包括:通过网络爬虫的方式获取所述原始业务数据集合。5.一种大数据清洗系统,其特征在于,包括判断填充模块、去重模块和聚合关联模块;所述判断填充模块用于:判断目标业务数据集合是否存在缺失业务数据,若是,则根据所述目标业务数据集合中的且与所述缺失业务数据相关联的业务...

【专利技术属性】
技术研发人员:李冰刘亦帆张振张敬
申请(专利权)人:湖北省信产通信服务有限公司数字科技分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1