数据清洗方法、装置、存储介质以及电子设备制造方法及图纸

技术编号:42660266 阅读:29 留言:0更新日期:2024-09-10 12:18
本申请涉及一种数据清洗方法、装置、存储介质以及电子设备。该方法包括:将目标用户的待清洗的目标原始数据存储到分布式集群的对象存储中;在接收到对目标原始数据执行清洗操作的清洗指令的情况下,通过分布式集群中的与目标原始数据对应的服务器节点将目标原始数据中,与服务器节点对应的第一原始数据下载到服务器节点本地;根据第一原始数据确定并发度和所需内存;通过服务器节点按照所需内存分配内存并按照并发度分配内核以对第一原始数据执行清洗操作,得到第一清洗数据;将每一个服务器节点得到的第一清洗数据上传到对象存储中。本申请解决了使用大数据集群存储与清洗数据造成的机器成本高的技术问题。

【技术实现步骤摘要】

本申请涉及分布式对象存储领域,尤其涉及一种数据清洗方法、装置、存储介质以及电子设备


技术介绍

1、现有技术中,对于大模型训练时使用的数据,一般要经过一系列的清洗才能用来训练大模型。而清洗过程通常是用大数据集群来存储数据并清洗。

2、如果使用大数据集群存储数据并清洗数据,则对于整个大数据集群的存储和计算资源要求比较高,需要具备足够的存储资源和计算资源才能够承载大量的数据,机器成本非常高。


技术实现思路

1、本申请提供了一种数据清洗方法、装置、存储介质以及电子设备,以解决使用大数据集群存储与清洗数据造成的机器成本高的技术问题。

2、第一方面,本申请提供了一种数据清洗方法,包括:将目标用户的待清洗的目标原始数据存储到分布式集群的对象存储中,其中,上述对象存储用于存储不同用户上传的原始数据;在接收到对上述目标原始数据执行清洗操作的清洗指令的情况下,通过上述分布式集群中的与上述目标原始数据对应的服务器节点将上述目标原始数据中,与上述服务器节点对应的第一原始数据下载到上述服务器节点本地;根据上述本文档来自技高网...

【技术保护点】

1.一种数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据所述第一原始数据确定并发度和所需内存包括:

3.根据权利要求2所述的方法,其特征在于,所述根据单个核清洗所述第一原始数据所需的时间与清洗所述第一原始数据的规划时间的比值,确定所述并发度包括:

4.根据权利要求1所述的方法,其特征在于,接收对所述目标原始数据执行清洗操作的清洗指令包括:

5.根据权利要求1所述的方法,其特征在于,在对所述第一原始数据执行清洗操作之前,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,在将每一个所述服务器...

【技术特征摘要】

1.一种数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据所述第一原始数据确定并发度和所需内存包括:

3.根据权利要求2所述的方法,其特征在于,所述根据单个核清洗所述第一原始数据所需的时间与清洗所述第一原始数据的规划时间的比值,确定所述并发度包括:

4.根据权利要求1所述的方法,其特征在于,接收对所述目标原始数据执行清洗操作的清洗指令包括:

5.根据权利要求1所述的方法,其特征在于,在对所述第一原始数据执行清洗操作之前,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,在将每一个所述服务器节点得到的所述第一清洗数据上传到所述对象存储中之后,所述...

【专利技术属性】
技术研发人员:刘彬吴帅龙
申请(专利权)人:北京金山云网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1