一种数据处理方法、计算机可读存储介质及电子设备技术

技术编号:35815987 阅读:13 留言:0更新日期:2022-12-03 13:39
本申请公开一种数据处理方法、计算机可读存储介质及电子设备,其方法包括:获取待清洗数据及待清洗数据的属性标识,属性标识用于表示待清洗数据的来源和/或格式;根据属性标识和训练任务的需求确定待清洗数据的至少一个清洗规则;根据至少一个清洗规则对待清洗数据进行清洗,得到清洗结果数据;将清洗结果数据存储至与属性标识和训练任务的需求对应的第一存储路径下。采用本方案,对于不同来源、不同格式的海量数据也可以快速、高效地完成清洗。高效地完成清洗。高效地完成清洗。

【技术实现步骤摘要】
一种数据处理方法、计算机可读存储介质及电子设备


[0001]本申请涉及大数据处理
,特别涉及一种数据处理方法、计算机可读存储介质及电子设备。

技术介绍

[0002]当前,对于机器学习算法的模型训练过程主要包括如下过程:获取训练样本;依据训练目的对训练样本设置标签;将训练样本和标签对应地输入到所选的机器学习算法中进行训练;经过大量训练样本的迭代训练后可得到最终模型。
[0003]由于训练样本的数据量非常大,不可避免的要通过多种渠道去获得。例如,对语音信号进行训练时,与语音信号相关的样本数据可以来自不同视频网站、不同影视作品或用户录制音频等;对图像进行训练时,与图像相关的样本数据可以来自于不同素材网站或者用户拍摄等。以上,直接从不同来源获取的样本数据可能具有不同的格式。
[0004]在模型训练时,对于输入的训练样本有一定的要求,因此,需要对获取到的样本数据进行数据清洗从而得到符合训练要求的训练样本。但是,对于不同格式的样本数据,是不能采用相同的数据清洗规则进行清洗的,例如对于文本格式的数据清洗规则中需设置全局过滤条件和数据依赖条件,而对于语音格式或图片格式的数据清洗规则中,就不需要设置上述设置,这就导致面对海量的样本数据时,数据清洗的效率通常比较低。

技术实现思路

[0005]本申请要解决的是现有技术中对大量样本数据进行数据清洗时,存在的清洗效率低的技术问题,为此,本申请提出了一种数据处理方法、计算机可读存储介质及电子设备。
[0006]针对上述技术问题,本申请提供如下技术方案:
[0007]第一方面,本申请一些实施例中提供一种数据处理方法,包括:获取待清洗数据及待清洗数据的属性标识,属性标识用于表示待清洗数据的来源和/或格式;根据属性标识和训练任务的需求确定待清洗数据的至少一个清洗规则;根据至少一个清洗规则对待清洗数据进行清洗,得到清洗结果数据;将清洗结果数据存储至与属性标识和训练任务的需求对应的第一存储路径下。
[0008]一些实施例中的数据处理方法中,根据至少一个清洗规则对待清洗数据进行清洗,得到清洗结果数据,包括:清洗规则包括多个清洗规则时,根据属性标识和训练任务的需求对清洗规则进行排序;根据排序,对待清洗数据按照多个清洗规则依次进行清洗,其中,前一个清洗规则清洗完成后得到的数据作为当前清洗规则中需要被清洗的数据,最后一个清洗规则清洗完成后得到的数据作为清洗结果数据。
[0009]一些实施例中的数据处理方法中,在获取待清洗数据及待清洗数据的属性标识,属性标识用于表示待清洗数据的来源和/或格式之前,该方法还包括:从至少一个来源处获取原始数据;根据原始数据的格式将原始数据划分为与格式对应的设定大小的数据块;以全部的数据块作为待清洗数据。
[0010]一些实施例中的数据处理方法中,根据原始数据的格式将原始数据划分为与格式对应的设定大小的数据块,包括:根据数据块的来源将数据块存储至与来源对应的第二存储路径下;其中,不同来源的数据块对应于不同的第二存储路径。
[0011]一些实施例中的数据处理方法中,获取待清洗数据及待清洗数据的属性标识,包括:从每一个第二存储路径获取其路径下存储的数据块,并将数据块存储至与属性标识对应的第三存储路径下。
[0012]一些实施例中的数据处理方法中,从每一个第二存储路径获取其中存储的数据块,并将数据块存储至与属性标识对应的第三存储路径下,包括:通过并行的多个下载进程,将每一个第二存储路径下的数据块存储至对应的第三存储路径下。
[0013]一些实施例中的数据处理方法,通过并行的多个下载进程,将每一个第二存储路径下的数据块存储至对应的第三存储路径下,包括:获取每一个第二存储路径下存储的数据块数量;获取用于从每一个第二存储路径下获取数据块的下载进程数;根据数据块数量和并行下载进程数,确定每一下载进程需要下载的数据块;启动并行的多个下载进程,每一个下载进程将其需要下载的数据块下载至对应的第三存储路径下,其中,每一个下载进程下载至少一个数据块,不同的下载进程并行下载数据块。
[0014]一些实施例中的数据处理方法中,根据至少一个清洗规则对待清洗数据进行清洗,得到清洗结果数据,包括:响应于任意一个数据块下载至第三存储路径下,根据至少一个清洗规则对第三存储路径下已下载的数据块进行清洗并得到清洗结果数据。
[0015]一些实施例中的数据处理方法中,响应于任意一个数据块下载至第三存储路径下,根据至少一个清洗规则对第三存储路径下已下载的数据块进行清洗并得到清洗结果数据之前,该方法还包括:根据下载进程数为每一个清洗规则配置多至少一个清洗进程,使清洗进程与下载进程一一对应。
[0016]一些实施例中的数据处理方法中,还包括:将清洗结果数据聚合后存储至与属性标识和训练任务的需求对应的第四存储路径下。
[0017]一些实施例中的数据处理方法中,还包括:将清洗结果数据和/或聚合后的清洗结果数据上传至与属性标识和训练任务的需求对应的第五存储路径下。
[0018]第二方面,本申请一些实施例中还提供一种数据处理装置,包括:数据获取模块,获取待清洗数据及待清洗数据的属性标识,属性标识用于表示待清洗数据的来源和/或格式;清洗规则确定模块,根据属性标识和训练任务的需求确定待清洗数据的至少一个清洗规则;清洗模块,根据至少一个清洗规则对待清洗数据进行清洗,得到清洗结果数据;存储模块,将清洗结果数据存储至与属性标识和训练任务的需求对应的第一存储路径下。
[0019]第三方面,本申请一些实施例中还提供一种计算机可读存储介质,存储介质中存储由设备执行的程序代码,程序代码包括用于执行如以上第一方面中任一项的数据处理方法。
[0020]第四方面,本申请一些实施例中还提供一种电子设备,电子设备包括至少一个处理器和至少一个存储器,至少一个存储器中存储有程序指令,至少一个处理器用于调用该程序指令以执行如以上第一方面中任一项的数据处理方法。
[0021]本申请的技术方案相对现有技术具有如下技术效果:
[0022]本申请提供的数据处理方法、计算机可读存储介质及电子设备,获取到待清洗数
据之后,根据待清洗数据的属性标识和训练任务的需求确定待清洗数据的至少一个清洗规则,直接利用确定好的清洗规则对待清洗数据进行清洗,从而能够使清洗结果数据符合数据的来源和/或格式的需求,还能够满足训练任务的需求,确保机器学习算法训练时,对于不同来源、不同格式的海量数据也可以快速、高效地完成清洗。
附图说明
[0023]下面将通过附图详细描述本申请中优选实施例,将有助于理解本申请的目的和优点,其中:
[0024]图1为本申请一个实施例所述数据处理方法的流程图;
[0025]图2为本申请一个实施例所述待清洗数据依据三次清洗规则执行清洗时的过程示意图;
[0026]图3为本申请一个实施例所述待清洗数据的获取流程示意图;
[0027]图4为本申请一个实施例所述待清洗数据获取和执行三次清洗时的过程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待清洗数据及所述待清洗数据的属性标识,所述属性标识用于表示所述待清洗数据的来源和/或格式;根据所述属性标识和训练任务的需求确定所述待清洗数据的至少一个清洗规则;根据所述至少一个清洗规则对所述待清洗数据进行清洗,得到清洗结果数据;将所述清洗结果数据存储至与所述属性标识和所述训练任务的需求对应的第一存储路径下。2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述至少一个清洗规则对所述待清洗数据进行清洗,得到清洗结果数据,包括:所述至少一个清洗规则包括多个清洗规则时,根据所述属性标识和所述训练任务的需求对所述清洗规则进行排序;根据所述排序,对所述待清洗数据按照所述多个清洗规则依次进行清洗,其中,前一个清洗规则清洗完成后得到的数据作为当前清洗规则中需要被清洗的数据,最后一个清洗规则清洗完成后得到的数据作为所述清洗结果数据。3.根据权利要求1或2所述的数据处理方法,其特征在于,在获取待清洗数据及所述待清洗数据的属性标识之前,所述方法还包括:从至少一个来源处获取原始数据;根据所述原始数据的格式将所述原始数据划分为与所述原始数据的格式对应的设定大小的数据块,并且以全部的数据块作为所述待清洗数据。4.根据权利要求3所述的数据处理方法,其特征在于,所述根据所述原始数据的格式将所述原始数据划分为与所述原始数据的格式对应的设定大小的数据块,包括:根据所述数据块的来源将所述数据块存储至与所述来源对应的第二存储路径下;其中,不同来源的数据块对应于不同的第二存储路径。5.根据权利要求4所述的数据处理方法,其特征在于,所述获取待清洗数据及所述待清洗数据的属性标识,包括:从所述第二存储路径中的每一个第二存储路径获取其中存储的数据块,并将所述数据块存储至与所述属性标识对应的第三存储路径下。6.根据权利要求5所述的数据处理方法,其特征在于,所述从所述第二存储路径中的每一个第二存...

【专利技术属性】
技术研发人员:星龙
申请(专利权)人:名日之梦北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1