针对深度学习训练用数据的处理方法、系统及存储介质技术方案

技术编号:30227103 阅读:48 留言:0更新日期:2021-09-29 09:53
本申请公开了一种针对深度学习训练用数据的处理方法、系统及存储介质,属于计算机技术领域。该针对深度学习训练用数据的处理方法包括:提取在云平台中标注数据仓库里包含的原始标注数据;通过插拔连接的预处理模块对原始标注数据进行预处理;将经过预处理得到的数据结果存储到云平台中的共享文件系统,其中,数据结果用于深度学习训练本申请通过插拔的预处理容器模块对数据进行处理,灵活性强,便于扩展;通过共享文件系统的设置,提高数据处理的效率以及数据传输的效率,降低资源损耗。降低资源损耗。降低资源损耗。

【技术实现步骤摘要】
针对深度学习训练用数据的处理方法、系统及存储介质


[0001]本申请涉及计算机
,特别是一种针对深度学习训练用数据的处理方法、系统及存储介质。

技术介绍

[0002]数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,因此特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。那么如何快速地处理和提取数据对于提升机器学习训练的效率意义重大。目前在深度学习中对于数据的获取和预处理的方法分为两个阶段:
[0003]第一阶段,利用物理服务器或虚拟机,将数据手动拷贝到机器上,通过写预处理脚本的方式针对性的对数据进行处理;当前80%以上的数据获取和预处理都还处于第一阶段,对于资源的消耗大,存在大量的手工操作,并且复用性不高。
[0004]第二阶段,利用云计算技术,将数据统一存储到对象存储中,用户使用对象存储的软件开发工具SDK(Software Development Kit),编写数据拉取程序获取数据,对于数据预处理,通过一些平台化的方式提供若干有限的标准化数据预处理方法,用户通过选择相应的方法进行数据处理。目前部分算法的数据处理已经实现了云化、平台化,不过实现方案因每次训练都需要重新通过SDK拉取数据,依然存在效率偏低问题,同时因无法自定义数据预处理模块并复用,从而缺乏灵活性。
[0005]对于上述做法,存在大量的重复性手工操作,资源消耗大,数据拉取和处理的效率低,同时缺少灵活性。

技术实现思路

[0006]本申请提供一种针对深度学习训练用数据的处理方法、系统及存储介质,以解决现有算法训练方法中需要重复性手工操作,资源消耗大,并且数据拉取护理的效率低,缺少灵活性的问题。
[0007]在本申请的一个技术方案中,提供一种针对深度学习训练用数据的处理方法,包括:提取在云平台中标注数据仓库里包含的原始标注数据;通过插拔连接的预处理模块对原始标注数据进行预处理;将经过预处理得到的数据结果存储到云平台中的共享文件系统,其中,数据结果用于深度学习训练。
[0008]在本申请的另一技术方案中,提供一种针对深度学习训练用数据的处理系统,包括:对象存储模块、计算资源集群模块、共享存储模块以及预处理模块,其中,计算资源集群模块,其用于接收数据预处理指令,提取在云平台中标注数据仓库里包含的原始标注数据,并存储到对象存储模块中;预处理模块,其通过插拔连接在处理系统中,用于根据数据预处理指令,对对象存储模块中的原始标注数据进行预处理,并将经过预处理得到的数据结果存储到共享存储模块中。
[0009]在本申请的另一技术方案中,提供一种计算机可读存储介质,其中,存储介质中存
储有计算机指令,计算机指令被操作以执行方案1中描述的针对深度学习训练用数据的处理方法。
[0010]本申请技术方案可以达到的有益效果是:本申请通过可插拔式的预处理模块,可根据具体的算法任务选择合适的预处理模块进行数据处理,灵活性强;另外,通过共享文件系统将原始标注数据的预处理后的数据结果进行存储,使得在进行算法任务时,直接在共享文件系统中调取预处理后的数据结果进行使用,而不必每次均进行数据预处理以及在标注数据仓库中调取相应的数据,降低资源的消耗,提高数据传输的效率和数据处理的效率。
附图说明
[0011]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
[0012]图1是本申请针对深度学习训练用数据的处理方法的一个实施方式的流程示意图;
[0013]图2是本申请针对深度学习训练用数据的训练方法的一个实施例的流程示意图;
[0014]图3是本申请针对深度学习训练用数据的处理系统的一个具体实施方式;
[0015]图4是本申请针对深度学习训练用数据的处理系统的一个具体实例;
[0016]图5是本申请针对深度学习训练用数据的处理系统的一个实例的流程示意图;
[0017]图6是本申请可插拔式算法训练云平台的一个具体实例的系统架构图;
[0018]图7是本申请可插拔式算法训练云平台的用户操作流程的一个实例。
[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
[0020]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0021]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0022]在进行算法训练及机器学习时,特征工程是机器学习中不可缺少的一部分,占有非常重要的地位。其中,特征工程是指一系列工程化的方式从原始数据中筛选出更好的数
据特征,用来提升模型的训练效果。特征工程的主要过程包括数据预处理、特征选择等过程。好的数据和特征是模型和算法发挥更大作用的前提。因此特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。那么如何快速地处理和提取数据对于提升机器学习训练的效率意义重大。
[0023]现阶段的数据获取和预处理方法采用物理服务器或虚拟机技术,将数据手动拷贝到机器上,通过预处理脚本的方式针对性的对数据进行处理,该方法对资源的消耗大,存在大量的手工操作,并且复用性不高。另外利用云计算技术进行数据的获取和预处理时,每次训练都需要重复通过SDK拉取数据,依然存在效率偏低的问题,同时因无法自定义数据预处理模块,并且无法复用,从而存在缺乏灵活性等问题。
[0024]本申请的针对深度学习训练用数据的处理方法对包括特征工程在内的机器学习过程进行改进,可根据具体的算法任务选择合适的预处理模块进行数据预处理,灵活性强;另外,通过共享存储模块将数据的预处理结果进行存储,使得在进行算法任务时,直接从共享存储模块中调取预处理后的数据进行使用,而不必每次均进行数据预处理的工作,降低资源的消耗,提高数据处理的效率。...

【技术保护点】

【技术特征摘要】
1.一种针对深度学习训练用数据的处理方法,其特征在于,包括:提取在云平台中标注数据仓库里包含的原始标注数据;通过插拔连接的预处理模块对所述原始标注数据进行预处理;将经过所述预处理得到的数据结果存储到云平台中的共享文件系统,其中,所述数据结果用于深度学习训练。2.根据权利要求1所述的针对深度学习训练用数据的处理方法,其特征在于,所述通过插拔连接的预处理模块对所述原始标注数据进行预处理,包括:预先通过预设程序对多个所述预处理模块进行容器镜像处理,得到预处理模块容器镜像,使得所述预处理模块插件化,进行插拔连接;根据不同的数据预处理指令,选择对应的所述预处理模块容器镜像对所述原始标注数据进行预处理。3.根据权利1所述的针对深度学习训练用数据的处理方法,其特征在于,所述将经过所述预处理的数据结果存储到共享文件系统,包括:对预先构建的所述共享文件系统的存储空间进行划分,得到多个存储卷;在所述共享文件系统中设置存储配额管理;根据配额控制请求,通过所述存储配额管理对所述存储卷进行配置,将经过所述预处理得到的所述数据结果存储到对应的所述存储卷中。4.根据权利要求1

3中任一项所述的针对深度学习训练用数据的处理方法,其特征在于,该方法还包括:根据数据训练指令,在所述共享文件系统中提取对应的经过所述预处理得到的所述数据结果;通过预设置的数据训练模块,对所述数据结果进行训练。5.根据权利要求4所述的针对深度学习训练用数据的处理方法,其特征在于,所述通过预设置的数据训练模块,对所述数据结果进行训练,包括:预先通过预设程序对多个所述数据训练模块进行容器镜像处理,得到数据训练模块容器镜像,使得所述数据训...

【专利技术属性】
技术研发人员:沈彬张甜田冯立鹏王凯歌
申请(专利权)人:北京四维图新科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1