在服务器上获取数据集的方法和装置制造方法及图纸

技术编号:24035532 阅读:32 留言:0更新日期:2020-05-07 01:47
本申请实施例公开了一种在服务器上获取数据集的方法和装置。所述方法包括:在接收到数据集的获取请求后,获取所述数据集在存储路径下的目录信息;为所述目录信息中每条目录项配置对应的线程;控制每条目录项对应的线程对各自目录项下的数据进行获取操作。

Method and device of obtaining data set on server

【技术实现步骤摘要】
在服务器上获取数据集的方法和装置
本申请实施例涉及信息处理领域,尤指一种在服务器上获取数据集的方法和装置。
技术介绍
在人工智能系统中,在进行模型训练过程中,需要利用大量数据集作为输入源,完成模型的训练。数据集的获取是需要执行模型训练操作的计算节点进行拷贝或下载的,其中数据集越大,需要的拷贝或下载时间越长,数据集的缓存,会影响模型的训练效率,增加模型训练的总体时间。如果使用分布式集群,各个计算节点也需要数据集,如果不使用共享数据集,各个计算节点也需要缓存数据集,会进一步影响分布式训练的效率。因此,如何提高数据集的获取速度是亟待解决的问题。
技术实现思路
为了解决上述任一技术问题,本申请实施例提供了一种在服务器上获取数据集的方法和装置。为了达到本申请实施例目的,本申请实施例提供了一种在服务器上获取数据集的方法,包括:在接收到数据集的获取请求后,获取所述数据集在存储路径下的目录信息;为所述目录信息中每条目录项配置对应的线程;控制每条目录项对应的线程对各自目录项下的数据进行获取操作。在一个示例性实施例中,所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作,包括:控制至少一个线程对所述线程对应的目录项下的文件执行如下操作,包括:获取目录项下数据的文件格式;在文件格式为至少两种时,按照文件格式对文件进行分类,得到至少两类文件;按照预先设置的数据获取策略,分批对不同种类的文件进行获取操作,其中所述数据获取策略是根据所述文件格式设置的。在一个示例性实施例中,所述按照预先设置的数据获取策略,分批对不同种类的文件进行获取操作,包括:获取同一种类的文件中每个文件的文件大小信息;按照文件大小从小到大的顺序,对所述同一种类文件中文件进行排序,得到排序信息;按照所述排序信息,对同一种类文件中的文件进行获取操作。在一个示例性实施例中,所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作,包括:控制至少一个线程对所述线程对应的目录项下的文件执行如下操作,包括:在获取所述线程对应的目录项下的文件的过程中,如果检测到文件的获取操作发生中断,记录发生中断操作的文件的信息;在检测到重新启动对所述线程对应的目录中的文件的获取操作时,根据所述发生中断操作的文件的信息,继续执行获取操作。在一个示例性实施例中,所述获取所述数据集在存储路径下的目录信息之前,所述方法还包括:获取发起所述获取请求的计算节点上用于存储所述数据集的存储系统的类型;所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作,包括:获取所述存储系统的类型对应的存储格式;控制每个目录项对应的线程按照所述存储格式对各自目录项下的数据进行获取操作。一种在服务器上获取数据集的装置,包括处理器和存储器,其中所述存储器存储有计算机程序,所述处理器用于调用所述存储器中的计算机程序以实现如下操作,包括:在接收到数据集的获取请求后,获取所述数据集在存储路径下的目录信息;为所述目录信息中每条目录项配置对应的线程;控制每条目录项对应的线程对各自目录项下的数据进行获取操作。在一个示例性实施例中,所述处理器用于调用所述存储器中的计算机程序以实现所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作的操作,包括:控制至少一个线程对所述线程对应的目录项下的文件执行如下操作,包括:获取目录项下数据的文件格式;在文件格式为至少两种时,按照文件格式对文件进行分类,得到至少两类文件;按照预先设置的数据获取策略,分批对不同种类的文件进行获取操作,其中所述数据获取策略是根据所述文件格式设置的。在一个示例性实施例中,所述处理器用于调用所述存储器中的计算机程序以实现所述按照预先设置的数据获取策略,分批对不同种类的文件进行获取操作的操作,包括:获取同一种类的文件中每个文件的文件大小信息;按照文件大小从小到大的顺序,对所述同一种类文件中文件进行排序,得到排序信息;按照所述排序信息,对同一种类文件中的文件进行获取操作。在一个示例性实施例中,所述处理器用于调用所述存储器中的计算机程序以实现所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作的操作,包括:控制至少一个线程对所述线程对应的目录项下的文件执行如下操作,包括:在获取所述线程对应的目录项下的文件的过程中,如果检测到文件的获取操作发生中断,记录发生中断操作的文件的信息;在检测到重新启动对所述线程对应的目录中的文件的获取操作时,根据所述发生中断操作的文件的信息,继续执行获取操作。在一个示例性实施例中,所述处理器用于调用所述存储器中的计算机程序以实现所述获取所述数据集在存储路径下的目录信息的操作之前,所述处理器用于调用所述存储器中的计算机程序还实现如下操作,包括:获取发起所述获取请求的计算节点上用于存储所述数据集的存储系统的类型;所述处理器用于调用所述存储器中的计算机程序以实现所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作的操作,包括:获取所述存储系统的类型对应的存储格式;控制每个目录项对应的线程按照所述存储格式对各自目录项下的数据进行获取操作。本申请实施例提供的方案,在接收到数据集的获取请求后,获取所述数据集在存储路径下的目录信息,为所述目录信息中每条目录项配置对应的线程,控制每条目录项对应的线程对各自目录项下的数据进行获取操作,通过在不破坏服务器原有设计机场上,根据目录信息设置至少两个线程,并利用至少两个线程分别对数据集的数据进行下载,缩短数据集的获取时间,提高数据集的获取效率。本申请实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本申请实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请实施例的实施例一起用于解释本申请实施例的技术方案,并不构成对本申请实施例技术方案的限制。图1为本申请实施例提供的在服务器上获取数据集的方法的流程图;图2为本申请实施例提供的获取数据集的装置的流程图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互任意组合。图1为本申请实施例提供的在服务器上获取数据集的方法的流程图。如图1所示,图1所示方法包括,步骤101、在接收到数据集的获取请求后,获取所述数据集在存储路径下的目录信息;在一个示例性实施例中,获取请求可以由执行模型训练操作的计算节点发起;该获取本文档来自技高网...

【技术保护点】
1.一种在服务器上获取数据集的方法,其特征在于,包括:/n在接收到数据集的获取请求后,获取所述数据集在存储路径下的目录信息;/n为所述目录信息中每条目录项配置对应的线程;/n控制每条目录项对应的线程对各自目录项下的数据进行获取操作。/n

【技术特征摘要】
1.一种在服务器上获取数据集的方法,其特征在于,包括:
在接收到数据集的获取请求后,获取所述数据集在存储路径下的目录信息;
为所述目录信息中每条目录项配置对应的线程;
控制每条目录项对应的线程对各自目录项下的数据进行获取操作。


2.根据权利要求1所述的方法,其特征在于,所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作,包括:
控制至少一个线程对所述线程对应的目录项下的文件执行如下操作,包括:
获取目录项下数据的文件格式;
在文件格式为至少两种时,按照文件格式对文件进行分类,得到至少两类文件;
按照预先设置的数据获取策略,分批对不同种类的文件进行获取操作,其中所述数据获取策略是根据所述文件格式设置的。


3.根据权利要求2所述的方法,其特征在于,所述按照预先设置的数据获取策略,分批对不同种类的文件进行获取操作,包括:
获取同一种类的文件中每个文件的文件大小信息;
按照文件大小从小到大的顺序,对所述同一种类文件中文件进行排序,得到排序信息;
按照所述排序信息,对同一种类文件中的文件进行获取操作。


4.根据权利要求1所述的方法,其特征在于,所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作,包括:
控制至少一个线程对所述线程对应的目录项下的文件执行如下操作,包括:
在获取所述线程对应的目录项下的文件的过程中,如果检测到文件的获取操作发生中断,记录发生中断操作的文件的信息;
在检测到重新启动对所述线程对应的目录中的文件的获取操作时,根据所述发生中断操作的文件的信息,继续执行获取操作。


5.根据权利要求1所述的方法,其特征在于:
所述获取所述数据集在存储路径下的目录信息之前,所述方法还包括:
获取发起所述获取请求的计算节点上用于存储所述数据集的存储系统的类型;
所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作,包括:
获取所述存储系统的类型对应的存储格式;
控制每个目录项对应的线程按照所述存储格式对各自目录项下的数据进行获取操作。


6.一种在服务器上获取数据集的装置,其特征在于,包括处理器和存储器,其中所述存储器存储有计算机程序,所述处理器用于调用所述存储器中的计算机程序以实现如下操作,包括:
在接收到数据集的获取请求后,获...

【专利技术属性】
技术研发人员:王继玉
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1