【技术实现步骤摘要】
在服务器上获取数据集的方法和装置
本申请实施例涉及信息处理领域,尤指一种在服务器上获取数据集的方法和装置。
技术介绍
在人工智能系统中,在进行模型训练过程中,需要利用大量数据集作为输入源,完成模型的训练。数据集的获取是需要执行模型训练操作的计算节点进行拷贝或下载的,其中数据集越大,需要的拷贝或下载时间越长,数据集的缓存,会影响模型的训练效率,增加模型训练的总体时间。如果使用分布式集群,各个计算节点也需要数据集,如果不使用共享数据集,各个计算节点也需要缓存数据集,会进一步影响分布式训练的效率。因此,如何提高数据集的获取速度是亟待解决的问题。
技术实现思路
为了解决上述任一技术问题,本申请实施例提供了一种在服务器上获取数据集的方法和装置。为了达到本申请实施例目的,本申请实施例提供了一种在服务器上获取数据集的方法,包括:在接收到数据集的获取请求后,获取所述数据集在存储路径下的目录信息;为所述目录信息中每条目录项配置对应的线程;控制每条目录项对应的线程对各自目录项下的数据进行获取操作。在一个示例性实施例中,所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作,包括:控制至少一个线程对所述线程对应的目录项下的文件执行如下操作,包括:获取目录项下数据的文件格式;在文件格式为至少两种时,按照文件格式对文件进行分类,得到至少两类文件;按照预先设置的数据获取策略,分批对不同种类的文件进行获取操作,其中所述数据获取策略是根据所述文件格式设 ...
【技术保护点】
1.一种在服务器上获取数据集的方法,其特征在于,包括:/n在接收到数据集的获取请求后,获取所述数据集在存储路径下的目录信息;/n为所述目录信息中每条目录项配置对应的线程;/n控制每条目录项对应的线程对各自目录项下的数据进行获取操作。/n
【技术特征摘要】
1.一种在服务器上获取数据集的方法,其特征在于,包括:
在接收到数据集的获取请求后,获取所述数据集在存储路径下的目录信息;
为所述目录信息中每条目录项配置对应的线程;
控制每条目录项对应的线程对各自目录项下的数据进行获取操作。
2.根据权利要求1所述的方法,其特征在于,所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作,包括:
控制至少一个线程对所述线程对应的目录项下的文件执行如下操作,包括:
获取目录项下数据的文件格式;
在文件格式为至少两种时,按照文件格式对文件进行分类,得到至少两类文件;
按照预先设置的数据获取策略,分批对不同种类的文件进行获取操作,其中所述数据获取策略是根据所述文件格式设置的。
3.根据权利要求2所述的方法,其特征在于,所述按照预先设置的数据获取策略,分批对不同种类的文件进行获取操作,包括:
获取同一种类的文件中每个文件的文件大小信息;
按照文件大小从小到大的顺序,对所述同一种类文件中文件进行排序,得到排序信息;
按照所述排序信息,对同一种类文件中的文件进行获取操作。
4.根据权利要求1所述的方法,其特征在于,所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作,包括:
控制至少一个线程对所述线程对应的目录项下的文件执行如下操作,包括:
在获取所述线程对应的目录项下的文件的过程中,如果检测到文件的获取操作发生中断,记录发生中断操作的文件的信息;
在检测到重新启动对所述线程对应的目录中的文件的获取操作时,根据所述发生中断操作的文件的信息,继续执行获取操作。
5.根据权利要求1所述的方法,其特征在于:
所述获取所述数据集在存储路径下的目录信息之前,所述方法还包括:
获取发起所述获取请求的计算节点上用于存储所述数据集的存储系统的类型;
所述控制每条目录项对应的线程对各自目录项下的数据进行获取操作,包括:
获取所述存储系统的类型对应的存储格式;
控制每个目录项对应的线程按照所述存储格式对各自目录项下的数据进行获取操作。
6.一种在服务器上获取数据集的装置,其特征在于,包括处理器和存储器,其中所述存储器存储有计算机程序,所述处理器用于调用所述存储器中的计算机程序以实现如下操作,包括:
在接收到数据集的获取请求后,获...
【专利技术属性】
技术研发人员:王继玉,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。