一种文件管理方法、装置与介质制造方法及图纸

技术编号:28978302 阅读:13 留言:0更新日期:2021-06-23 09:24
本申请公开了一种文件管理方法、装置与介质,其中该方法针对文件系统的文件目录进行标签制作,由于该文件目录标签里包括文件目录的至少一种参数,例如文件目录的大小、文件目录下的文件夹个数以及文件个数等,因此AI平台通过计算节点进行文件读取和传输时,尤其是在对大文件操作时,可以直接获取到文件目录标签,避免了计算节点通过网络对文件的大小和个数的统计操作,保证了文件通过I/O在网络上的使用效率,提高了文件目录遍历读写时的速度。同时,又由于读写速度的提高,所以降低了文件输出对AI平台I/O资源的占用,提高了模型训练的效率,提高了AI平台的算法人员使用AI平台的性能体验。

【技术实现步骤摘要】
一种文件管理方法、装置与介质
本申请涉及互联网
,特别是涉及一种文件管理方法、装置与介质。
技术介绍
随着人工智能(ArtificialIntelligence,AI)的快速发展,越来越多的科研企业和高校研究人员在AI平台上进行深度学习模型的训练,AI平台的一项重要功能是通过计算节点对网络存储(NetworkStorage)的文件进行读写操作,网络存储都是通过网络挂载到各个计算节点上。目前,AI平台对于文件的操作,一般需要进行展示操作和传输操作,但是展示之前需要不断地通过网络进行文件目录的大小统计,传输之前也需要进行文件目录分块、打包,需要了解文件目录结构以及文件大小,以此判断磁盘空间剩余。由于文件的分块存放,就目前技术来说,对于大规模集群的AI平台的文件读写和传输,由于网络等各种原因,读写速度异常缓慢,文件目录的遍历在并发的情况下效率非常低,读取有时会出现lock导致卡住的情况。同时,文件目录的遍历会占用AI平台的大量资源,导致集群读写I/O较高,这会对其他模型的正常训练造成影响,也会影响到AI平台中其它模块的使用。基于此,如何提高文件目录遍历读写时的速度、降低文件输出对AI平台资源的占用是本领域技术人员亟待解决的技术问题。
技术实现思路
本申请的目的是提供一种文件管理方法、装置与介质,用于提高文件目录遍历读写时的速度,降低文件输出对AI平台I/O资源的占用。为解决上述技术问题,本申请提供一种文件管理方法,包括:获取文件系统的文件目录;为所述文件目录构建文件目录标签;在获取到计算节点的获取请求时,将所述文件目录标签发送至所述计算节点;其中,所述文件目录标签包括所述文件目录的至少一种参数。优选地,在所述获取文件系统的文件目录之后,还包括:通过哈希算法对所述文件目录进行排码以构建文件目录有序队列。优选地,在所述为所述文件目录构建文件目录标签之后,还包括:监控所述文件目录;在所述文件目录发生变化的情况下,更新所述文件目录标签。优选地,所述在所述文件目录发生变化的情况下,更新所述文件目录标签,具体包括:锁定所述文件目录标签;根据所述文件目录的变化情况,对所述文件目录标签进行修改;释放所述文件目录标签。优选地,所述监控所述文件目录具体为:通过Inotify对所述文件目录进行监控。优选地,在所述通过Inotify对所述文件目录进行监控之后,还包括:获取Inotify发送的所述文件目录的变化列表。优选地,所述获取请求具体在所述计算节点进行文件传输时发送。为解决上述技术问题,本申请还提供一种文件管理装置,包括:获取模块,用于获取文件系统的文件目录;构建模块,用于为所述文件目录构建文件目录标签;发送模块,用于在获取到计算节点的获取请求时,将所述文件目录标签发送至所述计算节点;其中,所述文件目录标签包括所述文件目录的至少一种参数。为解决上述技术问题,本申请还提供一种文件管理装置,包括存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如所述的文件管理方法的步骤。为解决上述技术问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如所述的文件管理方法的步骤。本申请所提供的文件管理方法,针对文件系统的文件目录进行标签制作,由于该文件目录标签里包括文件目录的至少一种参数,例如文件目录的大小、文件目录下的文件夹个数以及文件个数等,因此AI平台通过计算节点进行文件读取和传输时,尤其是在对大文件操作时,可以直接获取到文件目录标签,避免了计算节点通过网络对文件的大小和个数的统计操作,保证了文件通过I/O在网络上的使用效率,提高了文件目录遍历读写时的速度。同时,又由于读写速度的提高,所以降低了文件输出对AI平台I/O资源的占用,提高了模型训练的效率,提高了AI平台的算法人员使用AI平台的性能体验。此外,本申请所提供的文件管理装置与介质与上述方法对应,效果同上。附图说明为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种文件管理系统的组成架构;图2为本申请实施例提供的一种文件管理方法的流程图;图3为本申请实施例提供的一种文件管理装置的结构示意图;图4为本申请另一实施例提供的文件管理装置的结构图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。随着人工智能相关产业的蓬勃发展,越来越多的科研企业和高校的研究人员对计算力的要求以及对计算资源的统一管控也是越来越高,AI训练平台有效解决了企业或科研机构对计算力的要求。对文件目录进行遍历读写的性能关乎AI平台相关算法人员的工作效率,因此如何在计算节点上对网络存储的文件进行高效读写操作,如何提升文件读写的性能,提高训练模型效率,成为影响AI平台的性能的重要指标。目前涉及大规模集群的文件读写和传输,主要瓶颈点在于集群网络,然而涉及到AI平台的集群的文件读写和传输的性能瓶颈点不仅是集群网络,还包括训练任务对计算节点的CPU资源使用情况,这些影响因素在一定程度上影响着算法研究人员对文件的读写效率。一些企业单位通过管理端建立单一网络存储,然后将网络存储共享到各个计算节点上,另一些条件优越的企业单位选择分布式网络存储对文件进行操作,不管是单一网络存储还是分布式网络存储,AI平台在对文件进行展示操作和传输操作时,都需要不断地通过网络进行文件目录的大小统计,还需要进行文件目录分块、打包,需要了解文件目录结构以及文件大小,以此判断磁盘空间剩余。由于文件的分块存放,就目前技术来说,对于大规模集群的AI平台的文件读写和传输,由于网络等各种原因,读写速度异常缓慢,文件目录的遍历在并发的情况下效率非常低,读取有时会出现lock导致卡住的情况。同时,文件目录的遍历会占用AI平台的大量资源,导致集群读写I/O较高,这会对其他模型的正常训练造成影响,也会影响到AI平台中其它模块的使用。鉴于目前存在的上述问题,本申请提供一种文件管理方法、装置与介质,用于提高文件目录遍历读写时的速度,降低文件输出对AI平台I/O资源的占用。为了便于理解,下面对本申请的技术方案所适用的系统架构进行介绍。参见图1所示出的本申请提供的一种文件管理系统的组成架构。如图1所示,本申请所提供的文件管理系统可以包括计算节点1和网络存储2。网本文档来自技高网...

【技术保护点】
1.一种文件管理方法,其特征在于,包括:/n获取文件系统的文件目录;/n为所述文件目录构建文件目录标签;/n在获取到计算节点的获取请求时,将所述文件目录标签发送至所述计算节点;/n其中,所述文件目录标签包括所述文件目录的至少一种参数。/n

【技术特征摘要】
1.一种文件管理方法,其特征在于,包括:
获取文件系统的文件目录;
为所述文件目录构建文件目录标签;
在获取到计算节点的获取请求时,将所述文件目录标签发送至所述计算节点;
其中,所述文件目录标签包括所述文件目录的至少一种参数。


2.如权利要求1所述的文件管理方法,其特征在于,在所述获取文件系统的文件目录之后,还包括:
通过哈希算法对所述文件目录进行排码以构建文件目录有序队列。


3.如权利要求2所述的文件管理方法,其特征在于,在所述为所述文件目录构建文件目录标签之后,还包括:
监控所述文件目录;
在所述文件目录发生变化的情况下,更新所述文件目录标签。


4.如权利要求3所述的文件管理方法,其特征在于,所述在所述文件目录发生变化的情况下,更新所述文件目录标签,具体包括:
锁定所述文件目录标签;
根据所述文件目录的变化情况,对所述文件目录标签进行修改;
释放所述文件目录标签。


5.如权利要求3所述的文件管理方法,其特征在于,所述监控所述文件目录具体为:
通过Inot...

【专利技术属性】
技术研发人员:姬贵阳
申请(专利权)人:山东英信计算机技术有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1