一种基于AI训练平台的海量文件检索方法、装置及设备制造方法及图纸

技术编号:26376030 阅读:30 留言:0更新日期:2020-11-19 23:44
本发明专利技术提供一种基于AI训练平台的海量文件检索方法、装置及设备,所述方法:AI训练平台获取用户下发的检索任务;AI训练平台根据检索任务生成检索线程流,并根据检索线程流控制检索过程的业务逻辑;AI训练平台将数据库中文件以文件夹为单位进行顺序编码,生成有序队列文件夹,并从检索任务中提取出检索关键字,再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索。本发明专利技术提供利用检索线程流控制检索过程业务逻辑,防止AI训练平台长时间占用服务器资源的CPU,同时深度优先遍历与二分查找方式结合提高了检索效率,避免单独使用深度优先遍历,而文件靠后的检索时间很长的缺陷,缩短了AI训练平台的训练时间。

【技术实现步骤摘要】
一种基于AI训练平台的海量文件检索方法、装置及设备
本专利技术属于文件检索
,具体涉及一种基于AI训练平台的海量文件检索方法、装置及设备。
技术介绍
AI训练平台,即人工智能训练平台,管理并调度CPU和GPU等资源,模型训练,任务管理的平台。随着人工智能相关产业的蓬勃发展,越来越多的科研企业和高校的研究人员对计算力的要求也是越来越高,AI训练平台有效解决了企业或科研机构对计算力的要求,AI训练平台的一项重要的也是最基本的功能就是文件的相关操作,如何在海量的文件中检索出有效信息,成为算法研究人员的常用基础功能,在数据集中或者在用户目录下进行具体文件以及模糊文件的检索,海量文件检索的性能关乎于AI训练平台使用研究人员的工作效率,如何提升检索性能是亟需解决的问题。目前涉及文件检索的现有技术主要用于各个系统的文件管理等,文件数量大小与AI训练平台的文件数量级别差别很大,而且现有技术也无外乎循环递归遍历所有文件,进行模糊匹配比对;利用操作系统linux的相关命令find进行模糊匹配查找;再者搭建文件分布式存储进行大规模专门的对文件进行管理,其性能好坏依赖于大量硬件等高配置的设备。这些技术用于AI训练平台显得非常落后,其没有非常合适的技术应用场景解决AI训练平台文件的检索功能。同时循环遍历所有文件进行模糊匹配比对,不仅耗时非常之长,而且在底层系统中占有非常多的系统的资源,包含CPU等,首先对用户使用体验来说非常差,等待的时间非常长,如果文件数据量达到T级别,那等待的时间让使用人员崩溃;其次消耗非常多的系统资源,对系统平台其他业务的影响非常大,最危险的可能造成系统崩溃的情况。部分不考虑系统性能的检索,例如find模糊查找,等待的时间比循环递归遍历还要慢很久,不仅不释放当前占用的资源,甚至会造成底层资源的进程阻塞等。现有技术也存在海量文件的检索,但是其做法对业务非常专一,即只针对文件的操作,一般不会涉及其他的业务功能,此现有技术依靠太多硬件设备等高配置资源,搭建分布式文件管理平台进行分布式检索查找,这类技术只适合解决业务单一,对AI训练平台的业务支持非常低,甚至不可取,造成资源的浪费。此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种基于AI训练平台的海量文件检索方法、装置及设备,是非常有必要的。
技术实现思路
针对现有技术的上述现有检索的遍历方式、文件管理方式以及仅支持文件操作的方式不适合AI训练平台,造成资源浪费的缺陷,本专利技术提供一种基于AI训练平台的海量文件检索方法、装置及设备,以解决上述技术问题。第一方面,本专利技术提供一种基于AI训练平台的海量文件检索方法,包括如下步骤:S1.AI训练平台获取用户下发的检索任务;S2.AI训练平台根据检索任务生成检索线程流,并根据检索线程流控制检索过程的业务逻辑;S3.AI训练平台将数据库中文件以文件夹为单位进行顺序编码,生成有序队列文件夹,并从检索任务中提取出检索关键字,再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索。进一步地,步骤S1具体步骤如下:S11.AI训练平台获取用户登录的令牌;S12.AI训练平台根据令牌接收用户下发的检索任务。保证同一令牌对应一个检索任务。进一步地,步骤S2具体步骤如下:S21.AI训练平台启动检索线程;S22.每完成一次检索,判断是否满足检索次数阈值;若是,进入步骤S23;若否,进入步骤S24;S23.判断检索任务是否完成;若是,进入步骤S28;若否,进入步骤S25;S24.继续检索,返回步骤S22;S25.返回检索内容,暂停检索,判断检索总时长是否超过检索时长阈值;若是,进入步骤S26;若否,进入步骤S27;S26.检索超时,检索结束;S27.检索唤醒,返回步骤S24;S28.返回检索内容,检索结束。设置检索次数,在满足检索次数时,需要控制进行一次暂停,而未完成检索任务的需要继续检索,若检索结束仍未达到检索次数,则返回结束标志;设置检索时长阈值,用于控制检索时长和暂停时间,防止出现检索不中断,超时则自动结束检索,实际检索过程中,为了速度,也不会等待很长时间,而且暂停时间过长,也会造成线程不释放的问题。进一步地,步骤S22具体步骤如下:S221.每完成一次检索,判断是否有同一令牌的用户下发的下一检索任务;若有,进入步骤S222;若否,进入步骤S224;S222.中断当前检索任务线程,根据下一检索任务类型进行操作;S223.判断当前检索线程任务中断是否超时;若超时,则判定检索中断超时,检索结束;若未超时,等待下一检索任务完成,返回步骤S223;S224.判断是否满足检索次数阈值;若是,进入步骤S23;若否,进入步骤S24。同一个令牌只能对应一个检索任务,若有同一令牌的用户下发的下一检索任务,则需要中断当前检索任务线程,并根据下一检索任务类型进行操作,而当前检索任务的中断时间有限制,超时,则中断的检索任务停止。进一步地,步骤S222中,判断下一检索任务类型;若下一检索任务类型为覆盖检索,则将下一检索任务作为新的检索任务,返回步骤S21;若下一检索任务类型为排队检索,则将下一检索任务设定到等待队列,进入步骤S24;若下一检索任务类型为暂停检索,则进入步骤S25;若下一检索任务类型为继续检索,则进入步骤S24;若下一检索任务类型为终止检索,则进入步骤S28。根下一检索任务类型确定是否覆盖中断的艰难任务。进一步地,步骤S3具体步骤如下:S31.AI训练平台将数据库中文件以文件夹为单位通过hash散列方式进行顺序编码,生成递增或者递减队列文件夹;S32.AI训练平台从检索任务中提取出检索关键字,定位一个队列文件夹;S33.AI训练平台在遍历检索前根据检索关键字和定位队列文件夹确定遍历深度,再根据遍历深度以二分查找方式确定遍历路径;S34.AI训练平台沿着遍历路径在定位队列文件夹中进行遍历检索,并在遍历检索完成后,判断是否所有队列文件夹遍历完毕;若是,进入步骤S35;若否,定位到下一个队列文件夹,返回步骤S33;S35.返回检索内容,检索结束。顺序编码是后续二分查找的基础,从而保证后续在查找过程中采用跳跃式的方式进行检索,即按照有序的队列进行折半查找,如果查找的对象小于队列中间对象,则查找范围缩小到前半区,否则查找范围定位到后半区;未使用效率更高的二平衡叉树或者B+树的进行检索,由于二平衡叉树或者B+树需要进行建立索引,需要维护大量索引,性能成本不适合AI训练平台,故而本专利使用二分查找的方式进行遍历路径确定;以文件夹为单位,对同一文件夹内文件进行顺序编码,不是以所有文件为单位进行编码,防止文件太多,队列庞大难于维护。进一步地本文档来自技高网
...

【技术保护点】
1.一种基于AI训练平台的海量文件检索方法,其特征在于,包括如下步骤:/nS1.AI训练平台获取用户下发的检索任务;/nS2.AI训练平台根据检索任务生成检索线程流,并根据检索线程流控制检索过程的业务逻辑;/nS3.AI训练平台将数据库中文件以文件夹为单位进行顺序编码,生成有序队列文件夹,并从检索任务中提取出检索关键字,再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索。/n

【技术特征摘要】
1.一种基于AI训练平台的海量文件检索方法,其特征在于,包括如下步骤:
S1.AI训练平台获取用户下发的检索任务;
S2.AI训练平台根据检索任务生成检索线程流,并根据检索线程流控制检索过程的业务逻辑;
S3.AI训练平台将数据库中文件以文件夹为单位进行顺序编码,生成有序队列文件夹,并从检索任务中提取出检索关键字,再通过二分查找与深度优先遍历结合方式对每个有序队列文件夹进行关键字检索。


2.如权利要求1所述的基于AI训练平台的海量文件检索方法,其特征在于,步骤S1具体步骤如下:
S11.AI训练平台获取用户登录的令牌;
S12.AI训练平台根据令牌接收用户下发的检索任务。


3.如权利要求2所述的基于AI训练平台的海量文件检索方法,其特征在于,步骤S2具体步骤如下:
S21.AI训练平台启动检索线程;
S22.每完成一次检索,判断是否满足检索次数阈值;
若是,进入步骤S23;
若否,进入步骤S24;
S23.判断检索任务是否完成;
若是,进入步骤S28;
若否,进入步骤S25;
S24.继续检索,返回步骤S22;
S25.返回检索内容,暂停检索,判断检索总时长是否超过检索时长阈值;
若是,进入步骤S26;
若否,进入步骤S27;
S26.检索超时,检索结束;
S27.检索唤醒,返回步骤S24;
S28.返回检索内容,检索结束。


4.如权利要求3所述的基于AI训练平台的海量文件检索方法,其特征在于,步骤S22具体步骤如下:
S221.每完成一次检索,判断是否有同一令牌的用户下发的下一检索任务;
若有,进入步骤S222;
若否,进入步骤S224;
S222.中断当前检索任务线程,根据下一检索任务类型进行操作;
S223.判断当前检索线程任务中断是否超时;
若超时,则判定检索中断超时,检索结束;
若未超时,等待下一检索任务完成,返回步骤S223;
S224.判断是否满足检索次数阈值;
若是,进入步骤S23;
若否,进入步骤S24。


5.如权利要求4所述的基于AI训练平台的海量文件检索方法,其特征在于,步骤S222中,判断下一检索任务类型;
若下一检索任务类型为覆盖检索,则将下一检索任务作为新的检索任务,返回步骤S21;
若下一检索任务类型为排队检索,则将下一检索任务设定到等待队列,进入步骤S24;
若下一检索任务类型为暂停检索,则进入步骤S25;
若下一检索任务类型为继续检索,则进入步骤S24;
若下一检索任务类型为终止检索,则进入步骤S28。


6.如权利要求1所述的基于AI训练平台的海量文件检索方法,其特征在于,步骤S3具体步骤如下:
S31.AI训练平台将数据库中文件以文件夹为单位...

【专利技术属性】
技术研发人员:姬贵阳
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1