【技术实现步骤摘要】
一种AI集群中数据缓存方法、系统、设备及计算机介质
[0001]本申请涉及AI集群
,更具体地说,涉及一种AI集群中数据缓存方法、系统、设备及计算机介质。
技术介绍
[0002]随着人工智能(Artificial Intelligence,AI)相关产业的蓬勃发展,越来越多的科研企业和高校的研究人员对计算力的要求也是越来越高,AI集群平台的构建有效解决了企业和科研高校对计算力的要求。人工智能平台的一个基本功能是文件的操作,包括数据集的本地下载缓存,训练过程中文件的读取等等文件的一列操作,这些都依赖于集群的存储资源,且AI集群对于存储要求非常高,有频繁的IO操作,这使得存储资源成为AI集群中数据缓存的瓶颈,影响AI集群的数据缓存性能。
[0003]综上所述,如何提高AI集群的数据缓存性能是目前本领域技术人员亟待解决的问题。
技术实现思路
[0004]本申请的目的是提供一种AI集群中数据缓存方法,其能在一定程度上解决如何提高AI集群的数据缓存性能的技术问题。本申请还提供了一种AI集群中数据缓存系统、 ...
【技术保护点】
【技术特征摘要】
1.一种AI集群中数据缓存方法,其特征在于,包括:确定待缓存的目标数据集;获取所述目标数据集在所述AI集群中各个集群节点上的权重值;确定缓存所述目标数据集的目标集群节点;获取所述AI集群中其余集群节点到所述目标集群节点的目标最短路径,及所述目标集群节点在所述目标最短路径中的前继节点,所述其余集群节点包括所述AI集群中除所述目标集群节点之外的节点;基于所述权重值、所述目标最短路径及所述前继节点确定将所述目标数据集缓存至所述目标集群节点的缓存路径,以按照所述缓存路径将所述目标数据集缓存至所述目标集群节点。2.根据权利要求1所述的方法,其特征在于,所述获取所述目标数据集在所述AI集群中各个集群节点上的权重值,包括:对所述AI集群中的每个所述集群节点,解析所述集群节点的类型;若所述集群节点为管理节点,则确定所述AI集群中的集群节点总数,确定所述AI集群中共享存储节点上的数据集总个数;将所述集群节点总数与所述数据集总个数的乘积值确定为所述管理节点的所述权重值。3.根据权利要求2所述的方法,其特征在于,所述解析所述集群节点的类型之后,还包括:若所述集群节点为非管理节点,则判断所述集群节点上是否存有所述目标数据集;若所述集群节点上不存有所述目标数据集,则确定所述集群节点的所述权重值为无穷大。4.根据权利要求3所述的方法,其特征在于,所述判断所述集群节点上是否存有所述目标数据集之后,还包括:若所述集群节点上存有所述目标数据集,则确定所述集群节点拉取所述目标数据集的第一类任务数,确定所述集群节点被拉取所述目标数据集的第二类任务数,将所述第一类任务数、所述第二类任务数及1的和值确定为所述集群节点的所述权重值。5.根据权利要求1至4任一项所述的方法,其特征在于,所述获取所述AI集群中其余集群节点到所述目标集群节点的目标最短路径,及所述目标集群节点在所述最短路径中的前继节点,包括:确定第一节点集合,所述第一节点集合用于存储与所述目标集群节点间的目标最短路径已知的第一类集群节点;确定第二节点集合,所述第二节点集合用于存储所述AI集群中除所述第一节点集合之外的第二类集群节点;确定每个所述第二类集群节点到所述目标集群节点间的第一最短路径;将值最小的所述第一最短路径对应的所述第二类集群节点作为待判定集群节点;对于每个所述第二类集群节点,确定所述第二类集群节点到所述待判定集群节点间的第二最短路径,确定所述待判定节点对应的所述第一...
【专利技术属性】
技术研发人员:姬贵阳,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。