一种分布式缓存系统的控制方法、装置及介质制造方法及图纸

技术编号:34847726 阅读:10 留言:0更新日期:2022-09-08 07:46
本申请涉及深度学习技术领域,公开了一种分布式缓存系统的控制方法、装置及介质,包括:将各计算节点进行分组,分组后各计算节点组中计算节点间距离小于预设值,其中,距离包括物理距离和网络距离,并为各计算节点组创建分布式缓存系统。获取待训练任务的数据集参数,其中,数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数,将数据集参数和各分布式存储系统进行匹配果以提取目标计算节点组。由此,因各计算节点组的计算节点间距离相近,保证了计算节点间数据读取效率,且根据数据集参数与各分布式缓存系统的匹配结果,可直接从分布式缓存系统中提取待训练数据集,进一步提升数据读取效率。率。率。

【技术实现步骤摘要】
一种分布式缓存系统的控制方法、装置及介质


[0001]本申请涉及深度学习
,特别是涉及一种分布式缓存系统的控制方法、装置及介质。

技术介绍

[0002]随着人工智能的快速发展,各行业正迅速的进行智能化改造。作为人工智能代表的深度学习技术,在各领域有着大量的需求。面对更大的数据集规模和更快的数据集读写效率以提高深度学习训练效果的需求,目前,通常使用缓存技术提高深度学习技术的数据读取效率,其中,主要使用的缓存技术为单机本地缓存和分布式缓存系统。
[0003]单机本地缓存:在深度学习训练任务发起后,将数据集全量下载至机器本地节点,训练任务时使用本地缓存的数据集。这样的缓存技术无法缓存超过单机存储容量的数据集,即存储容量有限。此外,多台服务器的训练任务会在多个节点同时下载同一份数据集,进而对底层存储系统产生较大的压力。
[0004]分布式缓存系统:在底层存储系统和深度学习训练集群间搭建一套分布式缓存系统用于缓存数据集。采用分布式缓存系统缓存数据集时,可以缓存超过单机存储容量的数据集,且仅需底层存储系统缓存一次数据即可。但是,由于训练的各计算节点间存在网络距离较远的情况,由此导致计算节点间数据交互效率低。此外,训练的计算节点与分布式缓存数据的存储节点间的网络距离过长,进而存在一定的时延导致数据使用效率低,即数据读取效率低。
[0005]由此可见,如何保证存储容量的同时,提高深度学习训练的数据读取效率,进而提升深度学习训练的效果,是本领域技术人员亟待解决的问题。

技术实现思路

[0006]本申请的目的是提供一种分布式缓存系统的控制方法、装置及介质,减少存储空间使用的同时,提高深度学习训练时的数据读取效率,进而提升深度学习的效果。
[0007]为解决上述技术问题,本申请提供一种分布式缓存系统的控制方法,包括:
[0008]系统启动后,将深度学习训练平台中各计算节点进行分组得到计算节点组;其中,各所述计算节点组中各计算节点之间的距离小于预设值,所述距离包括物理距离和网络距离;
[0009]为各所述计算节点组创建分布式缓存系统;
[0010]获取深度学习待训练任务的数据集参数;其中,所述数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数;
[0011]依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组。
[0012]优选地,所述依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组包括:
[0013]判断各所述分布式缓存系统中是否存在已缓存所述待训练数据集的分布式缓存
系统;
[0014]若存在,确定已缓存所述待训练数据集的各所述分布式缓存系统中是否存在对应计算节点数大于或等于所述所需计算节点个数的目标分布式缓存系统,若存在所述目标分布式缓存系统,则提取所述目标分布式缓存系统对应的所述计算节点组作为所述目标计算节点组;
[0015]若不存在,确定各所述计算节点组中是否存在计算节点数大于或等于所述所需计算节点个数的所述目标计算节点组,若存在所述目标计算节点组,则依据所述待训练数据集在存储系统中的存储路径将所述待训练数据集缓存至所述目标计算节点组对应的分布式缓存系统中,以便提取所述目标计算节点组。
[0016]优选地,若已缓存所述待训练数据集的各所述分布式缓存系统中不存在对应计算节点数大于或等于所述所需计算节点个数的目标分布式缓存系统,还包括:
[0017]将已缓存所述待训练数据集的各所述分布式缓存系统所对应的计算节点组按照所述物理距离和/或所述网络距离进行合并,直至节点数大于或等于所述所需计算节点个数为止;
[0018]对合并后产生的新的计算节点组创建对应的分布式缓存系统作为所述目标分布式缓存系统,并将所述目标分布式缓存系统对应的所述计算节点组作为所述目标计算节点组。
[0019]优选地,若各所述计算节点组中不存在计算节点数大于或等于所述所需计算节点个数的所述目标计算节点组,还包括:
[0020]将各所述计算节点组按照所述物理距离和/或所述网络距离进行合并,直至节点数大于或等于所述所需计算节点个数为止;
[0021]对合并后得到的所述目标计算节点组创建对应的分布式缓存系统,并依据所述待训练数据集在存储系统中的存储路径将所述待训练数据集缓存至所述目标计算节点组对应的分布式缓存系统中,以便提取所述目标计算节点组。
[0022]优选地,在所述依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组之后还包括:
[0023]将所述深度学习待训练任务调度至所述目标计算节点组对应的计算节点中;
[0024]提取所述目标计算节点组对应分布式缓存系统中的数据集进行训练;
[0025]存储各所述分布式缓存系统对应的相关信息;其中,所述相关信息包括调用信息,计算节点信息和缓存信息。
[0026]优选地,所述调用信息包括调用频率,所述分布式缓存系统的控制方法还包括:
[0027]在预设周期内,分析各所述分布式缓存系统对应的调用频率;
[0028]清除所述调用频率低于第一预设次数的所述分布式缓存系统中缓存的数据集。
[0029]优选地,所述分布式缓存系统的控制方法还包括:
[0030]在确定预设时长内从各所述分布式缓存系统中提取所述待训练数据集的失败次数达到第二预设次数时,对各所述分布式缓存系统对应的调用频率进行排序得到排序结果;
[0031]依据所述排序结果清除对应所述分布式缓存系统中缓存的数据集。
[0032]为了解决上述技术问题,本申请还提供了一种分布式缓存系统的控制装置,包括:
[0033]分组模块,用于系统启动后,将深度学习训练平台中各计算节点进行分组得到计算节点组;其中,各所述计算节点组中各计算节点之间的距离小于预设值,所述距离包括物理距离和网络距离;
[0034]创建模块,用于为各所述计算节点组创建分布式缓存系统;
[0035]获取模块,用于获取深度学习待训练任务的数据集参数;其中,所述数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数;
[0036]提取模块,用于依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组。
[0037]为了解决上述技术问题,本申请还提供了一种分布式缓存系统的控制装置,包括存储器,用于存储计算机程序;
[0038]处理器,用于执行所述计算机程序时实现所述的分布式缓存系统的控制方法的步骤。
[0039]为了解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的分布式缓存系统的控制方法的步骤。
[0040]本专利技术所提供的一种分布式缓存系统的控制方法,包括:在系统启动后,将深度学习训练平台中各计算节点进行分组得到计算节点组,分组后本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式缓存系统的控制方法,其特征在于,包括:系统启动后,将深度学习训练平台中各计算节点进行分组得到计算节点组;其中,各所述计算节点组中各计算节点之间的距离小于预设值,所述距离包括物理距离和网络距离;为各所述计算节点组创建分布式缓存系统;获取深度学习待训练任务的数据集参数;其中,所述数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数;依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组。2.根据权利要求1所述的分布式缓存系统的控制方法,其特征在于,所述依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组包括:判断各所述分布式缓存系统中是否存在已缓存所述待训练数据集的分布式缓存系统;若存在,确定已缓存所述待训练数据集的各所述分布式缓存系统中是否存在对应计算节点数大于或等于所述所需计算节点个数的目标分布式缓存系统,若存在所述目标分布式缓存系统,则提取所述目标分布式缓存系统对应的所述计算节点组作为所述目标计算节点组;若不存在,确定各所述计算节点组中是否存在计算节点数大于或等于所述所需计算节点个数的所述目标计算节点组,若存在所述目标计算节点组,则依据所述待训练数据集在存储系统中的存储路径将所述待训练数据集缓存至所述目标计算节点组对应的分布式缓存系统中,以便提取所述目标计算节点组。3.根据权利要求2所述的分布式缓存系统的控制方法,其特征在于,若已缓存所述待训练数据集的各所述分布式缓存系统中不存在对应计算节点数大于或等于所述所需计算节点个数的目标分布式缓存系统,还包括:将已缓存所述待训练数据集的各所述分布式缓存系统所对应的计算节点组按照所述物理距离和/或所述网络距离进行合并,直至节点数大于或等于所述所需计算节点个数为止;对合并后产生的新的计算节点组创建对应的分布式缓存系统作为所述目标分布式缓存系统,并将所述目标分布式缓存系统对应的所述计算节点组作为所述目标计算节点组。4.根据权利要求2所述的分布式缓存系统的控制方法,其特征在于,若各所述计算节点组中不存在计算节点数大于或等于所述所需计算节点个数的所述目标计算节点组,还包括:将各所述计算节点组按照所述物理距离和/或所述网络距离进行合并,直至节点数大于或等于所述所需计算节点个数为止;对合并后得到的所述目标计...

【专利技术属性】
技术研发人员:荆荣讯陈培
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1