一种分布式缓存系统的控制方法、装置及介质制造方法及图纸

技术编号：34847726 阅读：10 留言：0更新日期：2022-09-08 07:46

本申请涉及深度学习技术领域，公开了一种分布式缓存系统的控制方法、装置及介质，包括：将各计算节点进行分组，分组后各计算节点组中计算节点间距离小于预设值，其中，距离包括物理距离和网络距离，并为各计算节点组创建分布式缓存系统。获取待训练任务的数据集参数，其中，数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数，将数据集参数和各分布式存储系统进行匹配果以提取目标计算节点组。由此，因各计算节点组的计算节点间距离相近，保证了计算节点间数据读取效率，且根据数据集参数与各分布式缓存系统的匹配结果，可直接从分布式缓存系统中提取待训练数据集，进一步提升数据读取效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式缓存系统的控制方法、装置及介质

[0001]本申请涉及深度学习
，特别是涉及一种分布式缓存系统的控制方法、装置及介质。

技术介绍

[0002]随着人工智能的快速发展，各行业正迅速的进行智能化改造。作为人工智能代表的深度学习技术，在各领域有着大量的需求。面对更大的数据集规模和更快的数据集读写效率以提高深度学习训练效果的需求，目前，通常使用缓存技术提高深度学习技术的数据读取效率，其中，主要使用的缓存技术为单机本地缓存和分布式缓存系统。
[0003]单机本地缓存：在深度学习训练任务发起后，将数据集全量下载至机器本地节点，训练任务时使用本地缓存的数据集。这样的缓存技术无法缓存超过单机存储容量的数据集，即存储容量有限。此外，多台服务器的训练任务会在多个节点同时下载同一份数据集，进而对底层存储系统产生较大的压力。
[0004]分布式缓存系统：在底层存储系统和深度学习训练集群间搭建一套分布式缓存系统用于缓存数据集。采用分布式缓存系统缓存数据集时，可以缓存超过单机存储容量的数据集，且仅需底层存储系统缓存一次数据即可。但是，由于训练的各计算节点间存在网络距离较远的情况，由此导致计算节点间数据交互效率低。此外，训练的计算节点与分布式缓存数据的存储节点间的网络距离过长，进而存在一定的时延导致数据使用效率低，即数据读取效率低。
[0005]由此可见，如何保证存储容量的同时，提高深度学习训练的数据读取效率，进而提升深度学习训练的效果，是本领域技术人员亟待解决的问题。

技术实现思路

[00...

【技术保护点】

【技术特征摘要】
1.一种分布式缓存系统的控制方法，其特征在于，包括：系统启动后，将深度学习训练平台中各计算节点进行分组得到计算节点组；其中，各所述计算节点组中各计算节点之间的距离小于预设值，所述距离包括物理距离和网络距离；为各所述计算节点组创建分布式缓存系统；获取深度学习待训练任务的数据集参数；其中，所述数据集参数包括待训练数据集名称、待训练数据集在存储系统中的存储路径和所需计算节点个数；依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组。2.根据权利要求1所述的分布式缓存系统的控制方法，其特征在于，所述依据所述数据集参数与各所述分布式缓存系统的匹配结果提取目标计算节点组包括：判断各所述分布式缓存系统中是否存在已缓存所述待训练数据集的分布式缓存系统；若存在，确定已缓存所述待训练数据集的各所述分布式缓存系统中是否存在对应计算节点数大于或等于所述所需计算节点个数的目标分布式缓存系统，若存在所述目标分布式缓存系统，则提取所述目标分布式缓存系统对应的所述计算节点组作为所述目标计算节点组；若不存在，确定各所述计算节点组中是否存在计算节点数大于或等于所述所需计算节点个数的所述目标计算节点组，若存在所述目标计算节点组，则依据所述待训练数据集在存储系统中的存储路径将所述待训练数据集缓存至所述目标计算节点组对应的分布式缓存系统中，以便提取所述目标计算节点组。3.根据权利要求2所述的分布式缓存系统的控制方法，其特征在于，若已缓存所述待训练数据集的各所述分布式缓存系统中不存在对应计算节点数大于或等于所述所需计算节点个数的目标分布式缓存系统，还包括：将已缓存所述待训练数据集的各所述分布式缓存系统所对应的计算节点组按照所述物理距离和/或所述网络距离进行合并，直至节点数大于或等于所述所需计算节点个数为止；对合并后产生的新的计算节点组创建对应的分布式缓存系统作为所述目标分布式缓存系统，并将所述目标分布式缓存系统对应的所述计算节点组作为所述目标计算节点组。4.根据权利要求2所述的分布式缓存系统的控制方法，其特征在于，若各所述计算节点组中不存在计算节点数大于或等于所述所需计算节点个数的所述目标计算节点组，还包括：将各所述计算节点组按照所述物理距离和/或所述网络距离进行合并，直至节点数大于或等于所述所需计算节点个数为止；对合并后得到的所述目标计...

【专利技术属性】
技术研发人员：荆荣讯，陈培，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人