【技术实现步骤摘要】
本专利技术涉及电数字数据处理,特别是涉及一种训练数据存储的处理方法、设备及介质。
技术介绍
1、现有的分布式框架系统包括若干训练节点,每一训练节点包括一个服务器,每一服务器包括图形处理器(gpu)和内存,不同训练节点执行不同的训练任务;每一训练节点的图形处理器产生的训练数据先会存储到对应的内存中,然后再从内存中存储到外部存储器,外部存储器的类型可为磁盘等,外部存储器通常由用户提供。当某一训练节点出现故障,导致对应的内存退出时,用于代替故障训练节点的新的训练节点需要从外部存储器获取故障训练节点之前的训练数据,以避免新的训练节点重复故障训练节点出现故障之前的训练过程,影响整个训练任务的进度。但是,相较于从内存中获取训练数据,从外部存储中获取训练数据的速度较慢,影响了训练任务的进度,存在训练时长较长的问题。
技术实现思路
1、本专利技术目的在于,提供一种训练数据存储的处理方法、设备及介质,以加快训练任务的进度,减少训练时长。
2、根据本专利技术的第一方面,提供了一种训练数据存储的处理
...【技术保护点】
1.一种训练数据存储的处理方法,其特征在于,所述方法应用于分布式训练框架,所述分布式训练框架包括若干训练节点,每一训练节点包括图形处理器,不同图形处理器用于执行不同的训练任务;所述分布式训练框架还包括分布式内存文件系统,所述分布式内存文件系统包括控制节点和若干存储节点,每一存储节点由一个服务器的内存构成;所述分布式内存文件系统还包括若干存储目录,每一存储目录对应1个备份数量,所述控制节点用于实现对存储节点、存储目录和备份数量的管理,每一训练节点能够通过所述控制节点实现对所述若干存储目录的读写操作;所述方法包括以下步骤:
2.根据权利要求1所述的训练数据存储
...【技术特征摘要】
1.一种训练数据存储的处理方法,其特征在于,所述方法应用于分布式训练框架,所述分布式训练框架包括若干训练节点,每一训练节点包括图形处理器,不同图形处理器用于执行不同的训练任务;所述分布式训练框架还包括分布式内存文件系统,所述分布式内存文件系统包括控制节点和若干存储节点,每一存储节点由一个服务器的内存构成;所述分布式内存文件系统还包括若干存储目录,每一存储目录对应1个备份数量,所述控制节点用于实现对存储节点、存储目录和备份数量的管理,每一训练节点能够通过所述控制节点实现对所述若干存储目录的读写操作;所述方法包括以下步骤:
2.根据权利要求1所述的训练数据存储的处理方法,其特征在于,目标存储目录对应的备份数量的获取过程包括:
3.根据权利要求2所述的训练数据存储的处理方法,其特征在于,获取目标存储目录拟存储的训练数据的重要程度包括:
4.根据权利要求1所述的训练数据存储的处理方法,其特征在于,所述方法还包括以下步骤:
5.根据权利要求4所述的训练数据存储的处理方法,其特征在于,如果目标存储节点由目标训练节点包括的服务器的内存构成,且目标训练节点的故障类型为图形处理器出现故障且内存没有退出,则与所述第一存储目录具有映射关系的存储节点为目标存储节点。
【专利技术属性】
技术研发人员:聂成蛟,何军,严德政,
申请(专利权)人:沐曦灵智科技杭州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。