【技术实现步骤摘要】
本专利技术涉及镜像,具体涉及文件集恢复方法、装置、计算机设备、介质及程序产品。
技术介绍
1、在深度学习
中,模型训练过程中使用的训练数据量越多,可以使用训练出的模型更加准确。但是,训练数据量较多的情况下,所依赖的硬件资源需要可能比较大。因此,一般采用分布式训练实现使用大规模训练数据对模型进行训练的需求。
2、在分布式训练的过程中,由于大量的训练数据存储在集群中的某一个节点(可以称为存储节点)上,每一个训练节点需要从存储节点上获取全部的训练数据,再通过训练数据对模型进行训练。在每一轮训练之后,每一个训练节点可以将该轮训练结果同步至其他的训练节点上,以保证在不同训练节点上模型参数一致。
3、但是,由于所有训练节点同时从一个存储节点上拉取训练数据,很容易造成通信堵塞问题,导致各个训练节点无法及时获取到全部的训练数据,进一步,导致各个训练节点得到训练结果的时间相差比较大,无法及时同步训练结果。在长时间的训练过程中,会导致严重的不一致性问题。
技术实现思路
1、有鉴于
...【技术保护点】
1.一种文件集恢复方法,其特征在于,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述方法由所述镜像拉取节点执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述镜像元数据层和所述数据镜像层,恢复出所述目标文件集,包括:
3.根据权利要求2所述的方法,其特征在于,当根据所述镜像元数据层中的镜像元数据,遍历每一个所述子数据镜像层时,若所述子数据镜像层对应的文件为目标替换文件时,所述方法还包括:
4.一种文件分块分发方法,其特征在于,所述方法应用于集群,所述集
...【技术特征摘要】
1.一种文件集恢复方法,其特征在于,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述方法由所述镜像拉取节点执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述镜像元数据层和所述数据镜像层,恢复出所述目标文件集,包括:
3.根据权利要求2所述的方法,其特征在于,当根据所述镜像元数据层中的镜像元数据,遍历每一个所述子数据镜像层时,若所述子数据镜像层对应的文件为目标替换文件时,所述方法还包括:
4.一种文件分块分发方法,其特征在于,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述方法由所述镜像文件块分发节点执行,所述方法包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.一种镜像文件生成方法,其特征在于,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述方法由所述文件集处理节点执行,所述方法包括:
7.根据权利要求6所述的方法,其特征在于,所述目标文件集中包括至少一个文件对象,所述文件对象为文件夹或文件;
8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
9.根据权利要求8所述的方法,其特征在于,所述内容指标值为md5值。
...【专利技术属性】
技术研发人员:王文潇,王德奎,荆荣讯,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。