System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及镜像,具体涉及文件集恢复方法、装置、计算机设备、介质及程序产品。
技术介绍
1、在深度学习
中,模型训练过程中使用的训练数据量越多,可以使用训练出的模型更加准确。但是,训练数据量较多的情况下,所依赖的硬件资源需要可能比较大。因此,一般采用分布式训练实现使用大规模训练数据对模型进行训练的需求。
2、在分布式训练的过程中,由于大量的训练数据存储在集群中的某一个节点(可以称为存储节点)上,每一个训练节点需要从存储节点上获取全部的训练数据,再通过训练数据对模型进行训练。在每一轮训练之后,每一个训练节点可以将该轮训练结果同步至其他的训练节点上,以保证在不同训练节点上模型参数一致。
3、但是,由于所有训练节点同时从一个存储节点上拉取训练数据,很容易造成通信堵塞问题,导致各个训练节点无法及时获取到全部的训练数据,进一步,导致各个训练节点得到训练结果的时间相差比较大,无法及时同步训练结果。在长时间的训练过程中,会导致严重的不一致性问题。
技术实现思路
1、有鉴于此,本专利技术提供了一种文件集恢复方法、装置、计算机设备、介质及程序产品,以及一种文件分块分发方法、装置、计算机设备、介质及程序产品、一种镜像文件生成方法、装置、计算机设备、介质及程序产品,可以解决同时从一个存储节点上拉取训练数据导致的通信堵塞问题。
2、第一方面,本专利技术提供了一种文件集恢复方法,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点
3、向所述镜像文件块分发节点发送镜像文件获取请求,其中,所述镜像文件获取请求中包括待获取的镜像文件的标识信息,用以指示所述镜像文件块分发节点根据所述标识信息,确定存储与所述标识信息对应的目标镜像文件的文件分块的一个或多个候选种子节点,从一个或多个所述候选种子节点中选取目标种子节点,并建立所述镜像拉取节点和所述目标种子节点之间的通讯连接;
4、从所述目标种子节点上拉取到目标镜像文件对应的所有文件分块,其中,所述目标镜像文件为所述文件集处理节点对获取到的目标文件集进行遍历得到,并存储在镜像文件库中的,所述文件分块为所述镜像文件块分发节点对所述目标镜像文件进行分块后分发到一个或多个所述候选种子节点的;
5、对所述目标镜像文件进行解析,得到镜像元数据层和数据镜像层;
6、根据所述镜像元数据层和所述数据镜像层,恢复出所述目标文件集。
7、本专利技术提供的一种文件集恢复方法,具有如下优点:
8、每一个镜像拉取节点均可以通过上述方法从目标种子节点上拉取目标镜像文件。这样,对于不同的镜像拉取节点,对应的目标种子节点可以是不同的,也即不同的镜像拉取节点从不同的目标种子节点上拉取文件分块。通过将通信压力分布到多个节点,充分利用不同节点的带宽,从而可以降低从单一节点拉取目标镜像文件的压力,进一步可以提高目标镜像文件的下载速度。每一个目标种子节点上又下载有目标镜像文件对应的部分或全部的文件分块,也即每一个镜像拉取节点可以同时从不同的目标种子节点上拉取部分文件分块,同样可以降低单一节点的压力,提高目标文件集的下载速度。在分布式训练任务中,通过上述的方法下载训练数据集,可以及时完成训练数据集的下载,并及时完成训练同步模型参数,可以保证模型参数的一致性。
9、在一种可选的实施方式中,所述根据所述镜像元数据层和所述数据镜像层,恢复出所述目标文件集,包括:
10、对所述数据镜像层进行解析,得到多个子数据镜像层;
11、根据所述镜像元数据层中的镜像元数据,遍历每一个所述子数据镜像层,将每一个所述子数据镜像层恢复为与所述子数据镜像层对应的文件;
12、根据所述镜像元数据层,以及与每一个所述子数据镜像层对应的文件,得到所述目标文件集。
13、具体地,通过对数据镜像层的细分,实现了对文件集的精细恢复,即可以针对不同子数据镜像层分别处理,确保恢复出的每一个文件与原始文件集中的文件一一对应且内容正确,也即可以保证整个目标文件集恢复的准确性。
14、在一种可选的实施方式中,当根据所述镜像元数据层中的镜像元数据,遍历每一个所述子数据镜像层时,若所述子数据镜像层对应的文件为目标替换文件时,所述方法还包括:
15、从所述目标替换文件中提取指针路径信息,其中,所述指针路径信息为指示存储目标文件的存储位置信息的指针路径;
16、根据所述指针路径信息,确定所述目标文件的存储位置,并从所述存储位置获取所述目标文件;
17、将所述目标替换文件替换为所述目标文件。
18、具体地,当遍历子数据镜像层时,遇到目标替换文件时,镜像拉取节点可以自动识别并提取出指向实际目标文件的指针路径信息。在这种机制下,对于内容完全相同的文件,可以只保留一份文件,进一步,可以减小目标镜像文件的所占用的存储空间,并且也可以节约网络资源,提高目标镜像文件的传输效率。
19、第二方面,本专利技术提供了一种文件分块分发方法,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述方法由所述镜像文件块分发节点执行,所述方法包括:
20、当监测到镜像文件库中新增目标镜像文件时,从所述镜像文件库中获取所述目标镜像文件,其中,所述目标镜像文件为所述文件集处理节点对获取到的目标文件集进行遍历得到,并存储在所述镜像文件库中的;
21、对所述目标镜像文件进行分块,得到与所述目标镜像文件对应的多个文件分块;
22、从至少一个种子节点选取至少一个候选种子节点;
23、将多个所述文件分块分发到至少一个所述候选种子节点上,其中,至少一个所述候选种子节点中的每一个所述候选种子节点上下载有多个所述文件分块中的所有文件分块或部分文件分块,以便后续所述镜像拉取节点从至少一个所述候选种子节点上拉取所述目标镜像文件对应的所有文件分块,并恢复出所述目标文件集。
24、本专利技术提供的一种文件分块分发方法,具有如下优点:
25、将目标镜像文件的文件分块分发到至少一个候选种子节点上,实现了数据的分布式存储。由于不同候选种子节点分布有重复的文件分块,因此,可以在一定程度上实现冗余存储,避免文件分块丢失导致无法恢复目标文件集的问题。并且,在将文件分块分发到不同候选种子节点的基础上,才能实现后续选择目标种子节点,并保证不同镜像拉取节点可以从不同的目标种子节点上拉取文件分块,从而避免所有镜像拉取节点从单一节点拉取文件分块导致的通信堵塞问题。
26、在一种可选的实施方式中,所述方法还包括:
27、接收来自所述镜像拉取节点的镜像文件获取请求;
28、从所述镜像文件获取请求中提取待获取的镜像文件的标识信息;
29、根据所述标识信息,确定存储与所述标识信息对应的镜像文件的文件分本文档来自技高网...
【技术保护点】
1.一种文件集恢复方法,其特征在于,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述方法由所述镜像拉取节点执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述镜像元数据层和所述数据镜像层,恢复出所述目标文件集,包括:
3.根据权利要求2所述的方法,其特征在于,当根据所述镜像元数据层中的镜像元数据,遍历每一个所述子数据镜像层时,若所述子数据镜像层对应的文件为目标替换文件时,所述方法还包括:
4.一种文件分块分发方法,其特征在于,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述方法由所述镜像文件块分发节点执行,所述方法包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.一种镜像文件生成方法,其特征在于,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述方法由所述文件集处理节点执行,所述方法包括:
7.
8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
9.根据权利要求8所述的方法,其特征在于,所述内容指标值为MD5值。
10.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
11.一种文件集恢复装置,其特征在于,所述装置应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述装置配置在所述镜像拉取节点,所述装置包括:
12.一种文件分块分发装置,其特征在于,所述装置应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述装置配置在所述镜像文件块分发节点,所述装置包括:
13.一种镜像文件生成装置,其特征在于,所述装置应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述装置配置在所述文件集处理节点,所述装置包括:
14.一种计算机设备,其特征在于,包括:
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至3中任一项所述的文件集恢复方法,或者,执行权利要求4或5所述的文件分块分发方法,或者,执行权利要求6至10中任一项所述的镜像文件生成方法。
16.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令用于使计算机执行权利要求1至3中任一项所述的文件集恢复方法,或者,执行权利要求4或5所述的文件分块分发方法,或者,执行权利要求6至10中任一项所述的镜像文件生成方法。
...【技术特征摘要】
1.一种文件集恢复方法,其特征在于,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述方法由所述镜像拉取节点执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述镜像元数据层和所述数据镜像层,恢复出所述目标文件集,包括:
3.根据权利要求2所述的方法,其特征在于,当根据所述镜像元数据层中的镜像元数据,遍历每一个所述子数据镜像层时,若所述子数据镜像层对应的文件为目标替换文件时,所述方法还包括:
4.一种文件分块分发方法,其特征在于,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述方法由所述镜像文件块分发节点执行,所述方法包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.一种镜像文件生成方法,其特征在于,所述方法应用于集群,所述集群中包括文件集处理节点、镜像文件块分发节点、至少一个种子节点和镜像拉取节点,所述方法由所述文件集处理节点执行,所述方法包括:
7.根据权利要求6所述的方法,其特征在于,所述目标文件集中包括至少一个文件对象,所述文件对象为文件夹或文件;
8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
9.根据权利要求8所述的方法,其特征在于,所述内容指标值为md5值。
...【专利技术属性】
技术研发人员:王文潇,王德奎,荆荣讯,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。