分布式深度学习的数据恢复方法、系统及可读存储介质技术方案

技术编号:37124309 阅读:21 留言:0更新日期:2023-04-01 05:20
本发明专利技术提供了一种分布式深度学习的数据恢复方法、系统及可读存储介质,方法包括以下步骤:S1、收集神经网络模型进行训练的参数信息,并利用纠删码获得待恢复数据分布的全局信息;S2、利用人工智能来计算各类别训练数据恢复的优先级,对待恢复的数据所处的条带进行排序;S3、将计算得到的数据恢复优先级和待恢复数据分布的全局信息进行组合,构造并行的恢复方案。本发明专利技术通过人工智能为要恢复的数据建立加权优先级,并结合纠删码获得的数据块分布的全局信息来构建并行恢复方案,将纠删码获取数据全局信息的能力与人工智能恢复部分丢失数据的能力结合起来,在可接受的训练精度下大幅降低了资源消耗,加速了云存储系统中分布式深度学习的数据重建。度学习的数据重建。度学习的数据重建。

【技术实现步骤摘要】
分布式深度学习的数据恢复方法、系统及可读存储介质


[0001]本专利技术涉及分布式深度学习
,尤其涉及一种分布式深度学习的数据恢复方法、系统及可读存储介质。

技术介绍

[0002]分布式深度学习是一种典型的机器学习方法,运行在云计算系统等分布式环境中。相应的训练、验证和测试数据集一般都非常大。由于云存储系统的磁盘故障率很高,分布式深度学习的关键问题是如何在训练程序中有效地容忍磁盘故障。这些故障会导致大量数据丢失,降低了训练的准确性并减慢了训练的进程。
[0003]目前对于数据的恢复重建通常有两种方式,一种是基于EC(纠删码)的恢复方法,该方法的特点是随机恢复,对数据没有感知。但是整个丢失的数据需要被重建,这需要消耗大量的计算、网络和I/O资源,尽管在这种环境下可以应用并行恢复方法,但由于数据恢复的等待时间长、计算资源减少等原因,上层机器学习应用容易受到影响。
[0004]另一种是基于AI(人工智能)的恢复方法,生成对抗网络经常被用来对丢失的图像数据进行近似恢复,这种恢复方案的其中一个缺点是生成模型必须在训练集丢失之前进行训练,以生成具有与训练集相同统计量的新数据,另一个缺点是资源消耗方面成本很高,需要很长的恢复时间。

技术实现思路

[0005]本专利技术的目的在于提供一种分布式深度学习的数据恢复方法、系统及可读存储介质,能够在可接受的训练精度下降低资源消耗,加速云存储系统中分布式深度学习的数据重建。
[0006]为达到上述目的,本专利技术提供一种分布式深度学习的数据恢复方法,包括以下步骤:
[0007]S1、收集神经网络模型进行训练的参数信息,并利用纠删码获得待恢复数据分布的全局信息;
[0008]S2、利用人工智能来计算各类别训练数据恢复的优先级,对待恢复的数据所处的条带进行排序;
[0009]S3、将计算得到的数据恢复优先级和待恢复数据分布的全局信息进行组合,构造并行的恢复方案。
[0010]可选的,利用人工智能来计算各类别训练数据恢复的优先级的方法包括:
[0011][0012]其中,α和β是两个超参数,表示条带i的第j节点上的p类别训练数据的局部不均衡性,表示条带i的第j节点上的p类别训练数据的在全部节点上的不均衡性,γ
P
表示
p类别训练数据的权重更新率。
[0013]可选的,各类别训练数据的权重更新率来源于所述参数信息。
[0014]可选的,所述权重更新率与各类别训练数据的样本数量成正比。
[0015]可选的,所述局部不平衡性和所述全局不平衡性来源于所述纠删码获得的全局信息。
[0016]可选的,所述恢复方案包括条带选择和并行条带管理。
[0017]可选的,进行条带选择和并行条带管理时,按照条带恢复的优先级顺序从剩余的条带中探索能够与当前条带并行恢复的条带,然后选择能够与当前平行恢复的数据。
[0018]基于同一专利技术构思,本申请还提出一种分布式深度学习的数据恢复系统,包括:
[0019]参数收集模块,其被配置为收集神经网络模型进行训练的参数信息,并利用纠删码获得待恢复数据分布的全局信息;
[0020]优先级排序模块,其被配置为利用人工智能来计算各类别训练数据恢复的优先级,对要恢复的数据所处的条带进行排序;
[0021]方案构造模块,其被配置为将计算得到的数据恢复优先级和待恢复数据分布的全局信息进行组合,构造并行的恢复方案。
[0022]基于同一专利技术构思,本申请还提出一种可读存储介质,其上存储有计算机程序,所述计算机程序被一处理器执行时能实现如上所述的分布式深度学习的数据恢复方法。
[0023]在本专利技术提供的一种分布式深度学习的数据恢复方法、系统及可读存储介质中,通过人工智能为要恢复的数据建立加权优先级,并结合纠删码获得的数据块分布的全局信息来构建并行恢复方案,将纠删码获取数据全局信息的能力与人工智能恢复部分丢失数据的能力结合起来,在可接受的训练精度下大幅降低了开销,加速了云存储系统中分布式深度学习的数据重建。
附图说明
[0024]本领域的普通技术人员将会理解,提供的附图用于更好地理解本专利技术,而不对本专利技术的范围构成任何限定。其中:
[0025]图1为本专利技术一实施例提供的分布式深度学习的数据恢复方法的流程图;
[0026]图2为本专利技术一实施例提供的分布式深度学习的数据恢复系统的示意图。
[0027]附图中:
[0028]100

参数收集模块;200

优先级排序模块;300

方案构造模块。
具体实施方式
[0029]为使本专利技术的目的、优点和特征更加清楚,以下结合附图和具体实施例对本专利技术作进一步详细说明。需要说明的是,附图采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本专利技术实施方式的目的。为了使本专利技术的目的、特征和优点能够更加明显易懂,请参阅附图。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在与本专利技术所能产生的功效及所能达成的目的相同或近似的情况下,均应仍落在本专利技术所揭示的
技术实现思路
能涵盖的范
围内。
[0030]如在本专利技术中所使用的,单数形式“一”、“一个”以及“该”包括复数对象,除非内容另外明确指出外。如在本专利技术中所使用的,术语“或”通常是以包括“和/或”的含义而进行使用的,除非内容另外明确指出外。如在本专利技术中所使用的,术语“若干”通常是以包括“至少一个”的含义而进行使用的,除非内容另外明确指出外。如在本专利技术中所使用的,术语“至少两个”通常是以包括“两个或两个以上”的含义而进行使用的,除非内容另外明确指出外。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者至少两个该特征。
[0031]在本专利技术的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。
[0032]请参照图1,图1为本专利技术一实施例提供的分布式深度学习的数据恢复方法的流程图。本实施例提供了一种分布式深度学习的数据恢复方法,包括以下步骤:
[0033]S1、收集神经网络模型进行训练的参数信息,并利用纠删码获得待恢复数据分布的全局信息;
[0034]S2、利用人工智能来计算各类别训练数据恢复的优先级,对待恢复的数据所处的条带进行排序;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式深度学习的数据恢复方法,其特征在于,包括以下步骤:S1、收集神经网络模型进行训练的参数信息,并利用纠删码获得待恢复数据分布的全局信息;S2、利用人工智能来计算各类别训练数据恢复的优先级,对待恢复的数据所处的条带进行排序;S3、将计算得到的数据恢复优先级和待恢复数据分布的全局信息进行组合,构造并行的恢复方案。2.根据权利要求1所述的分布式深度学习的数据恢复方法,其特征在于,利用人工智能来计算各类别训练数据恢复的优先级的方法包括:其中,α和β是两个超参数,表示条带i的第j节点上的p类别训练数据的局部不均衡性,表示条带i的第j节点上的p类别训练数据的在全部节点上的不均衡性,γ
P
表示p类别训练数据的权重更新率。3.根据权利要求2所述的分布式深度学习的数据恢复方法,其特征在于,各类别训练数据的权重更新率来源于所述参数信息。4.根据权利要求3所述的分布式深度学习的数据恢复方法,其特征在于,所述权重更新率与各类别训练数据的样本数量成正比。5.根据权利要求2所述的分布式深度学习的数据恢复方法,其特征在...

【专利技术属性】
技术研发人员:吴晨涛李颉过敏意胡飘谷云飞贾冉昊杨国峰薛黄真
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1