分布式深度学习的数据恢复方法、系统及可读存储介质技术方案

技术编号：37124309 阅读：21 留言：0更新日期：2023-04-01 05:20

本发明专利技术提供了一种分布式深度学习的数据恢复方法、系统及可读存储介质，方法包括以下步骤：S1、收集神经网络模型进行训练的参数信息，并利用纠删码获得待恢复数据分布的全局信息；S2、利用人工智能来计算各类别训练数据恢复的优先级，对待恢复的数据所处的条带进行排序；S3、将计算得到的数据恢复优先级和待恢复数据分布的全局信息进行组合，构造并行的恢复方案。本发明专利技术通过人工智能为要恢复的数据建立加权优先级，并结合纠删码获得的数据块分布的全局信息来构建并行恢复方案，将纠删码获取数据全局信息的能力与人工智能恢复部分丢失数据的能力结合起来，在可接受的训练精度下大幅降低了资源消耗，加速了云存储系统中分布式深度学习的数据重建。度学习的数据重建。度学习的数据重建。

全部详细技术资料下载

【技术实现步骤摘要】
分布式深度学习的数据恢复方法、系统及可读存储介质

[0001]本专利技术涉及分布式深度学习
，尤其涉及一种分布式深度学习的数据恢复方法、系统及可读存储介质。

技术介绍

[0002]分布式深度学习是一种典型的机器学习方法，运行在云计算系统等分布式环境中。相应的训练、验证和测试数据集一般都非常大。由于云存储系统的磁盘故障率很高，分布式深度学习的关键问题是如何在训练程序中有效地容忍磁盘故障。这些故障会导致大量数据丢失，降低了训练的准确性并减慢了训练的进程。
[0003]目前对于数据的恢复重建通常有两种方式，一种是基于EC(纠删码)的恢复方法，该方法的特点是随机恢复，对数据没有感知。但是整个丢失的数据需要被重建，这需要消耗大量的计算、网络和I/O资源，尽管在这种环境下可以应用并行恢复方法，但由于数据恢复的等待时间长、计算资源减少等原因，上层机器学习应用容易受到影响。
[0004]另一种是基于AI(人工智能)的恢复方法，生成对抗网络经常被用来对丢失的图像数据进行近似恢复，这种恢复方案的其中一个缺点是生成模型必须在训练集丢失之前进行训练，以生成具有与训练集相同统计量的新数据，另一个缺点是资源消耗方面成本很高，需要很长的恢复时间。

技术实现思路

[0005]本专利技术的目的在于提供一种分布式深度学习的数据恢复方法、系统及可读存储介质，能够在可接受的训练精度下降低资源消耗，加速云存储系统中分布式深度学习的数据重建。
[0006]为达到上述目的，本专利技术提供一种分布式深度学习的数据恢复方...

【技术保护点】

【技术特征摘要】
1.一种分布式深度学习的数据恢复方法，其特征在于，包括以下步骤：S1、收集神经网络模型进行训练的参数信息，并利用纠删码获得待恢复数据分布的全局信息；S2、利用人工智能来计算各类别训练数据恢复的优先级，对待恢复的数据所处的条带进行排序；S3、将计算得到的数据恢复优先级和待恢复数据分布的全局信息进行组合，构造并行的恢复方案。2.根据权利要求1所述的分布式深度学习的数据恢复方法，其特征在于，利用人工智能来计算各类别训练数据恢复的优先级的方法包括：其中，α和β是两个超参数，表示条带i的第j节点上的p类别训练数据的局部不均衡性，表示条带i的第j节点上的p类别训练数据的在全部节点上的不均衡性，γ
P
表示p类别训练数据的权重更新率。3.根据权利要求2所述的分布式深度学习的数据恢复方法，其特征在于，各类别训练数据的权重更新率来源于所述参数信息。4.根据权利要求3所述的分布式深度学习的数据恢复方法，其特征在于，所述权重更新率与各类别训练数据的样本数量成正比。5.根据权利要求2所述的分布式深度学习的数据恢复方法，其特征在...

【专利技术属性】
技术研发人员：吴晨涛，李颉，过敏意，胡飘，谷云飞，贾冉昊，杨国峰，薛黄真，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人