分布式训练方法、装置、智能终端及计算机可读存储介质制造方法及图纸

技术编号：32266493 阅读：19 留言：0更新日期：2022-02-12 19:29

本发明专利技术公开了分布式训练方法、装置、智能终端及计算机可读存储介质，方法包括：分别获取各服务器的服务器智能水平，各上述服务器智能水平分别体现对应服务器的数据处理能力；基于待训练数据集的复杂度、待训练模型的复杂度以及各服务器智能水平获取目标分组数目信息，并基于目标分组数目信息和各上述服务器的服务器智能水平对所有服务器进行群组划分，获取多个服务器群组；基于各服务器群组的群组智能水平分别为各服务器群组分发待训练数据集中的数据资源和待训练模型中的模型资源，各群组智能水平分别体现对应服务器群组的数据处理能力；分别控制各服务器群组基于获得的数据资源和模型资源进行训练。与现有技术中相比，本发明专利技术可提高训练效率。发明专利技术可提高训练效率。发明专利技术可提高训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
分布式训练方法、装置、智能终端及计算机可读存储介质

[0001]本专利技术涉及深度学习
，尤其涉及的是一种分布式训练方法、装置、智能终端及计算机可读存储介质。

技术介绍

[0002]深度学习是现代信息处理的一种智能算法，通过多层神经网络拟合训练样本数据，解决了传统神经网络算法在训练多层神经网络时出现的局部最优问题。目前，随着科学技术的发展，尤其是互联网技术的快速发展，各种数据的增长速度越来越快，给深度学习模型的训练带来了很大的挑战。同时，随着人工智能任务变得越来越复杂，对模型的要求也越来越高。在深度学习领域，目前已经趋于向大模型和大数据的方向发展，大数据和大模型对计算能力和存储能力都提出了更高的要求，因此对传统的深度学习训练方法带来了巨大的挑战。
[0003]现有技术中，通常通过对数据进行随机采样或置乱切分、对模型进行横向或纵向切分并将切分后的数据和/或模型分发到各个服务器的方法来实现分布式的模型训练。现有技术的问题在于，在进行数据和模型的划分和分发时未考虑各个服务器的实际处理能力，导致服务器的训练效率低，不利于提高训练效率。
[0004]因此，现有技术还有待改进和发展。

技术实现思路

[0005]本专利技术的主要目的在于提供一种分布式训练方法、装置、智能终端及计算机可读存储介质，旨在解决现有技术中在进行数据和模型的划分和分发时未考虑各个服务器的实际处理能力，导致服务器的训练效率低，不利于提高训练效率的问题。
[0006]为了实现上述目的，本专利技术第一方面提供一种分布式...

【技术保护点】

【技术特征摘要】
1.一种分布式训练方法，其特征在于，所述方法包括：分别获取各服务器的服务器智能水平，其中，各所述服务器智能水平分别体现对应服务器的数据处理能力；基于待训练数据集的复杂度、待训练模型的复杂度以及各所述服务器智能水平获取目标分组数目信息，并基于所述目标分组数目信息和各所述服务器的服务器智能水平对所有所述服务器进行群组划分，获取多个服务器群组；基于各服务器群组的群组智能水平分别为各服务器群组分发所述待训练数据集中的数据资源和所述待训练模型中的模型资源，其中，各所述群组智能水平分别体现对应服务器群组的数据处理能力；分别控制各所述服务器群组基于获得的数据资源和模型资源进行训练。2.根据权利要求1所述的分布式训练方法，其特征在于，所述分别获取各服务器的服务器智能水平，包括：分别获取各所述服务器的视频处理能力、通用计算能力、存储能力、通信能力、设备接入能力以及能耗成本；基于各所述服务器的视频处理能力、通用计算能力、存储能力、通信能力、设备接入能力以及能耗成本分别计算获取各所述服务器的服务器智能水平。3.根据权利要求2所述的分布式训练方法，其特征在于，所述服务器智能水平是对应服务器的能力乘积与能耗成本的比值，所述能力乘积是所述服务器的视频处理能力、通用计算能力、存储能力、通信能力以及设备接入能力的乘积。4.根据权利要求1所述的分布式训练方法，其特征在于，所述基于待训练数据集的复杂度、待训练模型的复杂度以及各所述服务器智能水平获取目标分组数目信息，并基于所述目标分组数目信息和各所述服务器的服务器智能水平对所有所述服务器进行群组划分，获取多个服务器群组，包括：获取待训练数据集的数据集信息，基于所述数据集信息计算获取所述待训练数据集的复杂度，其中，所述数据集信息包括所述待训练数据集的特征维度、所需内存大小和所需算力大小；获取待训练模型的模型信息，基于所述模型信息计算获取所述待训练模型的复杂度，其中，所述模型信息包括所述待训练模型的网络层数和参数量大小；基于各所述服务器智能水平、获得的所述待训练数据集的复杂度和所述待训练模型的复杂度计算获得目标分组数目信息，并基于所述目标分组数目信息和各所述服务器的服务器智能水平对所有所述服务器进行群组划分，获取多个服务器群组。5.根据权利要求4所述的分布式训练方法，其特征在于，所述目标分组数目信息包括目标群体数目和每个服务器群体对应的目标群组数目，所述基于各所述服务器智能水平、获得的所述待训练数据集的复杂度和所述待训练模型的复杂度计算获得目标分组数目信息，并基于所述目标分组数目信息和各所述服务器的服务器智能水平对所有所述服务器进行群组划分，获取多个服务器群组，包括：基于各所述服务器智能水平、获得的所述待训练数据集的复杂度和所述待训练模型的复杂度计算获得目标群体数目，其中，所述目标群体数目是需要对所有所述服务器划分获得的服务器群体的数目；
基于所述目标群体数目对所有所述服务器进行群体划分，获得目标群体数目个服务器群体；分别基于各所述服务器群体对应的群体智能水平对所述待训练数据集和所述待训练模型进行划分，获得各所述服务器群体对应的群体数据集和群体模型；分别基于各所述服务器群体的群体智能水平、群体数据集的复杂度和群体模型的复杂度计算获取各所述服务器群体对应的目标群组数目；分别基于各所述服务器群体对应的目标群组数目对各所述服务器群体中的服务器进行划分，在每一个所述服务器群体中获得多个服务器群组。6.根据权利要求5所述的分布式训练方法，其特征在于，所述基于各所述服务器智能水平、获得的所述待训练数据集的复杂度和所述待训练模型的复杂度计算获得目标群体数...

【专利技术属性】
技术研发人员：王耀威，李革，杨哲铭，纪雯，
申请(专利权)人：北京大学深圳研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人