基于多面体模型建模的自动并行策略搜索方法及相关设备技术

技术编号：37254842 阅读：27 留言：0更新日期：2023-04-20 23:31

本发明专利技术公开了基于多面体模型建模的自动并行策略搜索方法及相关设备，所述方法包括：根据每两个客户端的智算网络的智算中心资源，以最优的并行策略作为约束条件，分别对该两个客户端上的编解码架构模型进行分配；控制该两个客户端利用所有经过分配后的编解码架构模型，对所述智算中心资源进行协同训练和聚合操作，计算得到多面体模型的梯度值。通过先根据每两个客户端的智算网络的智算中心资源，对各自的编解码架构模型进行不同的分配，再利用经过分配后的编解码架构模型对所述智算中心资源进行协同训练和聚合操作，以便计算得到梯度值，从而实现根据不同算力分布、数据分布、以及不同业务场景进行分配，使得满足多种业务场景，实现大模型训练在智算网络中的规模化扩展。展。展。

全部详细技术资料下载

【技术实现步骤摘要】
基于多面体模型建模的自动并行策略搜索方法及相关设备

[0001]本专利技术涉及智算网络
，特别涉及基于多面体模型建模的自动并行策略搜索方法及相关设备。

技术介绍

[0002]自2017年开始，深圳、武汉、珠海、西安等城市均已建成以国产芯片为主的智算中心并投入运营，成都、南京、许昌等城市正在建设中，北京、上海、杭州、广州、大连、青岛、太远、南宁等地的智算中心建设也在陆续规划中。这些智算中心主要采用国产CPU和AI加速器。目前，我国已形成自主可控的云计算和大数据技术体系、标准规范和解决方案。
[0003]而当基于智算网络进行协同训练的时候，常用的ps架构在进行模型参数融合的时候，会产生大量的通信数据会造成瓶颈，并且当单个设备容纳不了模型参数时导致训练失败。那么，如何基于智算网络提供的环境进行高效的协同计算是丞待解决的问题。
[0004]因而现有技术还有待改进和提高。

技术实现思路

[0005]本专利技术的主要目的在于提供一种基于多面体模型建模的自动并行策略搜索方法及相关设备，旨在解决现有技术...

【技术保护点】

【技术特征摘要】
1.一种基于多面体模型建模的自动并行策略搜索方法，其特征在于，所述基于多面体模型建模的自动并行策略搜索方法包括：根据每两个客户端的智算网络的智算中心资源，以最优的并行策略作为约束条件，分别对该两个客户端上的编解码架构模型进行分配；控制该两个客户端利用所有经过分配后的编解码架构模型，对所述智算中心资源进行协同训练和聚合操作，计算得到多面体模型的梯度值。2.根据权利要求1所述的基于多面体模型建模的自动并行策略搜索方法，其特征在于，所述根据每两个客户端的智算网络的智算中心资源，以最优的并行策略作为约束条件，分别对该两个客户端上的编解码架构模型进行分配，具体包括：当一个智算网络的算力大且无本地数据，而另一个智算网络的算力小且拥有第一类型本地数据时，则将所述编解码架构模型分配至算力大的智算网络中；当一个智算网络的算力大且拥有第二类型本地数据，而另一个智算网络的算力小且拥有所述第一类型本地数据时，则将所述编解码架构模型分配至算力大的智算网络中；当两个客户端的智算网络的算力和所述本地数据的类型均相同，且该两个客户端的本地数据的分布不同时，则不对所述编解码架构模型进行分配；当两个客户端的智算网络的算力相同，且该两个客户端的本地数据的分布相同时，则不对所述编解码架构模型进行分配；当两个客户端的智算网络的算力、所述本地数据的类型以及该两个客户端的本地数据的分布均相同时，则将所述编解码架构模型平均分配至两个智算网络中。3.根据权利要求1所述的基于多面体模型建模的自动并行策略搜索方法，其特征在于，所述控制该两个客户端利用所有经过分配后的编解码架构模型，对所述智算中心资源进行协同训练和聚合操作，计算得到多面体模型的梯度值，具体包括：控制第一客户端利用经过分配后的编解码架构模型，对预存的本地数据进行第一次前向计算操作，得到第一前向输出结果后，发送至第二客户端；控制所述第二客户端利用经过分配后的编解码架构模型，对所述第一前向输出结果进行聚合操作和第二次前向计算操作，得到第二前向输出结果后，发送至所述第一客户端；控制所述第一客户端对所述第二前向输出结果，依次进行第三次前向计算操作和第一次反向梯度计算操作，并将得到的第一梯度值发送至所述第二客户端；控制所述第二客户端对所述第一梯度值，依次进行聚合操作和第二次反向梯度计算操作后，将得到的第二梯度值发送至所述第一客户端；控制所述第一客户端对所述第二梯度值进行第三次反向梯度计算操作，得到第三梯度值。4.根据权利要求3所述的基于多面体模型建模的自动并行策略搜索方法，其特征在于，所述控制第一客户端利用经过分配后的编解码架构模型，对预存的本地数据进行第一次前向计算操作，得到第一前向输出结果后，发送至第二客户端，具体包括：控制所述第一客户端利用经过分配后的编解码架构模型中嵌入层，对所述本地数据进行所述第一次前向计算操作，得到所述第一前向输出结果，并将所述第一前向输出结果发送至所述第二客户端。5.根据权利要求3所述的基于多面体模型建模的自动并行策略搜索方法，其特征在于，
所述控制所述第二客户端利用经过分配后的编解码架构模型，对所述第一前向输出结果进行聚合操作和第二次前向计算操作，得到第二前向输出结果后，发送至所述第一客户端，具体包括：控制所述第二客户端对所述第一前向输出结果进行聚合操作，得到第一次聚合结果；控制所述第二客户端利用经过...

【专利技术属性】
技术研发人员：张艳，王进，陶恒韬，易泽轩，颜达森，蒋芳清，王晖，余跃，李革，徐增林，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人