一种分布式数据传输优化方法、系统及相关设备技术方案

技术编号：26694004 阅读：17 留言：0更新日期：2020-12-12 02:50

本发明专利技术实施例提供了一种分布式数据传输优化方法、系统及相关设备，用于提高数据传输的效率。本发明专利技术实施例方法包括：获取多条训练数据及数据传输策略的超参数空间，每一条所述训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中所述集群在单位时间内的网络吞吐量参数，其中，每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值；将所述多个训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型，计算得到当前训练数据下的最优数据传输策略。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式数据传输优化方法、系统及相关设备
本专利技术涉及分布式数据传输优化
，尤其涉及一种分布式数据传输优化方法、系统及相关设备。
技术介绍
近年随着深度学习在人工智能领域的应用越来越广，深度学习使用的模型应用也越来越复杂、数据集也越来越大。使用单机训练这些模型往往需要的时间按月计。为了节省对这些模型的训练时间，往往在大规模集群上采用数据并行的方式对模型进行训练。目前在数据并行训练中公认的高效方式是基于聚合方式交互模型训练过程中的权重或梯度，聚合过程中的集群中的节点之间的数据通信经常采用数据并行框架默认的数据传输策略(依据经验设置集群底层网络拓扑以及集群内节点组合策略)，没有数据传输策略调节优化，无法发挥集合通信最佳的网络吞吐量，导致数据通信效率低下。
技术实现思路
本专利技术实施例提供了一种分布式数据传输优化方法、系统及相关设备，用于提高数据传输的效率。本专利技术实施例第一方面提供了一种分布式数据传输优化方法，可包括：获取多条训练数据及数据传输策略的超参数空间，每一条所述训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中所述集群在单位时间内的网络吞吐量参数，其中，每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值；将所述多个训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型，计算得到当前训练数据下的最优数据传输策略。可选的，作为一种可能的实施方式，本专利技术实施例中的分布式数据传输优化方法，还可以包括：采...

【技术保护点】
1.一种分布式数据传输优化方法，其特征在于，包括：/n获取多条训练数据及数据传输策略的超参数空间，每一条所述训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中所述集群在单位时间内的网络吞吐量参数，其中，每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值；/n将所述多个训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型，计算得到当前训练数据下的最优数据传输策略。/n

【技术特征摘要】
1.一种分布式数据传输优化方法，其特征在于，包括：
获取多条训练数据及数据传输策略的超参数空间，每一条所述训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中所述集群在单位时间内的网络吞吐量参数，其中，每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值；
将所述多个训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型，计算得到当前训练数据下的最优数据传输策略。

2.根据权利要求1所述的方法，其特征在于，还包括：
采集所述集群在执行所述最优数据传输策略时单位时间内的网络吞吐量参数记作参数A；
判断所述参数A是否满足预设条件，若不满足，则将所述最优数据传输策略及所述参数A作为所述多条训练数据中的一条训练数据代入贝叶斯优化算法模型，以重新确定最优数据传输策略。

3.根据权利要求2所述的方法，其特征在于，在将所述最优数据传输策略及所述参数A作为所述多条训练数据中的一条训练数据代入贝叶斯优化算法模型之前，所述方法还包括：
判断所述最优数据传输策略与所述多条训练数据是否存在重复数据，若存在重复数据，则去除重复数据。

4.根据权利要求3所述的方法，其特征在于，所述获取多条训练数据包括：
随机选定所述超参数空间中的每个参数的初始值，组成多种数据传输策略；
在集群中分别配置所述多种数据传输策略，并分别采集执行所述多种数据传输策略执行过程中所述集群在单位时间内的网络吞吐量参数。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述将所述多个训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型，计算得到当前训练数据下的最优数据传输策略，包括：
采用高斯过程对所述多...

【专利技术属性】
技术研发人员：刘永恒，任智祥，张凡，付志鹏，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人