用于机器学习模型的分布式系统及其方法技术方案

技术编号：42611686 阅读：25 留言：0更新日期：2024-09-03 18:19

本公开提供了一种用于机器学习模型的分布式系统及其方法，所述分布式系统可包括：多个计算设备，其中，每个计算设备上布置有相同的机器学习模型；其中，所述每个计算设备获取与自身的性能信息对应数量的训练数据，所述多个计算设备分别使用获取的训练数据并行地执行所述机器学习模型的训练过程，并且所述多个计算设备共同完成所述机器学习模型的训练任务。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能领域，更具体地，本公开涉及一种用于机器学习模型的分布式系统及其方法。

技术介绍

1、随着数据规模的迅速增长，机器学习被广泛应用于各种领域以挖掘数据的价值。然而，为了执行机器学习，一般物理机器的内存已经远远不足，为此，实践中往往需要利用分布式机器学习系统来完成机器学习模型的训练或相应的预估。在现有的分布式机器学习系统中，通常由多个计算设备并行地执行针对同一机器学习模型的相同训练过程，这会导致集群总性能的浪费。

技术实现思路

1、本公开的示例性实施例在于提供一种用于机器学习模型的分布式系统及其方法，其能够解决现有技术存在的分布式系统中集群总性能浪费的问题。

2、根据本公开的示例性实施例，提供了一种用于机器学习模型的分布式系统，包括：多个计算设备，其中，每个计算设备上布置有相同的机器学习模型；其中，所述每个计算设备获取与自身的性能信息对应数量的训练数据，所述多个计算设备分别使用获取的训练数据并行地执行所述机器学习模型的训练过程，并且所述多个计算设备共同完成所述机器学...

【技术保护点】

1.一种用于机器学习模型的分布式系统，包括：

2.根据权利要求1所述的分布式系统，其中，所述每个计算设备被配置为：基于所述计算设备的性能信息确定所述计算设备在每次执行所述机器学习模型的训练过程中的梯度累积次数。

3.根据权利要求2所述的分布式系统，其中，在确定所述梯度累积次数时，所述每个计算设备被配置为：

4.根据权利要求3所述的分布式系统，其中，在确定所述梯度累积次数时，所述每个计算设备被配置为：

5.根据权利要求2至4中任一项所述的分布式系统，其中，所述每个计算设备被配置为：

6.根据权利要求5所述的分布式系统，其中，在更新...

【技术特征摘要】

1.一种用于机器学习模型的分布式系统，包括：

3.根据权利要求2所述的分布式系统，其中，在确定所述梯度累积次数时，所述每个计算设备被配置为：

4.根据权利要求3所述的分布式系统，其中，在确定所述梯度累积次数时，所述每个计算设备被配置为：

5.根据权利要求2至4中任一项所述的分布式系统，其中，所述每个计算设备被配置为：

6.根据权利要求5所...

【专利技术属性】
技术研发人员：刘泽铭，杨守仁，李佳骏，
申请(专利权)人：第四范式北京技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人