执行机器学习的分布式系统及其方法技术方案

技术编号:17098123 阅读:65 留言:0更新日期:2018-01-21 10:17
提供了一种执行机器学习的分布式系统及其方法,所述系统包括:多个计算装置,其中,每个计算装置被配置为针对各自的数据记录来执行数据流式计算,其中,所述数据流式计算表示为一个或多个有向无环图;参数存储器,用于维护机器学习模型的参数,其中,在执行训练机器学习模型的数据流式计算时,计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算,并且,参数存储器根据计算装置的运算结果来更新所述参数;并且/或者,在执行利用机器学习模型进行预估的数据流式计算时,计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算。由此,可减少机器学习的运算开销。

Distributed system and its method for executing machine learning

Provides a distributed machine learning method and system implementation, the system includes a plurality of computing devices, wherein each computing device is configured for each data record to perform calculation, data flow, the data flow computation is expressed as one or more directed acyclic graph parameters; memory, for parameters, maintenance of machine learning model, flow calculation in training machine learning model data, the computing device using parameters obtained from the parameter memory to record data for their execution on the machine learning model training operations, and parameter memory updating the parameters according to the calculation results of operation device come; and / or flow calculation in the implementation of using machine learning model to estimate the data, computing apparatus using the parameters from the memory access The parameters are used to perform an operation on the prediction of the machine learning model for the respective data records. Thus, the computing overhead of machine learning can be reduced.

【技术实现步骤摘要】
执行机器学习的分布式系统及其方法
本专利技术的示例性实施例总体说来涉及人工智能领域,更具体地说,涉及一种执行机器学习的分布式系统以及利用所述分布式系统来执行机器学习的方法。
技术介绍
随着数据规模的迅速增长,机器学习被广泛应用于各种领域以挖掘数据的价值。然而,为了在大数据规模下执行机器学习,实践中往往需要利用包括多个计算装置的分布式机器学习平台来完成机器学习模型的训练或相应的预估。在现有的分布式机器学习系统中(例如,谷歌的深度学习框架TensorFlow中),如果想要实现基于某个机器学习算法的多配置运行或多次运行,或者,如果想要同时运行多个机器学习算法,则需要对算法的内部进行修改,或者实现外部逻辑的多次调用,这两种方式都将耗费较大的实际计算量。
技术实现思路
本专利技术的示例性实施例旨在克服现有的分布式机器学习系统在执行机器学习时运算开销较大的缺陷。根据本专利技术的示例性实施例,提供一种执行机器学习的分布式系统,包括:多个计算装置,其中,每个计算装置被配置为针对各自的数据记录来执行关于机器学习模型的数据流式计算,其中,所述数据流式计算表示为一个或多个由处理步骤组成的有向无环图,每个有向无本文档来自技高网...
执行机器学习的分布式系统及其方法

【技术保护点】
一种执行机器学习的分布式系统,包括:多个计算装置,其中,每个计算装置被配置为针对各自的数据记录来执行关于机器学习模型的数据流式计算,其中,所述数据流式计算表示为一个或多个由处理步骤组成的有向无环图,每个有向无环图对应于单个机器学习模型;参数存储器,用于维护机器学习模型的参数,其中,在执行训练机器学习模型的数据流式计算时,计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算,并且,参数存储器根据计算装置的运算结果来更新所述参数;并且/或者,在执行利用机器学习模型进行预估的数据流式计算时,计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型预估...

【技术特征摘要】
1.一种执行机器学习的分布式系统,包括:多个计算装置,其中,每个计算装置被配置为针对各自的数据记录来执行关于机器学习模型的数据流式计算,其中,所述数据流式计算表示为一个或多个由处理步骤组成的有向无环图,每个有向无环图对应于单个机器学习模型;参数存储器,用于维护机器学习模型的参数,其中,在执行训练机器学习模型的数据流式计算时,计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算,并且,参数存储器根据计算装置的运算结果来更新所述参数;并且/或者,在执行利用机器学习模型进行预估的数据流式计算时,计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算。2.如权利要求1所述的分布式系统,其中,所述参数存储器具有分布式参数服务器结构,其中,在所述分布式参数服务器结构下,每一部分参数服务器与相应的计算装置集成为一体。3.如权利要求1所述的分布式系统,其中,在执行训练机器学习模型的数据流式计算时,针对数据记录的每一轮迭代来进行灾备。4.如权利要求1所述的分布式系统,其中,所述数据记录对应于机器学习模型的部分或全部参数。5.如权利要求1所述的分布式系统,其中,计算装置通过合并不同有向无环图中相同的处理步骤来执行数据流式计算。6.如权利要求1所述的分布式系统,其中,参数存储器按照键值对来保存机器学习模型的参数,并且,具有相同键的键值对被保存为单个键对应于多个值的形式。7.一种利用分布式系统来执行机器学...

【专利技术属性】
技术研发人员:陈雨强杨强戴文渊焦英翔涂威威石光川
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1