一种在线训练模型的方法和设备技术

技术编号：13798917 阅读：49 留言：0更新日期：2016-10-07 00:15

本申请公开了一种在线训练模型的方法，所述方法应用于包括多个处理器的系统中，所述方法包括：所述处理器根据在线数据的正负样本，以及正负样本的不同权重得到流式的模型均值；所述处理器将根据所述流式的模型均值得到处理结果发送到服务器，以使所述服务器对所述处理结果进行整合得到训练模型。本申请中通过预设规则得到的处理结果具有较好的离线指标和在线性能表现。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及网络
，特别是涉及一种在线训练模型的方法和设备。
技术介绍
离线机器学习算法是利用批量离线数据训练模型，对很多应用来说，由于离线数据量很，大离线模型训练比较耗时。当完成离线模型训练时，模型往往已过期，无法捕获最新的数据变化。在线训练实时数据源源不断的进入在线训练系统，然后进行模型更新，能有效捕获最新的数据变化。现有的在线算法有以下几种：FTL算法(Follow The Leader)：是一种经典的在线算法它的核心思想选择过去所有回合中累计损失代价和最小的策略：FTRL算法(Follow The Regularized Leader)：FTL算法对部分问题无效，其原因是每次更新的ωt抖动太大，导致最终无法收敛。FTRL算法是FTL算法上的一个改进，在FTRL算法中的损失函数中加入了Regularization来解决这个问题最小化R(ω)可把ω限定在一个较小的空间。FTRL的更新方案是： ω t + 1 = arg min ω Σ s = 1 t f s ( ω ) + R ( ω ...

【技术保护点】
一种在线训练模型的方法，其特征在于，应用于包括多个处理器的系统中，所述方法包括：所述处理器根据在线数据的正负样本，以及正负样本的不同权重得到流式的模型均值；所述处理器将根据所述流式的模型均值得到处理结果发送到服务器，以使所述服务器对所述处理结果进行整合得到训练模型；其中，所述多个处理器之间使用异步并行的处理方式对在线数据进行处理。

【技术特征摘要】
1.一种在线训练模型的方法，其特征在于，应用于包括多个处理器的系统中，所述方法包括：所述处理器根据在线数据的正负样本，以及正负样本的不同权重得到流式的模型均值；所述处理器将根据所述流式的模型均值得到处理结果发送到服务器，以使所述服务器对所述处理结果进行整合得到训练模型；其中，所述多个处理器之间使用异步并行的处理方式对在线数据进行处理。2.如权利要求1所述方法，其特征在于，所述处理器根据在线数据的正负样本，以及赋予正负样本不同的权重得到流式的模型均值，具体包括：所述处理器根据在线数据的正负样本，以及正负样本不同的权重得到目标函数；其中，正样本的权重大于负样本的权重；所述处理器根据所述目标函数得到模型参数；所述处理器将所述模型参数进行投影；所述处理器根据投影后的模型参数得到流式的模型均值。3.如权利要求2所述方法，其特征在于，所述处理器根据所述目标函数得到模型参数，具体为：所述处理器使用在线数据初始时刻的离线模型参数对所述目标函数进行初始化约束，以使所述处理器得到模型参数；或，所述处理器使用在线数据初始时刻的离线模型参数对所述目标函数进行自适应离线约束，以使所述处理器得到模型参数。4.如权利要求3所述方法，其特征在于，所述处理器使用在线数据初始时刻的离线模型参数通过公式： ω t + 1 = arg min ω ( Σ i t g i * ω + 1 2 Σ i t σ i * | | ω - ω i | | 2 2 + λ 1 | | ω | ...

【专利技术属性】
技术研发人员：安伟亭，杨超，刘忠义，魏虎，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人