预测模型的模型参数更新方法及装置制造方法及图纸

技术编号:26260164 阅读:40 留言:0更新日期:2020-11-06 17:55
本公开关于一种预测模型的模型参数更新方法及装置。该方法接收工作服务器对获取的模型参数执行模型参数迭代训练时发送的包括模型参数的当前梯度的参数更新请求,且检测出模型参数的类型为嵌入参数后,通过采用满足第一参数更新算法和当前梯度,对嵌入参数进行更新,第一参数更新算法为所需的内存需求量小于预设需求量的算法。该方法通过采用第一参数更新算法可以降低嵌入参数更新的内存使用量,解决了嵌入参数在模型训练期间的内存使用量不足的问题。

【技术实现步骤摘要】
预测模型的模型参数更新方法及装置
本公开涉及计算机
,尤其涉及一种预测模型的模型参数更新方法及装置。
技术介绍
现有预测模型中模型参数的更新采用的参数更新算法主要为自适应矩估计(Adaptivemomentestimation,Adam)算法。与经典的机器学习模型或计算机视觉(ComputerVision,CV)和自然语言处理(NaturalLanguageProcessing,NLP)使用的深度神经网络不同,预测模型的深度神经网络中的模型参数包括大量的嵌入参数和少量的网络参数,且嵌入参数在预测模型中占用的内存资源可达99.99%以上。然而,对于现有的参数更新算法,采用Adam算法对预测模型中的嵌入参数进行更新时,所需的内存需求量过大。通常,Adam算法需要维持至少多达或者甚至两倍的模型参数的数量,在面对10倍太字节级别(即10TB级别)的嵌入参数时,将出现内存使用量不足的问题。
技术实现思路
本公开提供一种预测模型的模型参数更新方法及装置,以至少解决相关技术中在模型训练期间的内存使用量不足的问题。本公本文档来自技高网...

【技术保护点】
1.一种预测模型的模型参数更新方法,其特征在于,应用在所述预测模型的参数服务器中,包括:/n接收工作服务器对获取的模型参数执行模型参数迭代训练后发送的参数更新请求,所述参数更新请求包括所述模型参数的梯度信息;/n响应于所述参数更新请求,检测所述模型参数的类型;/n若所述模型参数的类型为预测模型的嵌入参数,则采用第一参数更新算法和所述梯度信息中的当前梯度,对所述嵌入参数进行更新;其中,所述第一参数更新算法为所需的内存需求量小于预设需求量的算法。/n

【技术特征摘要】
1.一种预测模型的模型参数更新方法,其特征在于,应用在所述预测模型的参数服务器中,包括:
接收工作服务器对获取的模型参数执行模型参数迭代训练后发送的参数更新请求,所述参数更新请求包括所述模型参数的梯度信息;
响应于所述参数更新请求,检测所述模型参数的类型;
若所述模型参数的类型为预测模型的嵌入参数,则采用第一参数更新算法和所述梯度信息中的当前梯度,对所述嵌入参数进行更新;其中,所述第一参数更新算法为所需的内存需求量小于预设需求量的算法。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述模型参数的类型为预测模型的网络参数,则采用第二参数更新算法和所述梯度信息中的当前梯度,对所述网络参数进行更新;其中,所述第二参数更新算法为收敛速度大于预设速度阈值的算法。


3.根据权利要求1所述的方法,其特征在于,采用第一参数更新算法和所述梯度信息中的当前梯度,对所述嵌入参数进行更新,包括:
根据所述嵌入参数的当前梯度和所述嵌入参数的历史梯度,获取参数减小量;其中,所述参数减少量与所述当前梯度正相关,与存储的当前的梯度变化量反相关,所述当前的梯度变化量表征所述当前梯度和所述历史梯度的梯度变化程度;
根据所述嵌入参数减小量,对所述嵌入参数进行更新。


4.根据权利要求3所述的方法,其特征在于,所述当前梯度和所述历史梯度均包括N个梯度值,所述N表示所述嵌入参数的维数;
所述当前的梯度变化量的获取步骤包括:
计算所述嵌入参数的所述N个维数中每个维数对应的所述当前梯度和所述历史梯度的梯度总量,其中,所述梯度总量与所述N的比值为所述当前的梯度变化量。


5.根据权利要求2所述的方法,其特征在于,对所述网络参数进行更新之后,所述方法还包括:
根据对象推荐系统中每个预测参数服务器存储的嵌入参数的种类,对更新后的嵌入参数进行分组,得到至少一组更新后的嵌入参数;
针对每组更新后的嵌入参数,将该组更新后的嵌入参数发送至相应预测参数服务器,以使所述预测参数服务器采用所述每组更新后的嵌入参数替换存...

【专利技术属性】
技术研发人员:任恺
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1