一种模型训练数据的更新方法和装置制造方法及图纸

技术编号：35103603 阅读：34 留言：0更新日期：2022-10-01 17:12

本发明专利技术公开了一种模型训练数据的更新方法和装置，涉及计算机技术领域。响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至每个训练器节点的第二参数服务器中；对每个训练器节点，从目标训练器节点的第二参数服务器和除目标训练器节点之外的非目标训练器节点的第二参数服务器中获取模型训练数据；使用所获取的模型训练数据，通过目标训练器节点的训练器对模型进行训练生成训练结果；将训练结果保存至各训练器节点的第一参数服务器，以使每个训练器节点根据训练结果更新模型训练数据。该实施方式能够提高拉取和更新的通信速率，降低数据传输所耗费的时间，提高模型的训练效率和训练器资源的使用效率。器资源的使用效率。器资源的使用效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练数据的更新方法和装置

[0001]本专利技术涉及计算机
，尤其涉及一种模型训练数据的更新方法和装置。

技术介绍

[0002]在搜索、广告、推荐等业场景中，广泛使用了点击率预估模型，点击率预估模型需要的巨大规模的训练样本，训练样本为高维的稀疏参数。由于稀疏参数的量级大，一般无法在一台机器上储存训练需要的完整稀疏参数，同时由于每次训练过程中只会涉及到部分的稀疏参数，目前的方案是采用远端参数服务器架构对稀疏参数进行分布式存储，从而实现对超大规模稀疏参数的存储。对于参数服务器架构，集群中的节点分为训练器节点和参数服务器节点两种角色，其中每个训练器节点保存相同的模型计算图副本并负责模型计算，每个参数服务器节点存储不同的模型稀疏参数并负责稀疏参数的更新。训练器节点和参数服务器节点采用全连接的通信模式，训练器在需要使用特定稀疏参数时，会通过网络去拉取参数服务器上的稀疏参数数据，然后在训练器进行训练，最后将计算得到的梯度更新数据到远端参数服务器上。其中拉取和更新的耗时情况主要取决于网络带宽的大小，训练的耗时主要取决于训练器的硬件能力和深度学习模型的复杂程度。
[0003]在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：
[0004]拉取和更新的网络通信速率低，数据传输所耗费的时间较长，模型的训练效率低，训练器资源的使用效率低。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供一种模型训练数据的更新方法和装置，能够提高拉取和更新的通信速率，降低数据传输所耗费的...

【技术保护点】

【技术特征摘要】
1.一种模型训练数据的更新方法，其特征在于，包括：响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至所述每个训练器节点的第二参数服务器中，所述第二参数服务器的访问速度高于所述第一参数服务器的访问速度；对所述每个训练器节点，从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取所述模型训练数据；使用所获取的模型训练数据，通过所述目标训练器节点的训练器对模型进行训练，生成训练结果；将所述训练结果保存至所述目标训练器节点的第一参数服务器和所述非目标训练器节点的第一参数服务器中，以使所述每个训练器节点根据所述训练结果更新所述模型训练数据。2.根据权利要求1所述的方法，其特征在于，所述更新请求包括模型训练数据标识，所述响应于模型训练数据的更新请求，分别将每个训练器节点的第一参数服务器中的模型训练数据缓存至所述每个训练器节点的第二参数服务器中，包括：根据所述模型训练数据标识，分别将所述每个训练器节点的第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至所述每个训练器节点的第二参数服务器中。3.根据权利要求2所述的方法，其特征在于，所述第二参数服务器为高带宽内存参数服务器，不同训练器节点的第二参数服务器之间通过多对多通信模式进行通信，从除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取所述模型训练数据，包括：根据所述模型训练数据标识，通过所述多对多通信模式从除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取与所述模型训练数据标识对应的模型训练数据。4.根据权利要求3所述的方法，其特征在于，在同一所述训练器节点中，所述第一参数服务器和所述第二参数服务器通过点对点通信模式进行通信，所述将每个训练器节点的第一参数服务器中的模型训练数据缓存至所述每个训练器节点的第二参数服务器中，包括：根据所述模型训练数据标识，通过所述点对点通信模式将所述每个训练器节点的第一参数服务器中与所述模型训练数据标识对应的模型训练数据缓存至所述每个训练器节点的第二参数服务器中。5.根据权利要求4所述的方法，其特征在于，将所述训练结果保存至所述非目标训练器节点的第一参数服务器中，包括：根据所述模型训练数据标识，通过所述多对多通信模式将所述训练结果保存至所述非目标训练器节点的第二参数服务器中；通过所述点对点通信模式将所述非目标训练器节点的第二参数服务器中的训练结果保存至非目标训练器节点的第一参数服务器中。6.根据权利要求1所述的方法，其特征在于，所述使用所获取的模型训练数据，通过所述目标训练器节点的训练器对模型进行训练，生成训练结果，包括：对所获取的模型训练数据进行分批得到分批训练数据；分别使用每一分批训练数据，通过所述目标训练器节点的训练器对所述模型进行训
练，生成分批训练结果；对所述分批训练结果进行汇总得到所述训练结果。7.根据权利要求1所述的方法，其特征在于，所述更新请求包括多个批次的模型训练数据标识；所述从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取所述模型训练数据，包括：根据每个批次的模型训练数据标识，分别从目标训练器节点的第二参数服务器和除所述目标训练器节点之外的非目标训练器节点的第二参数服务器中获取每个批次的模型训练数据作为分批训练数据；所述使用所获取的模型训练数据，通过所述目标训练器节点的训练器对模型进行训练，生成训练结果，包括：分别使用每一分批训练数据，通过所述目标训练器节点的训练器对所述模型进行训练，生成分批训练结果；对所述分批训练结果进行汇总得到所述训练结果。8.一种模型训练数据的更新方法，其特征在于，包括：响应于模型训练数据的更新请求，将第一参数服务器中的模型训练数据缓存至第二参数服务器中，所述第二参数服务器与所述第一参数服务器位于同一训练器节点，且所述第二参数服务器的访问速度高于所述第一参数服务器的访问速度；从所述第二参数服务器和与本训练器节点不同的第一训练器节点的第二参数服务器中获取所述模型训练数据；使用所获取的模型训练数据，通过训练器对模型进行训练，生成训练结果；将所述训练结果保存至所述第一参数服务器和所述第一训练器节点的第一参数服务器中，以使每个训练器节点根据所述训练结果更新所述模型训练数据。9.根据权利要求8所述的方法，其特征在于，所述更新请求包括模型训练数据标识，所述响应于模型训练数据的更新请求，将第一参数服务器中的模型训练数据缓存至第二参数服务器中，包括：根据所述模...

【专利技术属性】
技术研发人员：黎沛含，邢召龙，张克丰，王文生，刘倩欣，原武军，裴杨，舒俊华，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人