模型训练方法、处理器、电子设备及存储介质技术

技术编号：44485836 阅读：28 留言：0更新日期：2025-03-04 17:51

本申请提供了一种模型训练方法、处理器、电子设备及存储介质，应用于计算机技术领域，该方法在对模型进行训练的过程中，第一处理器可以先获取包括了多个特征的训练数据。然后，根据该训练数据向第三处理器发送第一请求信息，以从第三处理器中获取上述多个特征中各类特征对应的嵌入向量。最后，第一处理器根据获取到的各类特征对应的嵌入向量对从第二处理器获取的待训练模型进行训练，得到训练后的模型。基于此，第一处理器可以直接从第三处理器远程获取训练数据中各类特征对应的嵌入向量，并根据获取到的嵌入向量对待训练模型进行训练，无需第二处理器进行中转，降低了模型训练的时长，提高模型训练的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种模型训练方法、处理器、电子设备及存储介质。

技术介绍

1、在对推荐系统进行训练时，通常基于海量用户和推荐对象的交互行为信息，通过梯度下降等方法，训练推荐模型参数，当模型参数收敛后，可以对用户进行个性化推荐。为了更快速的捕捉用户兴趣，从而为用户提供更好的用户体验和推荐效果，深度模型需要频繁和快速更新，这些需求带来棘手的问题：需要基于海量特征和海量数据快速的完成推荐模型训练。此外，与计算机视觉(computer vision，cv)模型、自然语言处理(naturallanguage processing，nlp)模型不同，推荐模型有其独有特点。以点击率预测(clickthrough rate，ctr)模型为例，推荐模型包括嵌入层(embedding layer)和多层感知机(muli-layer perception，mlp)两个部分。推荐任务的数据包含大量高维稀疏的id类特征，一般使用独热(one-hot)编码，这部分特征直接用于模型训练会导致深度部分参数学习困难。为解决该问题，研究人员提出embedding...

【技术保护点】

1.一种模型训练方法，其特征在于，应用于第一电子设备，所述第一电子设备包括第一处理器和第二处理器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一处理器向第二电子设备中的第三处理器发送第一请求信息的步骤，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述第一处理器通过所述嵌入向量对所述待训练模型进行训练还得到所述多个特征中各个特征对应的嵌入向量的梯度；所述第一处理器向所述第三处理器发送第三数据的步骤，包括：

5.根据权利要求1-4任一项所述的方法，其特征在...

【技术特征摘要】

1.一种模型训练方法，其特征在于，应用于第一电子设备，所述第一电子设备包括第一处理器和第二处理器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一处理器向第二电子设备中的第三处理器发送第一请求信息的步骤，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述第一处理器通过远程直接内存访问的方式接收所述第三处理器返回的第一数据。

6.一种模型训练方法，其特征在于，应用于第二电子设备；所述第二电子设备包括第三处理器；所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求6或7所述的方法，其特征在于，所述第三处理器通过远程直接内存访问的方式接收所述第一处理器发送的第三数据。

9.一种...

【专利技术属性】
技术研发人员：葛根华，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人