一种模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：35831841 阅读：19 留言：0更新日期：2022-12-03 14:01

本申请公开了一种模型训练方法、装置、设备及存储介质，涉及计算机技术领域，包括：获取用户交互序列中的物品ID，基于所述物品ID获取物品嵌入向量；基于全部物品嵌入向量生成物品嵌入矩阵，将物品嵌入矩阵输入至动态混合层和通道混合层，得到动态混合矩阵；基于动态混合矩阵与预设损失函数得到当前损失值，判断当前损失值是否满足预设条件；若满足预设条件，则基于当前动态混合层和通道混合层中的当前参数得到目标模型。本申请通过物品的ID获取对应的物品嵌入矩阵，然后通过动态混合层和通道混合层得到动态混合矩阵，再基于预设损失函数确定最终的模型参数，从而得到目标模型，增强了模型的稳健性与效率，并提升了模型在使用过程中答案的准确性。中答案的准确性。中答案的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法、装置、设备及存储介质

[0001]本专利技术涉及计算机
，特别涉及一种模型训练方法、装置、设备及存储介质。

技术介绍

[0002]序列推荐的目的是根据用户的历史交互顺序建立商品之间的动态过渡模式，然后将感兴趣的商品推荐给用户。早期的序列推荐模型基于马尔可夫链(MC，Markov chain)来捕获高阶序列模式。随着深度学习的兴起，基于深度神经网络的序列推荐模型逐渐占据主导地位。典型的解决方案主要是基于递归神经网络(RNN，Recurrent Neural Network)和卷积神经网络(CNN，Convolutional Neural Networks)来提取短期利益。然而，RNN自身存在梯度消失问题，很难在长序列上传播信息。作为替代方案，Transformer(一种深度神经网络)使用自我注意层来解决RNN的局限性。自我注意机制计算一个依赖于输入的注意权重矩阵，以获得整个序列中项目之间的相关度。有了这样一个全局接收域，transformer可以高效地并行处理长序列，并在许多顺序推荐任务中取得令人印象深刻的性能。尽管Transformer可以成功地捕获用户的长期兴趣，但它的二次型时间和内存复杂度使得它在处理极长的序列时效率低下。此外，自我注意需要使用附加的辅助位置嵌入对序列项的位置信息进行建模，这被证明有时会损害模型的性能。MLP
‑
mixer(一种架构)是一种基于MLP(多层感知机，Multilayer Perceptron)的模型，可以在许多具有线性复杂性和位置敏感性的计算...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取用户交互序列中的物品ID，并基于所述物品ID获取物品嵌入向量；基于所述用户交互序列中全部所述物品ID对应的全部所述物品嵌入向量生成对应的物品嵌入矩阵，并将所述物品嵌入矩阵输入至动态混合层和通道混合层，以得到动态混合矩阵；基于所述动态混合矩阵与预设损失函数得到当前损失值，并判断所述当前损失值是否满足预设条件；若所述当前损失值满足所述预设条件，则基于当前所述动态混合层和所述通道混合层中的当前参数得到目标模型。2.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述用户交互序列中全部所述物品ID对应的全部所述物品嵌入向量生成对应的物品嵌入矩阵，包括：获取全部所述物品嵌入向量，将全部所述物品嵌入向量进行拼接，以得到所述物品嵌入矩阵；所述用户交互序列中的所述物品ID的数量不大于物品集合中元素的数量。3.根据权利要求1或2所述的模型训练方法，其特征在于，所述将所述物品嵌入矩阵输入至动态混合层和通道混合层，以得到动态混合矩阵，包括：将所述物品嵌入矩阵输入至DynaMixer进行计算，以得到第一输出值；将所述第一输出值输入至Channel Mixer进行计算，以得到第二输出值；基于所述第二输出值得到所述动态混合矩阵。4.根据权利要求3所述的模型训练方法，其特征在于，所述将所述物品嵌入矩阵输入至DynaMixer进行计算，以得到第一输出值，包括：将所述物品嵌入矩阵输入至动态序列混合器，以便通过预设动态序列混合操作对当前信息片段进行混合，以得到每个所述当前信息片段对应的动态序列混合器输出值；将全部的所述动态序列混合器输出值拼接，以得到目标动态序列混合器输出值；通过线性层将同一通道中的项进行线性变换操作，以得到通道融合输出值；基于所述目标动态序列混合器输出值与所述通道融合输出值得到所述第一输出值。5.根据权利要求4所述的模型训练方法，其特征在于，所述将所述第一输出值输入至Channel Mixer进行计算，以得到第二输出值，包括：将所述第一输出值输入至Channel Mixer中的通道混合器，以便基于所述目标动态序列混合器输出值与所述通道融合输出值并通过预设通道混合公式进行计算，以得到每层所述通道混合器的所述第二输出值。6.根据...

【专利技术属性】
技术研发人员：赵朋朋，龙超，房俊华，崔志明，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人