当前位置: 首页 > 专利查询>苏州大学专利>正文

一种模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:35831841 阅读:19 留言:0更新日期:2022-12-03 14:01
本申请公开了一种模型训练方法、装置、设备及存储介质,涉及计算机技术领域,包括:获取用户交互序列中的物品ID,基于所述物品ID获取物品嵌入向量;基于全部物品嵌入向量生成物品嵌入矩阵,将物品嵌入矩阵输入至动态混合层和通道混合层,得到动态混合矩阵;基于动态混合矩阵与预设损失函数得到当前损失值,判断当前损失值是否满足预设条件;若满足预设条件,则基于当前动态混合层和通道混合层中的当前参数得到目标模型。本申请通过物品的ID获取对应的物品嵌入矩阵,然后通过动态混合层和通道混合层得到动态混合矩阵,再基于预设损失函数确定最终的模型参数,从而得到目标模型,增强了模型的稳健性与效率,并提升了模型在使用过程中答案的准确性。中答案的准确性。中答案的准确性。

【技术实现步骤摘要】
一种模型训练方法、装置、设备及存储介质


[0001]本专利技术涉及计算机
,特别涉及一种模型训练方法、装置、设备及存储介质。

技术介绍

[0002]序列推荐的目的是根据用户的历史交互顺序建立商品之间的动态过渡模式,然后将感兴趣的商品推荐给用户。早期的序列推荐模型基于马尔可夫链(MC,Markov chain)来捕获高阶序列模式。随着深度学习的兴起,基于深度神经网络的序列推荐模型逐渐占据主导地位。典型的解决方案主要是基于递归神经网络(RNN,Recurrent Neural Network)和卷积神经网络(CNN,Convolutional Neural Networks)来提取短期利益。然而,RNN自身存在梯度消失问题,很难在长序列上传播信息。作为替代方案,Transformer(一种深度神经网络)使用自我注意层来解决RNN的局限性。自我注意机制计算一个依赖于输入的注意权重矩阵,以获得整个序列中项目之间的相关度。有了这样一个全局接收域,transformer可以高效地并行处理长序列,并在许多顺序推荐任务中取得令人印象深刻的性能。尽管Transformer可以成功地捕获用户的长期兴趣,但它的二次型时间和内存复杂度使得它在处理极长的序列时效率低下。此外,自我注意需要使用附加的辅助位置嵌入对序列项的位置信息进行建模,这被证明有时会损害模型的性能。MLP

mixer(一种架构)是一种基于MLP(多层感知机,Multilayer Perceptron)的模型,可以在许多具有线性复杂性和位置敏感性的计算视觉任务中实现与Transformer相当的性能。受此启发,已有一些工作将MLP架构引入推荐系统,用于解决序列推荐任务。MOI

Mixer提出了一个多阶交互层来提高其性能。MLP4Rec开发了一个三方向融合方案,以相互捕获顺序、跨通道和跨特征的相关性。然而现有的基于MLP的模型假设用户的偏好转移模式是静态的,可以被具有固定权重的MLP统一捕获。实际上,用户的偏好是随着实际情况不断变化的,这种序列转换模式的不确定性使得模型难以动态适应。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种模型训练方法、装置、设备和存储介质,能够增强模型的稳健性与效率,并提升模型在使用过程中答案的准确性。其具体方案如下:
[0004]第一方面,本申请公开了一种模型训练方法,包括:
[0005]获取用户交互序列中的物品ID,并基于所述物品ID获取物品嵌入向量;
[0006]基于所述用户交互序列中全部所述物品ID对应的全部所述物品嵌入向量生成对应的物品嵌入矩阵,并将所述物品嵌入矩阵输入至动态混合层和通道混合层,以得到动态混合矩阵;
[0007]基于所述动态混合矩阵与预设损失函数得到当前损失值,并判断所述当前损失值是否满足预设条件;
[0008]若所述当前损失值满足所述预设条件,则基于当前所述动态混合层和所述通道混
合层中的当前参数得到目标模型。
[0009]可选的,所述基于所述用户交互序列中全部所述物品ID对应的全部所述物品嵌入向量生成对应的物品嵌入矩阵,包括:
[0010]获取全部所述物品嵌入向量,将全部所述物品嵌入向量进行拼接,以得到所述物品嵌入矩阵;所述用户交互序列中的所述物品ID的数量不大于物品集合中元素的数量。
[0011]4、可选的,所述将所述物品嵌入矩阵输入至动态混合层和通道混合层,以得到动态混合矩阵,包括:
[0012]将所述物品嵌入矩阵输入至DynaMixer进行计算,以得到第一输出值;
[0013]将所述第一输出值输入至Channel Mixer进行计算,以得到第二输出值;
[0014]基于所述第二输出值得到所述动态混合矩阵。
[0015]可选的,所述将所述物品嵌入矩阵输入至DynaMixer进行计算,以得到第一输出值,包括:
[0016]将所述物品嵌入矩阵输入至动态序列混合器,以便通过预设动态序列混合操作对当前信息片段进行混合,以得到每个所述当前信息片段对应的动态序列混合器输出值;
[0017]将全部的所述动态序列混合器输出值拼接,以得到目标动态序列混合器输出值;
[0018]通过线性层将同一通道中的项进行线性变换操作,以得到通道融合输出值;
[0019]基于所述目标动态序列混合器输出值与所述通道融合输出值得到所述第一输出值。
[0020]可选的,所述将所述第一输出值输入至Channel Mixer进行计算,以得到第二输出值,包括:
[0021]将所述第一输出值输入至Channel Mixer中的通道混合器,以便基于所述目标动态序列混合器输出值与所述通道融合输出值并通过预设通道混合公式进行计算,以得到每层所述通道混合器的所述第二输出值。
[0022]可选的,所述基于所述动态混合矩阵与预设损失函数得到当前损失值,并判断所述当前损失值是否满足预设条件,包括:
[0023]获取所述动态混合矩阵中最后一个物品对应的嵌入向量,以得到目标物品嵌入向量;
[0024]基于所述目标物品嵌入向量并通过预设归一化公式对当前层进行归一化操作,以得到所述最后一个物品对应的归一化目标值;
[0025]基于所述归一化目标值与所述用户物品交互序列,并通过预设损失函数进行计算,以得到当前损失值;
[0026]判断所述当前损失值是否满足预设损失值变化规律。
[0027]可选的,所述判断所述当前损失值是否满足预设损失值变化规律之后,还包括:
[0028]若所述当前损失值不满足所述预设损失值变化规律,则使用预设梯度下降规则对所述当前损失值进行调整,以得到调整后损失值;
[0029]将所述调整后损失值反向传播,以便基于所述调整后损失值调整当前模型中的目标参数,得到调整后参数;
[0030]相应的,所述若所述当前损失值满足所述预设条件,则基于当前所述动态混合层和所述通道混合层中的当前参数得到目标模型,包括:
[0031]若基于所述调整后参数以及所述预设损失函数得到的调整后损失值满足所述预设条件,则将所述调整后参数确定为最终参数,并基于所述最终参数得到所述目标模型。
[0032]第二方面,本申请公开了一种模型训练装置,包括:
[0033]嵌入向量获取模块,用于获取用户交互序列中的物品ID,并基于所述物品ID获取物品嵌入向量;
[0034]混合模块,用于基于所述用户交互序列中全部所述物品ID对应的全部所述物品嵌入向量生成对应的物品嵌入矩阵,并将所述物品嵌入矩阵输入至动态混合层和通道混合层,以得到动态混合矩阵;
[0035]损失值计算模块,用于基于所述动态混合矩阵与预设损失函数得到当前损失值,并判断所述当前损失值是否满足预设条件;
[0036]模型获取模块,用于若所述当前损失值满足所述预设条件,则基于当前所述动态混合层和所述通道混合层中的当前参数得到目标模型。
[0037本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取用户交互序列中的物品ID,并基于所述物品ID获取物品嵌入向量;基于所述用户交互序列中全部所述物品ID对应的全部所述物品嵌入向量生成对应的物品嵌入矩阵,并将所述物品嵌入矩阵输入至动态混合层和通道混合层,以得到动态混合矩阵;基于所述动态混合矩阵与预设损失函数得到当前损失值,并判断所述当前损失值是否满足预设条件;若所述当前损失值满足所述预设条件,则基于当前所述动态混合层和所述通道混合层中的当前参数得到目标模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述基于所述用户交互序列中全部所述物品ID对应的全部所述物品嵌入向量生成对应的物品嵌入矩阵,包括:获取全部所述物品嵌入向量,将全部所述物品嵌入向量进行拼接,以得到所述物品嵌入矩阵;所述用户交互序列中的所述物品ID的数量不大于物品集合中元素的数量。3.根据权利要求1或2所述的模型训练方法,其特征在于,所述将所述物品嵌入矩阵输入至动态混合层和通道混合层,以得到动态混合矩阵,包括:将所述物品嵌入矩阵输入至DynaMixer进行计算,以得到第一输出值;将所述第一输出值输入至Channel Mixer进行计算,以得到第二输出值;基于所述第二输出值得到所述动态混合矩阵。4.根据权利要求3所述的模型训练方法,其特征在于,所述将所述物品嵌入矩阵输入至DynaMixer进行计算,以得到第一输出值,包括:将所述物品嵌入矩阵输入至动态序列混合器,以便通过预设动态序列混合操作对当前信息片段进行混合,以得到每个所述当前信息片段对应的动态序列混合器输出值;将全部的所述动态序列混合器输出值拼接,以得到目标动态序列混合器输出值;通过线性层将同一通道中的项进行线性变换操作,以得到通道融合输出值;基于所述目标动态序列混合器输出值与所述通道融合输出值得到所述第一输出值。5.根据权利要求4所述的模型训练方法,其特征在于,所述将所述第一输出值输入至Channel Mixer进行计算,以得到第二输出值,包括:将所述第一输出值输入至Channel Mixer中的通道混合器,以便基于所述目标动态序列混合器输出值与所述通道融合输出值并通过预设通道混合公式进行计算,以得到每层所述通道混合器的所述第二输出值。6.根据...

【专利技术属性】
技术研发人员:赵朋朋龙超房俊华崔志明
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1