基于变换器的双向编码器表示的序列推荐方法及设备技术

技术编号：36806534 阅读：10 留言：0更新日期：2023-03-09 00:18

本发明专利技术提供了一种基于变换器的双向编码器表示的序列推荐方法及设备。所述方法包括：步骤1：采用基于自注意力机制的双向编码器来捕获用户历史行为序列中项目的双向依赖关系和项目的共现特性；步骤2：采用步骤1中得到的项目的双向依赖关系和共现特性关系，在预训练阶段，针对数据稀疏导致的正负样本比例悬殊，采用双向编码器的掩码语言模型以自监督的方式训练模型；步骤3：将步骤2中的模型训练参数，在微调阶段采用用户历史行为序列数据训练网络，确保目标物品标签均衡。本发明专利技术能够很好的缓解系统冷启动问题，有效提高目标平台的推荐性能。性能。性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于变换器的双向编码器表示的序列推荐方法及设备

[0001]本专利技术实施例涉及序列推荐
，尤其涉及一种基于变换器的双向编码器表示的序列推荐方法及设备。

技术介绍

[0002]序列推荐(Sequential Recommendation,SR)是指根据用户历史行为信息，预测用户接下来最有产生行为的项目。近年来，由于循环神经网络在序列建模方面的强大功能，在视频推荐场景的用户行为序列建模问题中，深度网络已获得较为广泛的应用。这些基于RNN方法的基本范式是使用从左到右的模式将序列为为一个向量，并通过计算目标视频和序列为之间的相似性进行推荐。循环神经网络在处理序列时，使用的是从前往后的单向建模方式，这种从前往后的建模方式在长短期行为序列建模问题上有所欠缺，缺乏双向建模依赖模式。因此，开发一种基于变换器的双向编码器表示的序列推荐方法及设备，可以有效克服上述相关技术中的缺陷，就成为业界亟待解决的技术问题。

技术实现思路

[0003]针对现有技术存在的上述问题，本专利技术实施例提供了一种基于变换器的双向编码器表示的序列推荐方法及设备。
[0004]第一方面，本专利技术的实施例提供了一种基于变换器的双向编码器表示的序列推荐方法，包括：步骤1：采用基于自注意力机制的双向编码器来捕获用户历史行为序列中项目的双向依赖关系和项目的共现特性；步骤2：采用步骤1中得到的项目的双向依赖关系和共现特性关系，在预训练阶段，针对数据稀疏导致的正负样本比例悬殊，采用双向编码器的掩码语言模型以自监督的方式训练模型；步骤3：将步...

【技术保护点】

【技术特征摘要】
1.一种基于变换器的双向编码器表示的序列推荐方法，其特征在于，包括：步骤1：采用基于自注意力机制的双向编码器来捕获用户历史行为序列中项目的双向依赖关系和项目的共现特性；步骤2：采用步骤1中得到的项目的双向依赖关系和共现特性关系，在预训练阶段，针对数据稀疏导致的正负样本比例悬殊，采用双向编码器的掩码语言模型以自监督的方式训练模型；步骤3：将步骤2中的模型训练参数，在微调阶段采用用户历史行为序列数据训练网络，确保目标物品标签均衡。2.根据权利要求1所述的基于变换器的双向编码器表示的序列推荐方法，其特征在于，步骤1具体包括：步骤1.1：在输入层，准备好视频的初始表征，将其送入到序列编码器，模型的序列编码器是由多个自注意力层堆叠而成，得到用户行为序列中视频的初始嵌入向量表征；步骤1.2：基于步骤1.1得到的用户行为序列中视频的初始嵌入向量表征，在序列编码层，用序列编码器来初始化对应部分的参数，无需重头开始训练，得到模型对应的部分参数；步骤1.3：基于步骤1.2得到的模型对应的部分参数，在模型预训练阶段，采用负对数似然函数作为损失函数优化方式，得到更优的模型训练参数；步骤1.4：对步骤1.3中得到的更优的模型训练参数，在模型微调阶段，采用预训练的输入层和序列编码器参数来初始化模型对应的部分参数，采用平均池化来聚合用户行为序列中所有视频的隐层嵌入向量表征，得到被掩码视频的隐层嵌入向量表征；步骤1.5：对步骤1.4中得到的被掩码视频的隐层嵌入向量表征，在输出层，得到被掩码视频的隐层表征，并用于预测分类概率，得到目标视频被点击的概率；步骤1.2包括包括子步骤：步骤1.2.1：多头注意力机制并行地应用缩放点积乘注意力机制多次，独立的注意力机制输出被串联起来，并被线性转化为预期的维度，得到线性映射下不同空间向量表征；步骤1.2.2：基于步骤1.2.1得到线性映射下不同空间向量表征，为确保模型具有非线性表达能力，以及不同维度的特征进行交互，对序列表征中的每一条视频的表征应用的位置前馈层是相同的，得到位置前馈网络的表征；步骤1.2.3：基于步骤1.2.2得到位置前馈网络的表征，通过多层变换器堆叠来考虑捕捉更加复杂的双向依赖关系，得到隐层视频嵌入向量表征；在步骤1.1中，采用元素相加形成视频s
i
的初始嵌入表征向量计算包括：其中，p
i
表示位置嵌入向量，表示视频s
i
的特征向量，得到用户行为序列s的初始表征向量，其中,H0∈R
L
×
d
，设定一个长度为L的用户行为序列S＝{s1,s2,...,s
L
}，通过将用户行为序列中第i个视频s
i
转换到一个相对低维度的空间，转换为一个d维向量。3.根据权利要求2所述的基于变换器的双向编码器表示的序列推荐方法，其特征在于，在步骤1.2.1中，多头注意力机制不只计算一次注意力权重，而是会并行地应用缩放点积乘注意力机制h次，独立的注意力机制输出被串联起来，并被线性转化为预期的维度，将输入分别线性映射到不同的空间下，计算包括：
其中，W
iC
∈R
d
×
d
均为待学习参数矩阵，设置h取值为4，是第m层的视频序列S的表征向量矩阵，Attention(
·
)为注意力分数，head
i
为多头注意力分数，MH(
·
)为多头注意力映射。4.根据权利要求3所述的基于变换器的双向编码器表示的序列推荐方法，其特征在于，在步骤1.2.2中，为让模型具有非线性表达能力，以及让不同维度的特征进行交互，对序列表征中的每一条视频的表征应用位置前馈层是相同的，包括两个线性变换，中间有一个高...

【专利技术属性】
技术研发人员：胡瑞敏，黄娜娜，王晓晨，彭潇然，李杰，潘昊，乔阳阳，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人