当前位置: 首页 > 专利查询>武汉大学专利>正文

基于变换器的双向编码器表示的序列推荐方法及设备技术

技术编号:36806534 阅读:10 留言:0更新日期:2023-03-09 00:18
本发明专利技术提供了一种基于变换器的双向编码器表示的序列推荐方法及设备。所述方法包括:步骤1:采用基于自注意力机制的双向编码器来捕获用户历史行为序列中项目的双向依赖关系和项目的共现特性;步骤2:采用步骤1中得到的项目的双向依赖关系和共现特性关系,在预训练阶段,针对数据稀疏导致的正负样本比例悬殊,采用双向编码器的掩码语言模型以自监督的方式训练模型;步骤3:将步骤2中的模型训练参数,在微调阶段采用用户历史行为序列数据训练网络,确保目标物品标签均衡。本发明专利技术能够很好的缓解系统冷启动问题,有效提高目标平台的推荐性能。性能。性能。

【技术实现步骤摘要】
基于变换器的双向编码器表示的序列推荐方法及设备


[0001]本专利技术实施例涉及序列推荐
,尤其涉及一种基于变换器的双向编码器表示的序列推荐方法及设备。

技术介绍

[0002]序列推荐(Sequential Recommendation,SR)是指根据用户历史行为信息,预测用户接下来最有产生行为的项目。近年来,由于循环神经网络在序列建模方面的强大功能,在视频推荐场景的用户行为序列建模问题中,深度网络已获得较为广泛的应用。这些基于RNN方法的基本范式是使用从左到右的模式将序列为为一个向量,并通过计算目标视频和序列为之间的相似性进行推荐。循环神经网络在处理序列时,使用的是从前往后的单向建模方式,这种从前往后的建模方式在长短期行为序列建模问题上有所欠缺,缺乏双向建模依赖模式。因此,开发一种基于变换器的双向编码器表示的序列推荐方法及设备,可以有效克服上述相关技术中的缺陷,就成为业界亟待解决的技术问题。

技术实现思路

[0003]针对现有技术存在的上述问题,本专利技术实施例提供了一种基于变换器的双向编码器表示的序列推荐方法及设备。
[0004]第一方面,本专利技术的实施例提供了一种基于变换器的双向编码器表示的序列推荐方法,包括:步骤1:采用基于自注意力机制的双向编码器来捕获用户历史行为序列中项目的双向依赖关系和项目的共现特性;步骤2:采用步骤1中得到的项目的双向依赖关系和共现特性关系,在预训练阶段,针对数据稀疏导致的正负样本比例悬殊,采用双向编码器的掩码语言模型以自监督的方式训练模型;步骤3:将步骤2中的模型训练参数,在微调阶段采用用户历史行为序列数据训练网络,确保目标物品标签均衡。
[0005]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于变换器的双向编码器表示的序列推荐方法,步骤1具体包括:步骤1.1:在输入层,准备好视频的初始表征,将其送入到序列编码器,模型的序列编码器是由多个自注意力层堆叠而成,得到用户行为序列中视频的初始嵌入向量表征;步骤1.2:基于步骤1.1得到的用户行为序列中视频的初始嵌入向量表征,在序列编码层,用序列编码器来初始化对应部分的参数,无需重头开始训练,得到模型对应的部分参数;步骤1.3:基于步骤1.2得到的模型对应的部分参数,在模型预训练阶段,采用负对数似然函数作为损失函数优化方式,得到更优的模型训练参数;步骤1.4:对步骤1.3中得到的更优的模型训练参数,在模型微调阶段,采用预训练的输入层和序列编码器参数来初始化模型对应的部分参数,采用平均池化来聚合用户行为序列中所有视频的隐层嵌入向量表征,得到被掩码视频的隐层嵌入向量表征;步骤1.5:对步骤1.4中得到的被掩码视频的隐层嵌入向量表征,在输出层,得到被掩码视频的隐层表征,并用于预测分类概率,得到目标视频被点击的概率;步骤1.2包括包括子步骤:步骤1.2.1:多头注意力机制并行地应用缩放点积乘注意力机制多次,独立的注意力机制输出被串联起来,并被线性转化
为预期的维度,得到线性映射下不同空间向量表征;步骤1.2.2:基于步骤1.2.1得到线性映射下不同空间向量表征,为确保模型具有非线性表达能力,以及不同维度的特征进行交互,对序列表征中的每一条视频的表征应用的位置前馈层是相同的,得到位置前馈网络的表征;步骤1.2.3:基于步骤1.2.2得到位置前馈网络的表征,通过多层变换器堆叠来考虑捕捉更加复杂的双向依赖关系,得到隐层视频嵌入向量表征;在步骤1.1中,采用元素相加形成视频s
i
的初始嵌入表征向量计算包括:
[0006][0007]其中,p
i
表示位置嵌入向量,表示视频s
i
的特征向量,得到用户行为序列s的初始表征向量,其中,H0∈R
L
×
d
,设定一个长度为L的用户行为序列S={s1,s2,...,s
L
},通过将用户行为序列中第i个视频s
i
转换到一个相对低维度的空间,转换为一个d维向量。
[0008]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于变换器的双向编码器表示的序列推荐方法,在步骤1.2.1中,多头注意力机制不只计算一次注意力权重,而是会并行地应用缩放点积乘注意力机制h次,独立的注意力机制输出被串联起来,并被线性转化为预期的维度,将输入分别线性映射到不同的空间下,计算包括:
[0009][0010][0011]其中,W
iC
∈R
d
×
d
均为待学习参数矩阵,设置h取值为4,是第m层的视频序列S的表征向量矩阵,Attention(
·
)为注意力分数,head
i
为多头注意力分数,MH(
·
)为多头注意力映射。
[0012]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于变换器的双向编码器表示的序列推荐方法,在步骤1.2.2中,为让模型具有非线性表达能力,以及让不同维度的特征进行交互,对序列表征中的每一条视频的表征应用位置前馈层是相同的,包括两个线性变换,中间有一个高斯误差线性单元的激活函数组成,计算包括:
[0013]FFN(x)=GELU(xW1+b1)W2+b2[0014]其中,W1∈R
d
×
4d
,W2∈R
4d
×
d
,b1∈R
4d
和b2∈R
d
是待学习参数,且每一条视频共享待学习参数
[0015]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于变换器的双向编码器表示的序列推荐方法,在步骤1.2.3中,为更好地训练模型,在多层变换器中间添加残差连接和层归一化,模型迭代堆叠M层变换器层来获取修正每个视频序列的隐层表征,其中第m层的隐层视频表征计算包括:
[0016][0017][0018][0019]其中,LN(
·
)表示层归一化;是第m层的视频序列S的表征向量矩阵
[0020]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于变换器的双向编码器表示的序列推荐方法,在步骤2中,将位置i的第M层隐层表征送到全连接层中来进行softmax函数分类操作,判断是否是原本被掩盖掉的视频s
i
,计算方式包括:
[0021][0022]其中,是待学习参数矩阵,b3和b0是偏置向量,c
f
是输入层小节中定义过的特征矩阵;当使用ID类嵌入特征时,c
f
则包含所有嵌入特征向量,是序列S中掩码视频s
i
的预测概率分布;softmax(
·
)表示激活函数;GELU(
·
)表示高斯误差线性单元;表示视频序列位置i的第M层隐层表征。
[0023]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于变换器的双向编码器表示的序列推荐方法,在步骤3中,将用户兴趣表征h
s
和目标视频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于变换器的双向编码器表示的序列推荐方法,其特征在于,包括:步骤1:采用基于自注意力机制的双向编码器来捕获用户历史行为序列中项目的双向依赖关系和项目的共现特性;步骤2:采用步骤1中得到的项目的双向依赖关系和共现特性关系,在预训练阶段,针对数据稀疏导致的正负样本比例悬殊,采用双向编码器的掩码语言模型以自监督的方式训练模型;步骤3:将步骤2中的模型训练参数,在微调阶段采用用户历史行为序列数据训练网络,确保目标物品标签均衡。2.根据权利要求1所述的基于变换器的双向编码器表示的序列推荐方法,其特征在于,步骤1具体包括:步骤1.1:在输入层,准备好视频的初始表征,将其送入到序列编码器,模型的序列编码器是由多个自注意力层堆叠而成,得到用户行为序列中视频的初始嵌入向量表征;步骤1.2:基于步骤1.1得到的用户行为序列中视频的初始嵌入向量表征,在序列编码层,用序列编码器来初始化对应部分的参数,无需重头开始训练,得到模型对应的部分参数;步骤1.3:基于步骤1.2得到的模型对应的部分参数,在模型预训练阶段,采用负对数似然函数作为损失函数优化方式,得到更优的模型训练参数;步骤1.4:对步骤1.3中得到的更优的模型训练参数,在模型微调阶段,采用预训练的输入层和序列编码器参数来初始化模型对应的部分参数,采用平均池化来聚合用户行为序列中所有视频的隐层嵌入向量表征,得到被掩码视频的隐层嵌入向量表征;步骤1.5:对步骤1.4中得到的被掩码视频的隐层嵌入向量表征,在输出层,得到被掩码视频的隐层表征,并用于预测分类概率,得到目标视频被点击的概率;步骤1.2包括包括子步骤:步骤1.2.1:多头注意力机制并行地应用缩放点积乘注意力机制多次,独立的注意力机制输出被串联起来,并被线性转化为预期的维度,得到线性映射下不同空间向量表征;步骤1.2.2:基于步骤1.2.1得到线性映射下不同空间向量表征,为确保模型具有非线性表达能力,以及不同维度的特征进行交互,对序列表征中的每一条视频的表征应用的位置前馈层是相同的,得到位置前馈网络的表征;步骤1.2.3:基于步骤1.2.2得到位置前馈网络的表征,通过多层变换器堆叠来考虑捕捉更加复杂的双向依赖关系,得到隐层视频嵌入向量表征;在步骤1.1中,采用元素相加形成视频s
i
的初始嵌入表征向量计算包括:其中,p
i
表示位置嵌入向量,表示视频s
i
的特征向量,得到用户行为序列s的初始表征向量,其中,H0∈R
L
×
d
,设定一个长度为L的用户行为序列S={s1,s2,...,s
L
},通过将用户行为序列中第i个视频s
i
转换到一个相对低维度的空间,转换为一个d维向量。3.根据权利要求2所述的基于变换器的双向编码器表示的序列推荐方法,其特征在于,在步骤1.2.1中,多头注意力机制不只计算一次注意力权重,而是会并行地应用缩放点积乘注意力机制h次,独立的注意力机制输出被串联起来,并被线性转化为预期的维度,将输入分别线性映射到不同的空间下,计算包括:
其中,W
iC
∈R
d
×
d
均为待学习参数矩阵,设置h取值为4,是第m层的视频序列S的表征向量矩阵,Attention(
·
)为注意力分数,head
i
为多头注意力分数,MH(
·
)为多头注意力映射。4.根据权利要求3所述的基于变换器的双向编码器表示的序列推荐方法,其特征在于,在步骤1.2.2中,为让模型具有非线性表达能力,以及让不同维度的特征进行交互,对序列表征中的每一条视频的表征应用位置前馈层是相同的,包括两个线性变换,中间有一个高...

【专利技术属性】
技术研发人员:胡瑞敏黄娜娜王晓晨彭潇然李杰潘昊乔阳阳
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1