一种序列推荐中的对偶增强倾向性得分估计方法技术

技术编号:36346292 阅读:11 留言:0更新日期:2023-01-14 18:00
本发明专利技术通过网络安全领域的方法,实现了一种序列推荐中的对偶增强倾向性得分估计方法。设计一个发生用户行为时,由Transformer层和Prediction层组成的前序推荐模型作为基础模型的架构,从系统收集的目标用户

【技术实现步骤摘要】
一种序列推荐中的对偶增强倾向性得分估计方法


[0001]本专利技术涉及人工智能
,尤其涉及一种序列推荐中的对偶增强倾向性得分估计方法。

技术介绍

[0002]近些年来序列推荐越来越受到业界和学术界的关注。基本上,序列推荐模型的关键优势在于对于物品时间相关性的显式建模。为了准确捕获此类信息,近年来见证了许多基于马尔可夫链或循环神经网络的提出。虽然这些模型取得了显着的成功,但现有序列推荐系统却存在十分严重的偏差问题:例如图1(a)中的给定用户行为序列,观察到的下一个物品是咖啡壶清洁器。通过基于观察数据构建模型,可以了解清洁剂和咖啡壶之间的相关性。然而,从用户偏好的角度来看,下一个物品也可以是墨盒。但是该模型没有机会捕捉打印机和墨盒之间的相关性,因为它们在数据中并没有被推荐过,并且没有在训练环境中被观察到。这种偏差会降低推荐的有效性,尤其是在测试环境与办公产品更相关的情况下。
[0003]为了缓解上述问题,以前的模型大多基于逆倾向得分(IPS)的技术,如果一个训练样本更有可能出现在数据集中,那么它在优化过程中的权重应该较低。在之前的研究中,在给定历史信息H,即P(u,i|H)的情况下,准确地近似观察到用户

物品对(u,i)的概率。为此,以往的方法通常将P(u,i|H)分解为P(i|u,H)P(u|H),并侧重于参数化P(i|u,H)(即,从物品侧的视角下估计P(u,i|H),以便来预测用户将在下一个给定先前物品的情况下交互的物品。
[0004]但是我们认为,观察用户
r/>物品对的概率也可以从对偶角度考虑,即对于一个物品,在给定之前与之交互的用户的情况下预测下一个交互用户。原则上,这等于将P(u,i|H)以另一种方式分解为P(u|i,H)P(i|H),其中P(u|i,H)准确地旨在预测给定物品的用户和历史用户(即从用户的角度估计P(u,i|H))。直观地说,对于同一个物品,如果两个用户与它进行短时间的交互,那么他们当时应该有一些相似之处。我们相信这种面向用户的方法可以为以前的面向物品的模型提供补充信息。
[0005]例如,在图1(b)中,从物品预测的角度来看,三脚架可以被视为用户序列A和B的下一个物品,因为历史信息相似。但是,从用户预测的角度来看,我们可以推断应该更容易观察到序列A,因为最近女性用户与三脚架的交互频率更高,例如,由于女装促销等原因。这个例子表明,时间用户相关信号可以很好地补偿传统的面向物品的IPS方法。
[0006]纠正偏见的一个常见方法是通过逆向倾向得分(IPS)。Devooght等人,Hu等人使用了之前的经验作为统一重新加权的倾向得分样本。UIR和UBPR建议利用潜在概率估计倾向得分的模型。Agarwal等人,Fang等利用干预的信号来学习倾向性得分。USR提出了一个网络来估计倾向从序列推荐中的物品角度来看倾向性得分。而我们的专利技术旨在同时利用用户和物品的序列信息来得到倾向性得分。
[0007]本专利技术主要在于提出建立一个具有对偶增强IPS估计(称为DEPS)的无偏序列推荐模型,旨在解决以下几个主要的挑战:(1)首先,面向物品和面向用户的IPS如何从同一组用
户反馈数据中进行估计(2)其次,怎么组合这两种特征(3)最后,如何在理论上保证提出的目标仍然是无偏的。

技术实现思路

[0008]为此,本专利技术首先提出一种序列推荐中的对偶增强倾向性得分估计方法,设计一个发生用户行为时,由Transformer层和Prediction层组成的前序推荐模型作为基础模型的架构,从系统收集的目标用户

物品对(u,i)的上下文信息构成的实值向量e(u)作为输入得到最终的对于用户行为的预测推荐结果,并且通过设计一个学习倾向性得分的网络结构给所述用户行为赋权,通过赋权结合习无偏的前序模型的训练方法对所述基础模型的架构基于加权后的数据学习,使得推荐模型可以得到准确的用户行为的预测推荐结果;
[0009]所述一个学习倾向性得分的网络结构,利用对偶的GRU神经网络来估计倾向性得分,在发生用户行为时从用户侧和商品侧两个角度分别估计上述拟倾向性得分,即为所述用户行为赋权;
[0010]所述无偏的前序模型的训练方法,同步学习倾向性得分和利用学习好的倾向性得分,从而得到准确的前序推荐模型。
[0011]所述Transformer层由两个转换器组成,一个将物品序列转换为表示向量,另一个Transformer将用户序列也转化为另一个表示向量;
[0012]具体而言,Transformer层输入元组(u,i,t)的整体物品表示为物品id嵌入和用户历史序列嵌入的连接:
[0013][0014]其中运算符|表示拼接两个向量,e(i)是物品的嵌入,是时间戳t时与目标用户u相关的用户序列,是对序列进行编码的向量,定义为转换器输出的向量的均值:
[0015][0016]其中Mean是所有输入向量的平均池化操作,Transformer1是一个transformer架构;
[0017]同时,Transformer层输入元组(u,i,t)的整体用户表示为用户id嵌入和物品历史序列嵌入的连接:
[0018][0019]e(u)是用户的嵌入,是时间戳t时与目标物品i相关的用户序列,是对序列进行编码的向量,定义为转换器输出的向量的均值:
[0020][0021]之后通过所述Prediction层将得到的表达输入进MLP里,得到最终的预测:
[0022]3.如权利要求1所述的一种序列推荐中的对偶增强倾向性得分估计方法,其特征在于:所述对偶的GRU神经网络来估计倾向性得分的方法为:首先分别使用两个GRU单元来估计两个角度的倾向性得分,其中GRU1是从物品角度处理序列的GRU单元,GRU2是从用户角
度处理序列的GRU单元;
[0023]从物品角度处理序列估计的倾向性得分的方法为:给定一个元组表示记录在时间戳t时,用户u访问系统并与物品i交互,用户u之前在t之前交互过物品序列为物品i在时间t之前与物品i交互的用户序列为其中表示为从物品角度估计的倾向性得分,即其表示为物品表达的嵌入e(i)和GRU网络中最后一层,即第i
l(u,t)
的输出。序列作为GRU网络的输入。因此我们可以将物品角度的估计倾向得分写为:
[0024][0025]其中y(i
l(u,t)
)是其最后一层的GRU输出,即对应于l(u,t)层GRU的输出,l(u,t)表示用户u在时间t之前交互的物品数,GRU扫描中的物品如下:在第k层,需要物品嵌入的第k项e(i
k
)作为输入的嵌入,并输出y(i
k
)。其每一层的表示如下,k=1,

,l(u,t):
[0026]y(i
k
),z
k
=GRU1(e(i
k
),z
k
‑1)
[0027]其中z
k...

【技术保护点】

【技术特征摘要】
1.一种序列推荐中的对偶增强倾向性得分估计方法,其特征在于:设计一个发生用户行为时,由Transformer层和Prediction层组成的前序推荐模型作为基础模型的架构,从系统收集的目标用户

物品对(u,i)的上下文信息构成的实值向量e(u)作为输入得到最终的对于用户行为的预测推荐结果,并且通过设计一个学习倾向性得分的网络结构给所述用户行为赋权,通过赋权结合习无偏的前序模型的训练方法对所述基础模型的架构基于加权后的数据学习,使得推荐模型可以得到准确的用户行为的预测推荐结果;所述一个学习倾向性得分的网络结构,利用对偶的GRU神经网络来估计倾向性得分,在发生用户行为时从用户侧和商品侧两个角度分别估计上述拟倾向性得分,即为所述用户行为赋权;所述无偏的前序模型的训练方法,同步学习倾向性得分和利用学习好的倾向性得分,从而得到准确的前序推荐模型。2.如权利要求1所述的一种序列推荐中的对偶增强倾向性得分估计方法,其特征在于:所述Transformer层由两个转换器组成,一个transformer将物品序列转换为表示向量,另一个transformer将用户序列也转化为另一个表示的向量,最后将两个向量拼接起来输进MLP预测器中,得到最终的用户

物品偏好分数;具体而言,Transformer层输入元组(u,i,t)的整体物品表示为物品id嵌入和用户历史序列嵌入的连接:其中运算符|表示拼接两个向量,e(i)是物品的嵌入,是时间戳t时与目标用户u相关的用户序列,是对序列进行编码的向量,定义为转换器输出的向量的均值:其中Mean是所有输入向量的平均池化操作,Transformer1是一个transformer架构;同时,Transformer层输入元组(u,i,t)的整体用户表示为用户id嵌入和物品历史序列嵌入的连接:e(u)是用户的嵌入,是时间戳t时与目标物品i相关的用户序列,是对序列进行编码的向量,定义为转换器输出的向量的均值:之后通过所述Prediction层将得到的表达输入进MLP里,得到最终的预测:3.如权利要求2所述的一种序列推荐中的对偶增强倾向性得分估计方法,其特征在于:所述对偶的GRU神经网络来估计倾向性得分的方法为:首先分别使用两个GRU单元来估计两个角度的倾向性得分,其中GRU1是从物品角度处理序列的GRU单元,GRU2是从用户角度处理序列的GRU单元;从物品角度处理序列估计的倾向性得分的方法为:给定一个元组表示记
录在时间戳t时,用户u访问系统并与物品i交互,用户u之前在t之前交互过物品序列为物品i在时间t之前与物品i交互的用户序列为其中表示为从物品角度估计的倾向性得分,即其表示为物品表达的嵌入e(i)和GRU网络中最后一层,即第i
l(u,t)
的输出。序列作为GRU网络的输入,因此我们可以将物品角度的估计倾向得分写为:其中y(i
l(u,t)
)是其最后一层的GRU输出,即对应于l(u,t)层GRU的输出,l(u,t)表示用户u在时间t之前交互的物品数,GRU扫描中的物品如下:在第k层,需要物品嵌入的第k项e(i
k
)作为输入的嵌入,并输出y(i
k
),其每一层的表示如下,k=1,

,l(u,t):y(i
k
),z
k
=GRU1(e(i
k
),z
k
‑1)其中z
k
和z
k
‑1是第k和k

1步骤的隐藏向量;其中表示为从物品角度估计的倾向性得分,即其表示为用户表达的嵌入e(u)和GRU网络中最后一层第i
l(u,t)
的输...

【专利技术属性】
技术研发人员:徐君徐晨陈旭董振华文继荣
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1