【技术实现步骤摘要】
一种基于动态注意力和分层强化学习的推荐系统
本专利技术涉及基于注意力的智能推荐
,尤其涉及一种基于动态注意力和分层强化学习的推荐系统。
技术介绍
虽然目前基于注意力(attention)的模型在推荐系统中具有一定的竞争力,但仍存在一些明显的缺陷。首先,它们忽略了用户对时序行为的动态兴趣。换言之,这些模型在每次交互过程中无法更好地选择用户画像来推荐目标物品,尤其是当用户对不同物品的兴趣随着时间的推移而动态变化的场景下。例如在NAIS注意力模型中,attention网络中的权重矩阵严重依赖于相应物品的嵌入(embedding)向量,而没有考虑其他因素来获取上下文信息,这就降低物品推荐的准确性。其次,这些模型没有考虑推荐系统的自适应性。例如,在推荐目标物品中有贡献作用的物品的效应通常随着用户与物品之间的交互而变化,导致在不同的推荐阶段中这些有贡献作用的物品的attention权重很可能会发生变化,在这种情况下,这些模型无法向相关用户推荐准确的目标物品,从而影响推荐的有效性。
技术实现思路
有鉴于现有技术的 ...
【技术保护点】
1.一种基于动态注意力和分层强化学习的推荐系统,其特征在于,包括:用户画像矫正器、动态注意力机制和推荐模型;/n所述用户画像矫正器用于通过删除噪声数据来修改用户画像;/n所述动态注意力机制用于自动调整用户偏好的变化;/n所述推荐模型用于向相关用户推荐目标物品。/n
【技术特征摘要】
1.一种基于动态注意力和分层强化学习的推荐系统,其特征在于,包括:用户画像矫正器、动态注意力机制和推荐模型;
所述用户画像矫正器用于通过删除噪声数据来修改用户画像;
所述动态注意力机制用于自动调整用户偏好的变化;
所述推荐模型用于向相关用户推荐目标物品。
2.如权利要求1所述的推荐系统,其特征在于,所述用户画像矫正器的任务为层次化的马尔可夫决策过程,其中高层动作ah∈{0,1}决定是否修改整个用户画像εu,低层动作决定删除哪个物品当高层动作根据高层策略决定修改整个用户画像时,它将根据低层策略调用低层动作来消除噪声物品后,智能体在执行最后一个低层动作后将收到延迟奖励。
3.如权利要求2所述的推荐系统,其特征在于,所述用户画像矫正器基于分层强化学习,所述分层强化学习的目标是获得期望收益最大化的最优策略参数,如下所示:
其中,θ表示策略的参数,τ表示采样的序列,Pθ(τ)是对应的抽样概率,R*(τ)为采样序列中遵循策略π的动作值函数。
4.如权利要求2所述的推荐系统,其特征在于,所述分层强化学习包括高层策略和低层策略;
所述高层策略的策略函数的参数梯度定义为:
其中,是采样序列τn中的一对动作-状态,tu表示用户在采样序列中交互过的物品数量,是高层任务中每个采样序列τn的动作值,它是一个延迟奖励;此处省略了a,s和θ的上标h;
所述低层策略的策略函数的参数梯度定义为:
其中是低层任务中每个采样序列τn的动作值,它也是一个延迟奖励,是一个低层任务中的内部奖励,定义为在修改用户画像前后目标物品与交互过的物品的平均余弦相似度之差;此处省略了a,s和θ的上标l。
5.如权利要求1所述的推荐系统,其特征在于,所述动态注意力机制的结构包括:嵌入向量的输入层、基于ACF方法的交互层和具有动态权重的注意力层。
6.如权利要求5所述的推荐系统,其特征在于,所述输入层的任务为:
首先,将原始数据分解为两个矩阵:用户-物品矩阵和物品标签矩阵,在用户-物品矩阵中,每个元素表示一个用户和一个物品之间的交互,即用户u在时间t时交互过的物品εu定义为一个用户画像其中tu表示用户在采样序列中交互过的物品数量,用户-物品向量是通过one-hot二进制值的格式获得;在物品标签矩阵中,让C={c1,…,|C|}表示为一组物品,其中目标物品向量ci是通过one-hot二进制值的格式获得的;
然后,将每个用户-物品向量表示为嵌入向量并且将目标物品向量ci表示为嵌入向量pi;
最后,将嵌入向量与pi传递给交互层;
所述交互层的任务为:采用元素智能乘积计算交互过的物品的嵌入向量和...
【专利技术属性】
技术研发人员:林元国,林凡,曾文华,夏侯建兵,冯世博,
申请(专利权)人:厦门大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。