基于分层候选感知用户兴趣的新闻推荐方法及系统技术方案

技术编号:37468556 阅读:13 留言:0更新日期:2023-05-06 09:46
本发明专利技术公开了基于分层候选感知用户兴趣的新闻推荐方法及系统,所述方法包括:通过被点击新闻的嵌入向量和候选新闻嵌入向量n

【技术实现步骤摘要】
基于分层候选感知用户兴趣的新闻推荐方法及系统


[0001]本专利技术涉及信息处理
,尤其涉及一种基于分层候选感知用户兴趣的新闻推荐方法及系统。

技术介绍

[0002]候选新闻与用户兴趣的匹配性是影响新闻推荐系统效果的关键因素之一。目前主流的新闻推荐算法是基于用户的新闻点击历史记录构建单一的用户兴趣向量,而推荐效果面对的主要挑战是如何将候选新闻与用户多领域和多粒度的兴趣相匹配。
[0003]现有的新闻推荐方法通常采用顺序或注意力模型,通过聚合用户的历史点击新闻构建用户兴趣向量,再与候选新闻进行匹配,计算出用户对于候选新闻的兴趣分数。例如,NPA通过词级和新闻级的个性化注意力机制,分别在用户点击的新闻列表中选择重要的词和新闻,最后得到统一的用户嵌入向量。然而,这些方法大多将用户兴趣表示为一个单一的向量,忽略了其多领域多样化的特征。
[0004]一条新闻可能属于娱乐类别和游戏子类别。用户可能同时对多个类别的新闻感兴趣,如娱乐、旅游、音乐、体育类别。此外,用户可能只对游戏子类别感兴趣,而不是对整个娱乐领域感兴趣。为了捕捉用户的多粒度兴趣,HieRec分层建模用户兴趣,它在不考虑候选新闻的情况下,对用户的兴趣进行独立建模。LSTUR模型使用GRU网络从用户的浏览历史中学习了用户的长期和短期兴趣。这些方法都未能将候选新闻与用户兴趣的多粒度特征相结合。事实证明,通过显式类别来描述新闻的特征是不够细致的,特别是当新闻属于多个类别时。因此挖掘新闻的潜在类别或子类别是必要的。

技术实现思路

[0005]为了解决上述技术问题,本专利技术提供了一种分层构建候选感知的用户兴趣嵌入向量,以在不同粒度准确地将用户兴趣与候选新闻相匹配的新闻推荐方法及系统。
[0006]为了实现上述技术目的,本专利技术所采用的技术方案包括:
[0007]基于分层候选感知用户兴趣的新闻推荐方法,包括:
[0008]S1、分别构建用户u点击的新闻类别合集类别中用户u点击的新闻子类别集合和子类别中用户u点击的新闻集合子类别中用户u点击的新闻集合其中,D为类别数量、M为子类别数量、L为被点击新闻条数;
[0009]S2、通过被点击新闻的嵌入向量和候选新闻嵌入向量n
c
,学习获得子类别层面的兴趣嵌入向量集合其中为子类别的兴趣嵌入向量;
[0010]S3、通过和n
c
,学习获得类别层面的兴趣嵌入向量其中,为类别的兴趣嵌入向量;
[0011]S4、通过U
t
和n
c
,学习获得全局层面的兴趣嵌入向量u
g

[0012]S5、分别计算候选新闻在子类别层面、类别层面和全局层面的用户兴趣匹配分数和f
g
=u
g
·
n
c
,聚合后得到候选新闻与用户兴趣的最终匹配分数f;其中,sc和tc分别表示候选新闻的子类别和类别,和分别标识候选新闻在子类别和类别上的兴趣嵌入向量,且
[0013]所述学习获得各层面的兴趣嵌入向量的方法包括:
[0014]通过考察各层面上点击新闻与候选新闻的相关性构建基于注意力机制的注意力向量和注意力权重,进而计算各层面的兴趣嵌入向量。
[0015]在一些较优的实施例中,步骤S2所述学习获得子类别层面的兴趣嵌入向量的方法包括:
[0016]S201、构建表征子类别层面上被点击新闻与候选新闻相关性的亲和矩阵层面上被点击新闻与候选新闻相关性的亲和矩阵其中,为可训练的权重,l1为子类别层面的候选感知用户编码器编号;由重复L次的n
c
组成;
[0017]S202、计算的注意力向量其中,为softmax激活函数,用于将得到的注意力分数转换成概率分布;是由初始化的可训练注意力query参数,其中T为转置运算符;和为可训练的权重;
[0018]S203、计算其中,为子类别的兴趣嵌入向量且的兴趣嵌入向量且是的注意力权重且的注意力权重且为注意力向量中第k个值,为注意力向量中第l个值;为子类别的潜在信息嵌入向量。
[0019]在一些较优的实施例中,所述子类别的潜在信息嵌入向量的获取方法包括:
[0020]分别获取的文本嵌入向量和实体嵌入向量通过聚合和注意力网络得到的实体表示向量e
u
;将e
u
和串联后通过注意力网络得到
[0021]在一些较优的实施例中,步骤S3所述学习获得类别T
u
层面的兴趣嵌入向量U
t
的方法包括:
[0022]S301、构建表征类别层面上被点击新闻与候选新闻相关性的亲和矩阵层面上被点击新闻与候选新闻相关性的亲和矩阵其中,为可训练的权重,l2为类别层面的候选感知用户编码器编号;由重复M次的n
c
组成;
[0023]S302、计算的注意力向量
其中,是由初始化的可训练注意力query参数;和为可训练的权重;
[0024]S303、计算其中,为类别的用户兴趣嵌入向量且的用户兴趣嵌入向量且是的注意力权重且的注意力权重且为注意力向量中第j个值,为注意力向量中第k个值;为类别的潜在信息嵌入向量。
[0025]在一些较优的实施例中,所述类别的潜在信息嵌入向量的获取方法包括:
[0026]将子类别的潜在信息嵌入向量和串联后通过注意力网络得到
[0027]在一些较优的实施例中,步骤S4所述学习获得全局层面的候选感知用户兴趣嵌入向量u
g
的方法包括:
[0028]S401、构建表征全局层面上被点击新闻与候选新闻相关性的亲和矩阵S401、构建表征全局层面上被点击新闻与候选新闻相关性的亲和矩阵其中,为可训练的权重,l3为全局层面的候选感知用户编码器编号;由重复D次的n
c
组成;
[0029]S402、计算U
t
的注意力向量d
u
:其中,是由U
t
初始化的可训练注意力query参数;和为可训练的权重;
[0030]S403、计算其中,是的注意力权重且其中为注意力向量d
u
中第j个值,为注意力向量d
u
中第i个值。
[0031]在一些较优的实施例中,步骤S5所述聚合后得到候选新闻与用户兴趣的最终匹配分数f的方法包括:
[0032]f=ρ
s
f
s

t
f
t
+(1

ρ
s

ρ
t
)f
g
,其中ρ
s
和ρ
t
分别为f
s
和f
t
的超参数且ρ
s

t
<1。
[0033]在一些较优的实施例中,还包括:S6、根据最终匹配分数f本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于分层候选感知用户兴趣的新闻推荐方法,其特征在于,包括:S1、分别构建用户u点击的新闻类别合集S1、分别构建用户u点击的新闻类别合集类别中用户u点击的新闻子类别集合和子类别中用户u点击的新闻集合其中,D为类别数量、M为子类别数量、L为被点击新闻条数;S2、通过被点击新闻的嵌入向量和候选新闻嵌入向量n
c
,学习获得子类别层面的兴趣嵌入向量集合其中为子类别的兴趣嵌入向量;S3、通过和n
c
,学习获得类别层面的兴趣嵌入向量其中,为类别的兴趣嵌入向量;S4、通过U
t
和n
c
,学习获得全局层面的兴趣嵌入向量u
g
;S5、分别计算候选新闻在子类别层面、类别层面和全局层面的用户兴趣匹配分数和f
g
=u
g
·
n
c
,聚合后得到候选新闻与用户兴趣的最终匹配分数f;其中,s
c
和t
c
分别表示候选新闻的子类别和类别,和分别表示候选新闻在子类别和类别上的兴趣嵌入向量,且所述学习获得各层面的兴趣嵌入向量的方法包括:通过考察各层面上点击新闻与候选新闻的相关性构建基于注意力机制的注意力向量和注意力权重,进而计算各层面的兴趣嵌入向量。2.如权利要求1所述的基于分层候选感知用户兴趣的新闻推荐方法,其特征在于,步骤S2所述学习获得子类别层面的兴趣嵌入向量的方法包括:S201、构建表征子类别层面上被点击新闻与候选新闻相关性的亲和矩阵层面上被点击新闻与候选新闻相关性的亲和矩阵其中,为可训练的权重,l1为子类别层面的候选感知用户编码器编号;由重复L次的n
c
组成;S202、计算的注意力向量的注意力向量其中,为softmax激活函数,用于将得到的注意力分数转换成概率分布;是由初始化的可训练注意力query参数,其中T为转置运算符;和为可训练的权重;S203、计算其中,为子类别的兴趣嵌入向量且的兴趣嵌入向量且是的注意力权重且的注意力权重且为注意力向量中第k个值,为注意力向量中第l个值;为子类别的潜在信息嵌入向量。3.如权利要求2所述的基于分层候选感知用户兴趣的新闻推荐方法,其特征在于,所述
子类别的潜在信息嵌入向量的获取方法包括:分别获取的文本嵌入向量和实体嵌入向量通过聚合和注意力网络得到的实体表示向量e
u
;将e
u
和串联后通过注意力网络得到4.如权利要求1所述的基于分层候选感知用户兴趣的新闻推荐方法,其特征在于,步骤S3所述学习获得类别T
u
层面的兴趣嵌入向量U
t
的方法包括:S301、构建表征类别层面上被点击新闻与候选新闻相关性的亲和矩阵层面上被点击新闻与候选新闻相关性的亲和矩...

【专利技术属性】
技术研发人员:熊熙王丹阳
申请(专利权)人:成都图奕科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1