融合知识图谱和用户长短期兴趣的新闻推荐方法、系统及介质技术方案

技术编号:37370426 阅读:10 留言:0更新日期:2023-04-27 07:15
本发明专利技术公开了一种融合知识图谱和用户长短期兴趣的新闻推荐方法、系统及介质,该方法包括:获取用户的历史点击新闻列表和多篇候选新闻,并分别输入新闻语义编码器,得到历史点击新闻表示列表和候选新闻表示;新闻语义编码器先分别学习不同类型的新闻表示,再将所有新闻表示聚合成统一的新闻表示;将历史点击新闻表示列表输入用户兴趣编码器,得到用户的兴趣表示;用户兴趣编码器包括注意力模块和GRU网络,分别从历史点击新闻序列中学习用户的长期兴趣和短期偏好;将候选新闻表示和兴趣表示输入点击预测器,得到候选新闻的点击得分,进而得到新闻推荐列表并推荐给用户。本发明专利技术通过构建新闻语义编码器和用户兴趣编码器,提升了新闻推荐的性能。闻推荐的性能。闻推荐的性能。

【技术实现步骤摘要】
融合知识图谱和用户长短期兴趣的新闻推荐方法、系统及介质


[0001]本专利技术涉及人工智能和新闻推荐
,特别是涉及一种融合知识图谱和用户长短期兴趣的新闻推荐方法、系统、计算机设备及存储介质。

技术介绍

[0002]随着互联网技术的发展和应用,越来越多人从在线新闻平台上获取及时资讯。但每天各在线新闻平台放送的新闻量远超用户的阅读量,用户要从海量新闻中选择自己感兴趣的新闻显然不切实际,所以新闻推荐系统成为许多在线新闻平台的必要组成部分,它用于从海量新闻中为用户推荐可能感兴趣的新闻,以缓解信息过载。
[0003]传统的新闻推荐方法有协同过滤推荐方法(DAS.A,et al.In Proceedings of the 16th International Conference on World Wide Web.WWW,2007:271

280;XUE.J,et al.JCAI,2017:3203

3209)、基于内容的推荐方法(IJNTEMA.W,et al.EDBT/ICDT,2010:22

26;HUANG P S,et al.CIKM,2013:2333

2338)和混合推荐方法(MORALES.F,et al.WSDM,2012:153

162;LI.L,et al.SIGIR,2011:125

134)等。协同过滤推荐方法通过协同不同用户的反馈、评价和意见等一起对海量的信息进行过滤,从中筛选出目标用户可能感兴趣的信息。协同过滤推荐方法又分为基于用户的协同过滤推荐方法(王成,等.小型微型计算机系统,2016,37(3):428

432)和基于物品的协同过滤推荐方法(卜旭松.基于物品协同过滤的个性化视频推荐算法改进研究[硕士学位论文].宁夏大学,2015)基于用户的协同过滤推荐方法如图1(a)所示,用户1和用户2都点击新闻A、新闻B、......,通过分析可以知道用户A与用户B有共同的兴趣,而用户2点击了新闻N,所以用户1也可能对新闻N感兴趣,因此可以将新闻N推荐给用户1。基于物品的协同过滤推荐方法如图1(b)所示,点击了新闻A的用户基本都点击了新闻B,而用户3已经点击过新闻A,由此分析可知用户3对新闻B可能也感兴趣,所以可以将新闻B推荐给用户3。协同过滤推荐方法虽然简单、没有明确要求提供用户信息和物品信息,但是它同时也存在如下缺点:

用户与物品的交互数据越稀疏,推荐的准确度就越低;

推荐系统首次使用时存在系统的冷启动问题。
[0004]基于内容的推荐方法是一种基于标的物、用户以及两者之间的交互的推荐算法(LOPS.P,et al.User Modeling and User

Adapted Interaction,2019,29(2):239

249),标的物的信息可以是对物品的语言描述、也可以是用户的评论内容与手动标记的内容。用户相关信息则可以包括职业、年龄、性别等信息,用户对标的物的操作常见的有诸如浏览、点赞、点踩、分享以及评论等操作。标的物的相关信息种类繁多,包括:文字数据、图像、影音等,这些信息都可以作为内容推荐的来源。基于内容的推荐方法原理简单,即为用户推荐用户喜欢的物品的类似物品。如图2所示,如果用户在某视频网站点播观看了《英雄本色》,那么基于内容的推荐方法可以根据本次观看记录,发现《英雄本色2》、《英雄本色3》等电影与用户观看的内容有很大相关性(SHU.J,et al.Multimedia Systems,2018,24(2):163

173),这样就可以把其他几部推荐给你。基于内容的推荐方法原理简单,但其弊端是要求内
容能很容易提取出具有一定意义的信息,其特征内容结构化要求较高,此外,用户的兴趣必须通过特征形式来表达,难以显式的得到其他使用者的判断情况;同时,还存在重复推荐的可能。
[0005]混合推荐方法是将协同过滤推荐方法和基于内容的推荐方法进行结合,发挥各自的长处,弥补各自的短处。研究人员试图将多种推荐算法组合在一起,以加权、串联、并联等多种方式,以找到更好的推荐算法。
[0006]针对传统的新闻推荐方法难以获取新闻中深层次的信息和无法实时反应用户动态变化的兴趣,以及存在冷启动问题,一些研究者开始研究基于深度学习的新闻推荐方法。如Wu等人(WU.C,et al.EMNLP/IJCNLP,2019:6388

6393)提出了一种基于多头自注意力机制的新闻推荐方法NRMS(Neural News Recommendation with Multi

Head Self

Attention),其使用多头自注意力机制从新闻标题中通过建模词与词之间的交互来学习单词的上下文表示,并使用注意力机制选择重要的词来学习更具有信息量的新闻表示,其框架如图3所示。An等人(AN.M,et al.ACL,2019:336

345)将卷积神经网络(Convolutional Neural Networks,简称CNN)与注意力机制相结合从新闻标题中提取新闻特征,并且还从新闻主题、子主题的ID嵌入中学习表征,最后将标题、主题和子主题的表示拼接得到最终的新闻表示,提出了一种LSTUR(both Long

and Short

Term User Representations)方法,其框架如图4所示。Wu等人(WU.C,et al.IJCAI,2019:3863

3869)提出了NAML(neural News recommendation with Attentive Multi

view Learning)方法,其使用注意力从新闻标题、类别、内容中学习不同的新闻数据在建模不同新闻时所具有的不同重要程度,得到最终的新闻语义表示,同时NAML模型将注意力机制应用于用户历史点击新闻序列中,以从不同的新闻中聚合用户兴趣表示,表现出了不错的推荐性能。但现有的基于深度学习的新闻推荐方法大都忽略了新闻之间知识层面的联系,这可能导致对新闻特征的提取不全,以致推荐准确度下降;而且大都没有考虑到用户即有长期兴趣,也有短期偏好,从而不能准确的得到用户兴趣表示,降低了推荐方法的性能。

技术实现思路

[0007]为了解决上述现有技术的不足,本专利技术提供了一种融合知识图谱和用户长短期兴趣的新闻推荐方法、系统、计算机设备及存储介质,该方法在建模新闻语义表示时,除了使用新闻标题、简介、主题类别来学习新闻语义表示外,还使用新闻标题与简介中提及的知识实体并结合WikiData知识图谱来构建知识子图,从知识子图中学习新闻之间潜在的知识层面的联系,提高了新闻语义表示的信息量。同时,该方法不仅提取了用户的长期兴趣,还建模了用户的短期偏好,结合用户的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合知识图谱和用户长短期兴趣的新闻推荐方法,其特征在于,所述方法包括:获取用户的历史点击新闻列表和多篇候选新闻;将历史点击新闻列表和多篇候选新闻分别输入新闻语义编码器,分别得到历史点击新闻表示列表和候选新闻表示;其中所述新闻语义编码器先分别学习不同类型的新闻表示,再将所有的新闻信息表示聚合成统一的新闻表示;将历史点击新闻表示列表输入用户兴趣编码器,得到用户的兴趣表示;其中所述用户兴趣编码器包括注意力模块和GRU网络;所述注意力模块从历史点击新闻序列中对用户反复点击的一类新闻施加更高的权重以学习用户的长期兴趣表示;所述GRU网络从历史点击新闻序列中学习用户随时间动态变化的短期偏好表示,其最后一个隐层从用户最近的浏览历史中学习用户的短期表现,以捕捉用户的短期偏好;最后聚合用户的长期兴趣表示和短期偏好表示,得到用户的兴趣表示;将候选新闻表示和用户的兴趣表示输入点击预测器,得到多篇候选新闻的点击得分;根据点击得分,获取新闻推荐列表并推荐给用户。2.根据权利要求1所述的新闻推荐方法,其特征在于,历史点击新闻和候选新闻均包括标题、简介、类别和知识实体;所述新闻语义编码器包括标题编码器、简介编码器、类别编码器、知识实体编码器和特征注意力网络,其中:所述标题编码器,用于从新闻标题中学习新闻表示;所述简介编码器,用于从新闻简介中学习新闻表示;所述类别编码器,用于从新闻类别中学习新闻表示;所述知识实体编码器,用于从知识实体中学习新闻表示;所述特征注意力网络,用于从不同类型的新闻表示中聚合统一的新闻语义表示。3.根据权利要求2所述的新闻推荐方法,其特征在于,所述标题编码器包括词嵌入层、CNN神经网络和词注意力层;所述标题编码器,用于从新闻标题中学习新闻表示,包括:词嵌入层用于将新闻标题从单词序列转换成低维稠密的词向量序列;CNN网络根据所述词向量序列,通过捕捉单词的上下文语境来学习单词的上下文表示;词注意力层根据所述单词的上下文表示,为用户识别新闻标题中重要的词,得到新闻标题中单词的注意力权重;将新闻标题中所有单词的上下文表示进行加权求和,得到新闻标题的新闻表示。4.根据权利要求3所述的新闻推荐方法,其特征在于,所述简介编码器和所述标题编码器的结构相同,将新闻简介中所有单词的上下文表示进行加权求和,得到新闻简介的新闻表示。5.根据权利要求2所述的新闻推荐方法,其特征在于,所述类别编码器包括类别ID嵌入层和隐含层;所述类别编码器,用于从新闻类别中学习新闻表示,包括:类别ID嵌入层的输入是主类别ID表示子类别ID表示,用于将离散的类主类别ID表示和子类别ID表示转换成低维稠密的类别嵌入g
c
和g
sc
;隐含层根据所述类别嵌入g
c
和g
sc
,分别学习类别嵌入中隐含的类别信息表示z
c
和z
sc

类别信息表示z
c
和z
sc
作为新闻类别中的新闻表示。6.根据权利要求2所述的新闻推荐方法,其特征在于,所述知识实体编码器,用于从知识实体中学习新闻表示,包括:首先进行知识实体提炼、构建知识子图,包括:提取新闻标题和简介中所提及的知识实体,其中MIND

small数据集已给出了新闻标题和简介中提及的知识实体;由于新闻标题和简介提及的知识实体数量少,利用WikiData知识图谱将新闻标题和简介提及的知识实体扩展到一跳内的所有实体;将所有实体构建为知识子图,并从WikiData知识图谱中提取出实体之间的所有关系;然后,对于构建的知识子图,使用TransE知识图嵌入方法进行实体表示学习,得到知识实体嵌入序列;最后,将实体注意力网络应用于知识实体嵌入序列中,为用...

【专利技术属性】
技术研发人员:李西明陈志浩郭玉彬
申请(专利权)人:华南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1