一种基于用户阅读时间行为的新闻推荐方法及系统技术方案

技术编号:29133439 阅读:38 留言:0更新日期:2021-07-02 22:28
本发明专利技术公开了一种基于用户阅读时间行为的新闻推荐方法及系统,通过分析用户阅读新闻时的时间信息,为每一位用户生成个性化阅读速度,然后再结合候选新闻的时效性做出推荐。而对于曝光未阅读过的新闻,该方法采用间谍算法来区分其中用户真正不感兴趣的新闻和有潜在兴趣的新闻,从而保证推荐新闻的质量和多样化。本发明专利技术解决个性化新闻推荐系统的时效性、标题误导性和推荐内容单一性问题。将每一位用户的阅读时间行为抽象为个性化阅读速度,并引入注意力机制,衡量用户历史点击新闻对候选新闻的不同影响程度;对于曝光过的用户未点击的新闻,引入间谍算法来区分其中用户真正不感兴趣的新闻和用户有潜在兴趣的新闻,从而保证推荐新闻的质量和多样化。

【技术实现步骤摘要】
一种基于用户阅读时间行为的新闻推荐方法及系统
本专利技术涉及个性化新闻推荐
,具体涉及一种基于用户阅读时间进行个性化新闻推荐的推荐系统。
技术介绍
随着信息技术和互联网的不断发展,人们逐渐从信息匮乏的时代走入了信息过载时代。在这个时代,无论是信息消费者还是信息生产者都面临着很大的挑战。对于信息消费者来说,如何从大量信息中获取自己有价值的信息是一件十分困难的事情;对于信息生产者,如何使自己的信息脱颖而出,将信息呈现给信息消费者也是一件十分困难的事情。为了解决信息过载问题,催生了搜索引擎和推荐系统两大工具。如今,推荐系统已经逐渐应用在互联网的各个领域,它们主要是通过用户历史行为记录对用户的兴趣爱好进行分析,为用户进行推荐,包括电商推荐、个性化的广告推荐和新闻推荐等,比如在淘宝、今日头条、抖音短视频等产品中就大量应用了推荐系统。当推荐的数据量和用户大规模增长后,推荐系统的复杂度也会同步增长。目前主流的推荐算法有协同过滤推荐算法、基于内容的推荐算法等。其中协同过滤推荐方法主要分为两种:基于物品的协同过滤和基于用户的协同过滤。基于物品的协同过滤基本思想是基于用户对项目的评价,发现项目之间的相似度,然后根据用户的历史偏好信息将类似的物品推荐给该用户。基于用户的协同过滤基本思想是发现与目标用户兴趣相似的邻居用户,并将邻居用户感兴趣且目标用户没有过行为的项目推荐给目标用户。协同过滤算法不需要预先获得物品或者用户的特征数据,仅依赖用户的历史行为给用户进行推荐,但对新用户来说,会存在由于没有历史数据产生的冷启动问题,这会对推荐效果产生一定的影响。而基于内容的推荐算法,是直接为用户推荐与他感兴趣的内容相似的物品,比如用户喜欢运动,系统就会推荐运动装备等,这个过程不需要用户的历史行为数据,因此可以很好的解决推荐的冷启动问题,但基于内容的推荐需要在预处理过程中对物品的分类进行准确的描述,这部分工作的准确性会对推荐系统的准确性造成很大的影响,并且基于内容的推荐算法经常会给出相似的推荐结果,推荐结果的流行度很低且缺乏新颖性。本专利技术主要研究新闻的个性化推荐系统,与其他的推荐系统如电商推荐、广告推荐等不同,新闻推荐有如下几点挑战:(1)新闻对时间高度敏感,具有很强的时效性,更新较快。研究表明,大约85%的新闻文章自首次出现算起,在两天后将不再显示在新闻主页上,因此对于新闻推荐来说,新闻产生的时间是一项很重要的影响因素;(2)新闻的标题高度浓缩,而正文的篇幅较长。统计结果表明,新闻的标题长度一般为5到15个单词,而内容的篇幅一般都在200词以上,通过高度凝练的新闻标题来预测用户对于新闻正文的感兴趣程度在一些情况下是不准确的,尤其是对于一些有误导性标题的新闻,如比较常见的标题党等,用户点击此类新闻后,可能会对其内容感到失望;(3)人们在新闻阅读中只对多个特定的新闻类别感兴趣,以往推荐系统利用用户在新闻客户端的使用数据或浏览痕迹信息进行分析整合,推送满足用户信息需求的新闻,具有一定的效果,但长此以往,用户接受相似的信息会出现信息疲乏,重要的新闻更会因为算法推荐的精准分发而被忽略,用户容易忽略掉潜在感兴趣的其他方面的新闻,因此对于用户未点击过的新闻,需要一定的算法来进行推荐。
技术实现思路
本专利技术的目的主要是为了在一定程度上解决现有的新闻推荐系统中存在的上述问题,本专利技术提供了一种基于用户阅读时间行为的个性化新闻推荐方法。该方法通过分析用户阅读新闻时的时间信息,为每一位用户生成一个“个性化阅读速度”,然后再结合候选新闻的时效性做出推荐。而对于曝光未阅读过的新闻,该方法采用“间谍算法”来区分其中用户真正不感兴趣的新闻和有潜在兴趣的新闻,从而保证推荐新闻的质量和多样化。本专利技术用于解决个性化新闻推荐系统的时效性、标题误导性和推荐内容单一性等问题。本专利技术的创新点是:(1)将每一位用户的阅读时间行为抽象为“个性化阅读速度”,并以此为依据引入注意力机制,衡量用户历史点击新闻对候选新闻的不同影响程度。(2)对于曝光过的用户未点击的新闻,引入“间谍算法”来区分其中用户真正不感兴趣的新闻和用户有潜在兴趣的新闻,从而可以保证推荐新闻的质量和多样化。为实现上述目的,本专利技术提供了一种基于用户阅读时间行为的新闻推荐方法,具体步骤为:(1)从用户的行为日志中提取用户所阅读新闻的各项信息,如新闻标题、阅读时长、新闻发布时间等;(2)为每一条提取到的新闻,采用卷积神经网络构建该新闻的个性化表示方式;(3)由于用户对每一条浏览过的新闻感兴趣程度并不相同,通过注意力机制,将不同的新闻赋予不同的权重;(4)将用户在一段时间范围内阅读过的所有新闻加权后聚合,可以用来表示该用户的兴趣方向,以此作为该用户的特征表示;(5)对于已曝光但用户没有点击的新闻,采用“间谍算法”查找出用户潜在感兴趣的新闻,和新产生的没有推荐过的新闻一起加入到待推荐的候选新闻中进行处理;(6)计算候选待推荐新闻与用户特征之间的相似性,对其中相似度较高的新闻进行推荐。该推荐方法主要通过对用户每篇新闻的阅读时间信息来衡量用户对该新闻的感兴趣程度,主要包括三个方面:第一是新闻的发布时间,由于新闻具有很强的时效性,通常情况下,发布时间越近的新闻越适合推荐给用户;第二是用户阅读某新闻过程所消耗的时间长度,该指标可以较为准确的体现用户对该新闻的感兴趣程度,如果用户是受到标题的诱惑点击了新闻,浏览内容后发现不感兴趣,阅读时间一般会很短,这在一些“标题党”新闻中是很常见的,阅读时间越长,说明新闻推荐的准确性越高,但由于阅读时长同时也会受到新闻篇幅的影响,因此应该采用单位字数的阅读时间来衡量用户的阅读时长,消除新闻篇幅对阅读时长的影响,然而进一步考虑,每位用户的阅读速度也有一定的差异,同样一篇新闻,不同的用户读完所需要的时间也是不相同的,因此本专利技术提出了一个“个性化阅读速度”的概念,先通过用户的历史阅读行为,计算出该用户读过所有新闻的单位时间阅读字数作为平均阅读速度v,对于特定的某篇新闻,计算其单位时间阅读字数作为阅读速度vti,通过vti与平均阅读速度v的比值,可以很好的描述对于该篇特定新闻来说该用户的阅读速度,当比值大于1时表明用户的阅读速度比平均阅读速度快,可能匆匆略过,用户对其兴趣一般,当比值小于1时表明用户的阅读速度较慢,说明用户对其具有一定的兴趣,阅读是在细细品阅,因此本专利技术将用户对某篇新闻的阅读速度vti与平均阅读速度v的比值定义为个性化阅读速度,该指标可以衡量用户对该新闻的感兴趣程度;第三部分是用户阅读时间为0的新闻,即推荐给用户,用户没有点击的新闻,对于这部分新闻,直接将其划分为用户不感兴趣是不妥的,因为用户未点击的原因是多样的,例如可能是页面展示的新闻太多,用户来不及全部阅读。另一方面,这部分新闻是之前推荐系统经过计算选出来的认为用户喜欢的新闻,如果直接把这些新闻列为负样本,从而不再推荐相似的新闻,会造成矛盾,在之后的推荐中,系统会更倾向于推荐热点较高的新闻,对于点击相对较少的新闻不进行推荐,这样会造成推荐系统不满足推荐多样性的本文档来自技高网
...

【技术保护点】
1.一种基于用户阅读时间行为的新闻推荐方法,其特征在于:该方法包括如下步骤为:/n步骤(1)从用户的行为日志中提取用户所阅读新闻的各项信息,包括新闻标题、阅读时长、新闻发布时间;/n步骤(2)为每一条提取到的新闻,采用卷积神经网络构建该新闻的个性化表示方式;/n步骤(3)由于用户对每一条浏览过的新闻感兴趣程度并不相同,通过注意力机制,将不同新闻赋予不同权重;/n步骤(4)将用户在一段时间范围内阅读过的所有新闻加权后聚合,用来表示该用户的兴趣方向,以此作为该用户的特征表示;/n步骤(5)对于已曝光但用户没有点击的新闻,采用间谍算法查找出用户潜在感兴趣的新闻,和新产生的没有推荐过的新闻一起加入到待推荐的候选新闻中进行处理;/n步骤(6)计算候选待推荐新闻与用户特征之间的相似性,对其中相似度较高的新闻进行推荐。/n

【技术特征摘要】
1.一种基于用户阅读时间行为的新闻推荐方法,其特征在于:该方法包括如下步骤为:
步骤(1)从用户的行为日志中提取用户所阅读新闻的各项信息,包括新闻标题、阅读时长、新闻发布时间;
步骤(2)为每一条提取到的新闻,采用卷积神经网络构建该新闻的个性化表示方式;
步骤(3)由于用户对每一条浏览过的新闻感兴趣程度并不相同,通过注意力机制,将不同新闻赋予不同权重;
步骤(4)将用户在一段时间范围内阅读过的所有新闻加权后聚合,用来表示该用户的兴趣方向,以此作为该用户的特征表示;
步骤(5)对于已曝光但用户没有点击的新闻,采用间谍算法查找出用户潜在感兴趣的新闻,和新产生的没有推荐过的新闻一起加入到待推荐的候选新闻中进行处理;
步骤(6)计算候选待推荐新闻与用户特征之间的相似性,对其中相似度较高的新闻进行推荐。


2.根据权利要求1所述的一种基于用户阅读时间行为的新闻推荐方法,其特征在于:在步骤(1)中,从用户的行为日志中提取用户所阅读新闻的各项信息,得到用户i的点击历史;每条日志包含时间戳,用户ID,新闻标题等信息,用户的点击历史表示为其中是用户i点击的第j个新闻标题,N是用户i点击的新闻总数,t=[w1,w2,w3,......]表示新闻的标题,wi为新闻标题中的一个单词,该将新闻信息初步提取并做相应的预处理。


3.根据权利要求1所述的一种基于用户阅读时间行为的新闻推荐方法,其特征在于:在步骤(2)中,将步骤(1)的新闻标题t通过词向量模型转换为嵌入矩阵W,对W的子矩阵Wi,i+l-1进行卷积操作,得到特征对每一个子矩阵进行卷积操作后,可以得到特征图:



其中h为卷积核,l为卷积核的大小,f为一个非线性函数,通过使用多个不同大小的卷积核,获得多个特征,最后将这些特征串联在一起形成最终的新闻表示向量:
e(t)=[Ch1Ch2......Chm](2)。


4.根据权利要求1所述的一种基于用户阅读时间行为的新闻推荐方法,其特征在于:在步骤(3)中,由于用户对不同的新闻感兴趣程度不同,需要计算不同新闻占用户喜好的权重,使用注意力机制进行计算;将步骤(2...

【专利技术属性】
技术研发人员:杨宏
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1