一种基于用户兴趣建模的新闻推荐方法技术

技术编号:35988668 阅读:16 留言:0更新日期:2022-12-17 23:03
本发明专利技术公开了一种基于用户兴趣建模的个性化新闻推荐方法,包括步骤:获得新闻文本数据,将文本数据进行预处理,删除停用词,向量化等操作;将向量化的新闻数据输送到文本特征提取器进行特征抽取,获得新闻特征;构建基于用户兴趣的新闻推荐模型,结合残差图卷积网络模块与用户热兴趣模块,输出用户点击概率;模型训练,模型训练基于交叉熵损失函数进行训练;对输入的一系列候选新闻的点击预测概率进行排序,输出设定好的前K篇新闻作为推荐结果。本发明专利技术用于用户个性化的新闻推荐,能有效提升推荐有效性。荐有效性。荐有效性。

【技术实现步骤摘要】
一种基于用户兴趣建模的新闻推荐方法


[0001]本专利技术涉及新闻推荐领域,具体涉及一种基于用户阅读偏好的深度学习新闻推荐方法。

技术介绍

[0002]个性化推荐系统利用用户的行为(如搜索历史记录、阅读记录等)为该用户生成推荐列表。传统的新闻推挤方法大抵可分为基于内容的过滤方法和基于协同过滤的方法。两类方法虽然可以在一定程度上实现新闻推荐的功能,但是这两类方法都存在一定的缺陷,实际推荐效果不佳,难以满足实际使用需求。
[0003]基于内容的算法在最初是最流行、最高效的方法,因此在任何推荐系统开始时被广泛应用。在基于内容过滤的推荐方法中,通过分析用户过去感兴趣的新闻的属性,推荐用户某些未读过的新闻。这些系统不关心用户对这些项目的评分。在基于内容的算法中,相似度计算方法直接影响推荐结果的准确性。有几种被广泛使用的相似性计算方法:

欧几里德距离:通过计算两个向量中每个元素的平方距离之和来衡量两个向量之间相似性的最常用方法之一。

余弦:该方法的主要思想是通过计算两个向量之间的夹角余弦来测量两个向量。

Pearson:Pearson相关系数反映两个向量之间的线性相关程度。

Jaccard:Jaccard相似度通常用于比较两个有限样本集之间的相似性和差异。与其他协同过滤系统相比,基于内容的推荐系统有很多好处,例如:用户独立性、透明度、冷启动问题时的新项目。但是基于内容的方法还存在一些不足之处,如分析内容有限、过于专业化或缺乏新用户的评分数据,以及对某些特定问题的准确性不够。
[0004]在协同过滤方法中,用户对新闻的评价会被考虑在内以做出建议。具有相似评价的用户称为邻居,用于预测未评分新闻项的评分。基于协同过滤的推荐方法准确性依赖于不同算法(如SVM、朴素贝叶斯、决策树、聚类等)开发的有效建模。然而,在实际场景中,许多商业推荐系统中使用的数据集非常稀疏,因为用户通常不会对每个项目进行评分,而是只对少数项目进行评分。
[0005]近年来,以用户

新闻交互为基础构建的图神经网络模型将用户与新闻建模为二部图结构,以新闻嵌入更新用户兴趣,并依此计算候选新闻与用户兴趣的相似度来预测用户的点击偏好,此类模型在新闻推荐任务上取得了优秀的效果,但仍不适用于稀疏环境。

技术实现思路

[0006]本专利技术所要解决的技术问题是,针对在交互数据集中于少数新闻的稀疏环境中,仅使用交互行为构建的模型相在稀疏环境中存在严重的准确性问题,提供一种能解决现有基于协同过滤和基于内容的新闻推荐方法受限于数据集数据分布不均且稀疏造成的冷启动问题的基于用户兴趣的深度学习新闻推荐方法。
[0007]本专利技术为解决上述技术问题所采用的技术方案是,一种基于用户兴趣建模的新闻推荐方法,包括以下步骤:
[0008]步骤1、根据所需的新闻属性信息进行预处理得到新闻数据构造新闻数据集;用于训练的新闻数据集中,用户与新闻之间存在交互则标记为正样本,表示用户阅读过该新闻,否则标记为负样本;
[0009]步骤2、新闻推荐模型的构建与训练:
[0010]利用新闻数据集中的训练数据对所述新闻推荐模型进行深度学习训练,当满足预置的停止训练条件时,得到训练好的新闻推荐网络模型;
[0011]所述新闻推荐网络模型用于,输出用户点击候选新闻的概率,包括特征提取模块、残差图卷积网络GCN、用户热兴趣模块和全连接神经网络;特征提取模块包括点击序列特征提取器和新闻文本特征提取器,分别用于提取用户近期点击序列特征和新闻文本特征;残差GCN用于接收新闻文本特征输出新闻嵌入以及用户长期兴趣特征;用户热兴趣模块用于接收用户近期点击序列特征输出用户热兴趣特征;全连接神经网络用于将用户长期兴趣特征与用户热兴趣特征进行结合,结合后的结果作为用户的最终兴趣表示;
[0012]步骤3、新闻推荐模型输出用户点击的预测结果:
[0013]对于给定的用户和候选新闻,基于预设的输入数据格式,对候选新闻进行筛选和预处理得到新闻数据,将新闻数据输入完成训练的新闻推荐模型,新闻推荐模型输出用户的最终兴趣表示以及新闻嵌入,将用户的最终兴趣表示作为用户嵌入,利用用户嵌入与新闻嵌入计算得到用户点击候选新闻的概率值;最后根据所述概率值再选择候选新闻推荐给用户。
[0014]本专利技术的有益效果是,从用户兴趣出发,针对个性化新闻推荐任务,有效利用新闻文本特征信息以及用户

新闻交互过程中产生的用户兴趣表示,从而弥补了现有方法仅利用交互记录的不足,提高新闻推荐准确度,最终实现针对用户的个性化新闻推荐;通过用户热兴趣的提取对用户特征进行补充,进一步提升新闻推荐的性能。
附图说明
[0015]图1为本专利技术的个性化新闻推荐原理图;
[0016]图2为本专利技术的模型总体结构图;
[0017]图3为本专利技术的训练过程示意图。
具体实施方式
[0018]深度学习新闻推荐方法基于构造的新闻推荐网络模型实现,新闻推荐网络模型用于点击预测,输出用户点击候选新闻的概率。基于用户兴趣建模的新闻推荐网络模型的设计思想为:通过利用新闻文本长度以及用户停留时间,计算该新闻对用户兴趣的影响权重,然后通过新闻特征与对应权重值相乘,并对特征向量进行组合的方式得到出基于新闻特征的用户兴趣向量。
[0019]构建基于用户兴趣建模的新闻推荐网络模型包括特征提取模块、基于用户

新闻交互的残差图卷积网络GCN(Graph Convolutional Networks)、基于用户近期阅读兴趣的用户热兴趣模块和全连接神经网络。
[0020]特征提取模块包括点击序列特征提取器和新闻文本特征提取器,分别用于提取用户近期点击序列特征和新闻文本特征,用户近期点击序列特征输入至用户热兴趣模块,新
闻文本特征输入至残差GCN。残差GCN用于根据用户与新闻的交互关系,即用户的新闻阅读历史记录以及新闻特征向量来捕获用户长期稳定的兴趣特征,此外,对残差GCN中的新闻通过主题抽取的方式根据主题类别进行聚类,一定程度上可缓解部分新闻因缺少交互导致的数据稀疏问题。
[0021]残差GCN输出的特征向量作为长期兴趣特征会和从用户热兴趣模块中计算得到的用户热兴趣特征通过全连接神经网络进行结合,全连接神经网络输出这两个特征向量结合后的结果作为用户的最终兴趣表示参与后续的新闻点击预测计算。
[0022]具体实施步骤如下:
[0023]步骤1、根据所需的新闻属性信息进行预处理得到新闻数据构造新闻数据集;
[0024]根据需要,实施例采用在真实世界的在线新闻数据集Adressa进行实验。具体来说,模型训练选择具有十周时间跨度的新闻点击日志Adressa

10week,这是一个新闻点击日志数据集。实验初期主要依据用户

新闻交互以及新闻属性信息进行网络模型构建。用于训练的新闻数据集中,用户与新闻之间存在交本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户兴趣建模的新闻推荐方法,其特征在于,包括以下步骤:步骤1、根据所需的新闻属性信息进行预处理得到新闻数据构造新闻数据集;用于训练的新闻数据集中,用户与新闻之间存在交互则标记为正样本,表示用户阅读过该新闻,否则标记为负样本;步骤2、新闻推荐模型的构建与训练:利用新闻数据集中的训练数据对所述新闻推荐模型进行深度学习训练,当满足预置的停止训练条件时,得到训练好的新闻推荐网络模型;所述新闻推荐网络模型用于,输出用户点击候选新闻的概率,包括特征提取模块、残差图卷积网络GCN、用户热兴趣模块和全连接神经网络;特征提取模块包括点击序列特征提取器和新闻文本特征提取器,分别用于提取用户近期点击序列特征和新闻文本特征;残差GCN用于接收新闻文本特征输出新闻嵌入以及用户长期兴趣特征;用户热兴趣模块用于接收用户近期点击序列特征输出用户热兴趣特征;全连接神经网络用于将用户长期兴趣特征与用户热兴趣特征进行...

【专利技术属性】
技术研发人员:许毅赵太银解修蕊罗光春赵航张博闻
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1