一种基于主题模型与用户群组的新闻推荐方法及系统技术方案

技术编号:17779982 阅读:37 留言:0更新日期:2018-04-22 08:37
本发明专利技术公开了一种基于主题模型与用户群组的新闻推荐方法、系统及计算机可读存储介质,包括:利用预设主题模型,生成每个新闻数据各自对应的主题分布;根据用户行为日志与预设主题模型,生成每个用户的兴趣向量;利用隐含语义推荐方法生成每个用户各自对应的第一推荐列表;根据每个用户的兴趣向量,将每个用户聚类到对应的用户群组;利用用户群组推荐方法生成每个用户各自对应的第二推荐列表;根据每个用户各自对应的第一推荐列表和第二推荐列表,生成最终推荐列表;本发明专利技术通过将隐含语义推荐方法与用户群组推荐方法的结合,解决了推荐内容缺乏新颖性的问题,使用户可以看到历史兴趣之外的内容开拓眼界,提升了用户体验。

【技术实现步骤摘要】
一种基于主题模型与用户群组的新闻推荐方法及系统
本专利技术涉及互联网
,特别涉及一种基于主题模型与用户群组的新闻推荐方法、系统及计算机可读存储介质。
技术介绍
随着互联网技术的发展,新闻行业正经历着巨变,越来越多的人甚至机器参与到新闻创作之中,不分时间和地点,新闻资讯正日趋海量化。为了让用户更容易地找到自己感兴趣的新闻资讯,新闻推荐系统应运而生。现有技术中,在新闻推荐系统里最常用的新闻推荐方法,如基于内容的推荐方法和隐含语义推荐方法,由于所产生的推荐内容缺乏新颖性,很难帮助用户发现新的内容;而基于用户的协同过滤方法尽管能够为用户推荐新颖的内容,但由于新增用户加入后需要进行大量的计算来更新用户相似性表,对于目前用户数与新增用户数均较大的新闻推荐系统而言已经不十分适用。因此,如何提供一种适用于目前用户数与新增用户数均较大的新闻推荐系统的新闻推荐方法,解决推荐内容缺乏新颖性的问题,使用户可以看到历史兴趣之外的内容开拓眼界,是现今急需解决的问题。
技术实现思路
本专利技术的目的是提供一种基于主题模型与用户群组的新闻推荐方法、系统及计算机可读存储介质,以通过隐含语义推荐方法与用户群组推荐方法的结合,解决了推荐内容缺乏新颖性的问题。为解决上述技术问题,本专利技术提供一种基于主题模型与用户群组的新闻推荐方法,包括:获取新闻数据;利用预设主题模型,生成每个新闻数据各自对应的主题分布;根据用户行为日志与所述预设主题模型,生成每个用户的兴趣向量;根据每个新闻数据各自对应的主题分布和每个用户的兴趣向量,利用隐含语义推荐方法生成每个用户各自对应的第一推荐列表;根据每个用户的兴趣向量,将每个用户聚类到对应的用户群组;根据每个用户对应的用户群组,利用用户群组推荐方法生成每个用户各自对应的第二推荐列表;根据每个用户各自对应的第一推荐列表和第二推荐列表,生成最终推荐列表。可选的,所述利用预设主题模型,生成每个新闻数据各自对应的主题分布,包括:对所述新闻数据进行预处理,生成每个新闻数据各自对应的关键词序列;根据每个新闻数据各自对应的关键词序列,利用LDA主题模型生成每个新闻数据各自对应的主题分布。可选的,所述根据用户行为日志与所述预设主题模型,生成每个用户的兴趣向量,包括:将全部用户的兴趣向量的平均值确定为每个新增用户的兴趣向量;其中,新增用户为所述用户行为日志中未记录历史行为的新加入的用户。可选的,所述根据每个用户的兴趣向量,将每个用户聚类到对应的用户群组,包括:根据每个新增用户的兴趣向量,将每个新增用户分配到对应的用户群组。本专利技术还提供了一种基于主题模型与用户群组的新闻推荐系统,包括:获取模块,用于获取新闻数据;主题分布生成模块,用于利用预设主题模型,生成每个新闻数据各自对应的主题分布;兴趣向量生成模块,用于根据用户行为日志与所述预设主题模型,生成每个用户的兴趣向量;第一推荐模块,用于根据每个新闻数据各自对应的主题分布和每个用户的兴趣向量,利用隐含语义推荐方法生成每个用户各自对应的第一推荐列表;聚类模块,用于根据每个用户的兴趣向量,将每个用户聚类到对应的用户群组;第二推荐模块,用于根据每个用户对应的用户群组,利用用户群组推荐方法生成每个用户各自对应的第二推荐列表;第三推荐模块,用于根据每个用户各自对应的第一推荐列表和第二推荐列表,生成最终推荐列表。可选的,所述主题分布生成模块,包括:预处理子模块,用于对所述新闻数据进行预处理,生成每个新闻数据各自对应的关键词序列;主题分布生成子模块,用于根据每个新闻数据各自对应的关键词序列,利用LDA主题模型生成每个新闻数据各自对应的主题分布。可选的,所述兴趣向量生成模块,包括:确定子模块,用于将全部用户的兴趣向量的平均值确定为每个新增用户的兴趣向量;其中,新增用户为所述用户行为日志中未记录历史行为的新加入的用户。可选的,所述聚类模块,包括:分配子模块,用于根据每个新增用户的兴趣向量,将每个新增用户分配到对应的用户群组。此外,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的基于主题模型与用户群组的新闻推荐方法的步骤。本专利技术所提供的一种基于主题模型与用户群组的新闻推荐方法,包括:获取新闻数据;利用预设主题模型,生成每个新闻数据各自对应的主题分布;根据用户行为日志与预设主题模型,生成每个用户的兴趣向量;根据每个新闻数据各自对应的主题分布和每个用户的兴趣向量,利用隐含语义推荐方法生成每个用户各自对应的第一推荐列表;根据每个用户的兴趣向量,将每个用户聚类到对应的用户群组;根据每个用户对应的用户群组,利用用户群组推荐方法生成每个用户各自对应的第二推荐列表;根据每个用户各自对应的第一推荐列表和第二推荐列表,生成最终推荐列表;可见,本专利技术通过将隐含语义推荐方法与用户群组推荐方法的结合,解决了目前用户数与新增用户数均较大的新闻推荐系统所推荐的内容缺乏新颖性的问题,使用户可以看到历史兴趣之外的内容开拓眼界,提升了用户体验。此外,本专利技术还提供了一种基于主题模型与用户群组的新闻推荐系统及计算机可读存储介质,同样具有上述有益效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例所提供的一种基于主题模型与用户群组的新闻推荐方法的流程图;图2为本专利技术实施例所提供的一种基于主题模型与用户群组的新闻推荐装置的结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1为本专利技术实施例所提供的一种基于主题模型与用户群组的新闻推荐方法的流程图。该方法可以包括:步骤101:获取新闻数据。可以理解的是,本步骤中的新闻数据可以为需要推荐给用户的新闻的数据。对于新闻数据的具体获取方式,可以由设计人员根据实用场景和用户需求自行设置,如可以直接接收新闻推荐系统的服务方自行编写传输到服务器中的新闻数据,也可以利用网络爬虫从各个网站采集获取新闻数据。只要服务器可以获取需要推荐给用户的新闻的数据,本实施例对此不做任何限制。步骤102:利用预设主题模型,生成每个新闻数据各自对应的主题分布。其中,本步骤中的预设主题模型可以为设计人员预先设置的可以确定新闻数据的主题分布的模型。对于预设主题模型的具体类型,可以由设计人员根据实用场景和用户需求自行设置,如预设主题模型可以为LDA(LatentDirichletAllocation,隐含狄利克雷分布)主题模型,也可以为其他主题模型,只要服务器可以利用预设主题模型,生成每个新闻数据各自对应的主题分布,对于预设主题模型的具体类型,本实施不做任何限制。可以理解的是,本步骤中的利用预设主题模型,生成每个新闻数据各自对应的主题分布的具体本文档来自技高网...
一种基于主题模型与用户群组的新闻推荐方法及系统

【技术保护点】
一种基于主题模型与用户群组的新闻推荐方法,其特征在于,包括:获取新闻数据;利用预设主题模型,生成每个新闻数据各自对应的主题分布;根据用户行为日志与所述预设主题模型,生成每个用户的兴趣向量;根据每个新闻数据各自对应的主题分布和每个用户的兴趣向量,利用隐含语义推荐方法生成每个用户各自对应的第一推荐列表;根据每个用户的兴趣向量,将每个用户聚类到对应的用户群组;根据每个用户对应的用户群组,利用用户群组推荐方法生成每个用户各自对应的第二推荐列表;根据每个用户各自对应的第一推荐列表和第二推荐列表,生成最终推荐列表。

【技术特征摘要】
1.一种基于主题模型与用户群组的新闻推荐方法,其特征在于,包括:获取新闻数据;利用预设主题模型,生成每个新闻数据各自对应的主题分布;根据用户行为日志与所述预设主题模型,生成每个用户的兴趣向量;根据每个新闻数据各自对应的主题分布和每个用户的兴趣向量,利用隐含语义推荐方法生成每个用户各自对应的第一推荐列表;根据每个用户的兴趣向量,将每个用户聚类到对应的用户群组;根据每个用户对应的用户群组,利用用户群组推荐方法生成每个用户各自对应的第二推荐列表;根据每个用户各自对应的第一推荐列表和第二推荐列表,生成最终推荐列表。2.根据权利要求1所述的基于主题模型与用户群组的新闻推荐方法,其特征在于,所述利用预设主题模型,生成每个新闻数据各自对应的主题分布,包括:对所述新闻数据进行预处理,生成每个新闻数据各自对应的关键词序列;根据每个新闻数据各自对应的关键词序列,利用LDA主题模型生成每个新闻数据各自对应的主题分布。3.根据权利要求1所述的基于主题模型与用户群组的新闻推荐方法,其特征在于,所述根据用户行为日志与所述预设主题模型,生成每个用户的兴趣向量,包括:将全部用户的兴趣向量的平均值确定为每个新增用户的兴趣向量;其中,新增用户为所述用户行为日志中未记录历史行为的新加入的用户。4.根据权利要求3所述的基于主题模型与用户群组的新闻推荐方法,其特征在于,所述根据每个用户的兴趣向量,将每个用户聚类到对应的用户群组,包括:根据每个新增用户的兴趣向量,将每个新增用户分配到对应的用户群组。5.一种基于主题模型与用户群组的新闻推荐系统,其特征在于,包括:获取模块,用于获取新闻数据;主题分布生成模块,用于利用预设主题模型...

【专利技术属性】
技术研发人员:曾琳铖曦蒋宁
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1