一种新闻推荐方法及装置制造方法及图纸

技术编号:12674567 阅读:62 留言:0更新日期:2016-01-07 18:54
本发明专利技术公开了一种新闻推荐方法及装置,该方法包括:获取选定时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总量,并计算得到用户在选定时刻的新闻兴趣模型,按照该选定时刻的新闻兴趣模型,加权平均得到预置时间段内的最终新闻兴趣模型,按照最终新闻兴趣模型聚类各用户,并根据最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新闻候选集,将该新闻候选集中的新闻推荐给用户。本发明专利技术根据用户的新闻兴趣模型和新闻热度向用户推荐新闻,可提高新闻推荐的合理性和准确性。

【技术实现步骤摘要】

本专利技术属于计算机及网络
,尤其设及一种新闻推荐方法及装置
技术介绍
大型口户网站每天发布的各类文章非常之多,但是有的文章用户访问占比却不到 10%,大量的文章无人浏览而得不到展示的机会。在运种情况下,对用户实施文章推荐是众 多网站的首要选择。然而,大型网站的用户访问量是巨大的,每天的用户访问日志量多达亿 级别。尤其是新闻类文章,每天待发布的热点新闻数量巨大,同时热点新闻对时效性要求比 较高,运也对热点新闻的推荐系统提出了挑战。 现有技术中,推荐方法主要分为两种:第一种是基于内容的推荐,即,对物品 (item)和用户(user)分别建模,然后计算用户和物品的模型相似度,把和用户的模型相似 度最高的物品推荐给用户;第二种是基于协同过滤的推荐,即,根据用户的访问记录挖掘出 相似度,而不再根据用户和物品本身的属性计算相似度,并且协同过滤推荐与业务无关。 但是在上述现有技术中,基于内容的推荐通常不考虑像新闻热点因素,即没有考 虑新闻的生命周期,所W推荐效果并不理想;而基于协同过滤的推荐是基于访问记录进行 的推荐,只有被访问过的热点新闻才能被推荐,对时效性要求非常高的热点新闻来说,达不 到实时推送的效果。热点新闻生命周期极其短暂,很可能下一时刻就被下一条热点新闻取 代而造成无人访问的结果,从而导致访问记录非常稀疏,给实施根据访问记录来计算相似 度的方法造成一定程度的困难,并且计算的相似度准确性不高。
技术实现思路
阳〇化]本专利技术提供一种新闻推荐方法及装置,通过综合用户对新闻的真实兴趣和新闻的 时效性向用户推荐新闻,W提高推荐新闻的准确率。 本专利技术第一方面提供一种新闻推荐方法,包括: 将新闻按照内容进行分类;获取选定时刻用户对各类新闻的点击量和所有用户对 各类新闻的点击总量,并根据各类新闻的所述点击量和所述点击总量,计算得到所述用户 在所述选定时刻的新闻兴趣模型;按照所述选定时刻的新闻兴趣模型,加权平均得到包含 多个所述选定时刻的预置时间段内的最终新闻兴趣模型;按照所述最终新闻兴趣模型聚类 各用户,并根据所述最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新闻候 选集;将所述新闻候选集中的新闻推荐给所述用户。 本专利技术第二方面提供一种新闻推荐装置,包括:分类模块,用于将新闻按照内容进行分类;获取模块,用于获取选定时刻用户对各 类新闻的点击量和所有用户对各类新闻的点击总量;计算模块,用于根据各类新闻的所述 点击量和所述点击总量,计算得到所述用户在所述选定时刻的新闻兴趣模型;所述计算模 块,还用于按照所述选定时刻的新闻兴趣模型,加权平均得到包含多个所述选定时刻的预 置时间段内的最终新闻兴趣模型;聚类模块,用于按照所述最终新闻兴趣模型聚类各用户; 确定模块,用于根据所述最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新 闻候选集;推荐模块,用于将所述新闻候选集中的新闻推荐给所述用户。 从上述本专利技术实施例可知,相较于现有技术,本专利技术一方面通过根据用户对不同 类别的新闻点击量W及对应的总点击量建立新闻兴趣模型,平衡点击分布中新闻热度的影 响,可提高新闻推荐的合理性和准确性,另一方面通过将新闻兴趣度相似的用户进行聚类, 可加快推送速度且可保证实时性,并且通过计算当前一段较长时间内用户的最终新闻兴趣 模型,可进一步提高推荐准确性和时效性。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可W根 据运些附图获得其他的附图。 图1是本专利技术第一实施例提供的新闻推荐方法的实现流程示意图; 图2是本专利技术第二实施例提供的新闻推荐装置的结构示意图;图3是本专利技术第=实施例提供的新闻推荐装置的结构示意图。【具体实施方式】 为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术 实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实 施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人 员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。 请参阅图1,本专利技术第一实施例提供了一种新闻推荐方法,该方法主要包括W下步 骤:S101、将新闻按照内容进行分类。 按照内容将新闻分类,新闻可分为社会类、军事类、科技类、财经类、娱乐类、教育 类等类别。 具体地,可通过多项式模型的朴素贝叶斯分类算法来对新闻进行分类,其优点在 于,对热点新闻之类的新闻信息,朴素贝叶斯分类算法的分类和训练的速度都很快。对新 闻分类的主要目的是实现对各网站口户新闻的自动分类,从而为用户兴趣分析提供基础数 据,W新闻的内容的类别为粒度来描述用户的兴趣。 S102、获取选定时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总 量,并根据各类新闻的该点击量和该点击总量,计算得到该用户在该选定时刻的新闻兴趣 模型。 需要说明的是,用户对新闻的点击分布是指用户对新闻的点击量的分布情况,可 W反映用户对不同类新闻的不同兴趣,但由于用户对新闻的点击行为,受用户自身的真实 兴趣和新闻热点两个因素的影响,无法准确的反映该用户对新闻的真实兴趣。因此,用全体 用户的点击分布平衡单个用户的点击分布中新闻热点运个因素的影响,更能反映用户的真 实兴趣。 下面建立用户的新闻兴趣模型,该新闻兴趣模型是指用户和其感兴趣的新闻的对 应关系,即,用户对各类新闻的新闻兴趣度。获取t时刻用户对各类新闻的点击量和所有用 户对各类新闻的点击总量,并根据各类新闻的该点击量和该点击总量,计算得到该用户在t 时刻的新闻兴趣模型。 具体地,用U表示该用户,Ci表示类别为i的新闻的所有文章,I(u,Ci)表示用户U 对Ci的新闻兴趣度。 采用贝叶斯全概率公式来计算用户的新闻兴趣度计算公式为:P (click I categoiT = Ci) 根据贝叶斯全概率公式:[002引其中,,表不用户U点击C;新闻的点击分布,即,用户U对Ci的 新闻的点击量; 阳029] N(u,Ci)表示用户U点击过的C冲的新闻数量,N(u)表示用户U点击过的所有类 别的新闻总数; D(Ci)表示全体用户点击Ci的点击分布,即所有用户对C1的点击量; P (category=Cil click)近似为用户U对Ci的点击分布D(u,Ci); 阳032] Pt(category=Ci)近似为全体用户对Ci的点击分布D(ci);[003引Pt(click)为描述用户点击事件的概率常量,因此,t时刻用户U对Ci产生的兴趣 度计算公式可简化为:。) 所W,用全体用户的点击分布Dt(Ci)平衡单个用户U的点击分布Dt(u,Ci)中Ci类 新闻热点运个因素的影响,更能反映用户的真实兴趣。 用全体用户的点击分布Dt(Ci)对在口户网站中占主导地位的新闻分类的权重进 行了惩罚,使得对新闻推荐的结果更具有多样性。 S103、按照该选定时刻的新闻兴趣模型,加权平均得到包含多个该选定时刻的预 置时间段内的最终新闻兴趣模型。 最终新闻兴趣模型,是计算包含多个该选定本文档来自技高网...

【技术保护点】
一种新闻推荐方法,其特征在于,所述方法包括:将新闻按照内容进行分类;获取选定时刻用户对各类新闻的点击量和所有用户对各类新闻的点击总量,并根据各类新闻的所述点击量和所述点击总量,计算得到所述用户在所述选定时刻的新闻兴趣模型;按照所述选定时刻的新闻兴趣模型,加权平均得到包含多个所述选定时刻的预置时间段内的最终新闻兴趣模型;按照所述最终新闻兴趣模型聚类各用户,并根据所述最终新闻兴趣模型及新闻热度确定向聚类后的各类用户推荐的新闻候选集;将所述新闻候选集中的新闻推荐给所述用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:邓宏栋
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1