一种实时关联新闻推荐内容的方法和装置制造方法及图纸

技术编号:14244077 阅读:73 留言:0更新日期:2016-12-21 23:35
本发明专利技术实施例公开了一种实时关联新闻的推荐内容的方法及装置。该方法包括:获取历史新闻内容及所述历史新闻内容的关联内容,建立内容库,并提取文本特征;获取用户当前浏览新闻内容;从所述当前浏览新闻内容提取出当前新闻文本特征;将所述当前新闻文本特征与所述内容库中的历史新闻内容和/或所述历史新闻内容的关联内容进行语义相似性匹配;根据匹配结果,从历史新闻内容和/或所述历史新闻内容的关联内容中选择目标内容,向所述用户推送。本发明专利技术实施例实现人们在浏览新闻时,自动推送当前浏览新闻内容,以及人们对该事件的优质讨论,以便于用户快速系统地了解所关注新闻的来龙去脉。

【技术实现步骤摘要】

本专利技术涉及语义计算和推荐系统,特别涉及一种实时关联新闻推荐内容的方法和装置
技术介绍
随着互联网的普及,特别是移动互联网的迅猛发展,互联网上每天都会产生海量的内容。各大新闻媒体、新媒体,如人民日报、腾讯新闻、今日头条等,也通过互联网发布和传播新闻,网民们也在社交网络,如知乎,对各类事件进行着广泛而深刻的讨论。因为新闻来源广,传播渠道多,互联网上相同或相似新闻的传播相当的分散,所以通过互联网获悉新闻时,会耗费大量时间在检索自己感兴趣的新闻以及其来龙去脉。此外,对于新闻的讨论的关注也需要花费时间去检索,导致了在互联网上获悉完整有质量新闻的效率十分低下。
技术实现思路
有鉴于此,本专利技术实施例提供一种实时关联新闻的推荐内容的方法及装置,解决用户在互联网上浏览新闻低效率的问题。第一方面,本专利技术实施例提供了一种实时关联新闻的推荐内容的方法,包括:获取历史新闻内容及所述历史新闻内容的关联内容,建立内容库,并提取文本特征;获取用户当前浏览新闻内容;从所述当前浏览新闻内容提取出当前新闻文本特征;将所述当前新闻文本特征与所述内容库中的历史新闻内容和/或所述历史新闻内容的关联内容进行语义相似性匹配;根据匹配结果,从历史新闻内容和/或所述历史新闻内容的关联内容中选择目标内容,向所述用户推送。第二方面,本专利技术实施例提供了一种实时关联新闻的推荐内容的装置,包括:内容库建立模块,用于获取历史新闻内容及所述历史新闻内容的关联内容,建立内容库,并提取历史新闻文本特征;当前新闻获取模块,用于获取用户当前浏览新闻内容;文本特征提取模块,用于从所述当前浏览新闻内容提取出当前新闻文本特征;相似性匹配模块,用于将所述当前新闻文本特征与所述内容库中的历史新闻内容和/或所述历史新闻内容的关联内容进行语义相似性匹配;信息推送模块,用于根据匹配结果,从历史新闻内容和/或所述历史新闻内容的关联内容中选择目标内容,向所述用户推送。由上述技术方案可知,本专利技术实施例实现人们在浏览新闻时,自动推送当前浏览新闻内容,以及人们对该事件的优质讨论,以便于用户快速系统地了解所关注新闻的来龙去脉附图说明图1A是本专利技术实施例一提供的一种实时关联新闻的推荐内容的方法流程示意图;图1B是本专利技术实施例一中的一种文本特征提取的方法流程示意图;图2是本专利技术实施例二中的一种实时关联新闻的推荐内容方法流程示意图;图3A是本专利技术实施例三中的一种实时关联新闻的推荐内容的装置结构示意图;图3B是本专利技术实施例三中的文本特征提取模块单元结构示意图。具体实施方式下面结合附图并通过具体实施方式来进一步说明本专利技术的技术方案。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1A是本专利技术实施例一提供的一种实时关联新闻的推荐内容的方法流程示意图。该方法可以由实时关联新闻的推荐内容的方法的装置来执行,该装置可以由软件和/或硬件的方式来实现,通常可由提供实时关联新闻的推荐服务的服务器来执行。如图1A所示,该方法包括:S110、获取历史新闻内容及所述历史新闻内容的关联内容,建立内容库,并提取文本特征;在与用户信息交互之前,服务器会根据特定规则对服务器内存储的历史新闻内容和关联内容分类,并提取出每一条历史新闻内容及关联内容中的文本特征,并将获取到的历史新闻内容和关联内容以及相对应的文本特征保存到已经创建好的内容库里。该文本特征用于新闻内容与新闻内容,关联内容与关联内容,新闻内容与关联内容间的快速匹配。可选的,所述关联内容为用户对新闻内容的留言,讨论等信息。文本特征提取的具体方法可参照S130中对当前浏览新闻内容提取当前新闻文本特征的方法,此处略过。S120、获取用户当前浏览新闻内容;用户请求由当前用户根据自身需求对新闻信息类别进行选择,发送至可提供实时关联新闻的推荐服务的服务器,所述可提供实时关联新闻的推荐服务的服务器可为云端服务器。可提供实时关联新闻的推荐服务的服务器根据当前指令将相关的新闻信息返回至客户端应用程序或网页浏览器,供用户进行选择浏览。服务器获取用户当前浏览新闻内容。当前浏览的新闻内容包括新闻网页的标题、摘要和正文。S130、从所述当前浏览新闻内容提取出当前新闻文本特征。所述当前浏览新闻内容即用户正在浏览的新闻内容。从新闻内容提取新闻文本的步骤具体如图1B所示。S131:对所述当前浏览新闻内容进行预处理;具体的,对语料进行清洗,去掉无用信息,使用分词工具进行分词并去掉停用词。S132:对预处理后的内容进行词法分析,并提取关键词信息;具体的,在S131预处理后的语料上,通过统计方法,包含但不限于TF-IDF、TF-IWF、BM25,计算语料中各词语的权重值s,并建立关键词模型,提取第一类文本特征,即关键词。以TF-IWF为例说明,下式即为按TF-IWF计算各词的权重方法。 s ( w i j ) = N ( w i j ) Σ k ∈ K N ( w k j ) × log Σ l ∈ L N ( w l ) N ( w i ) ]]>其中,wij表示第j篇语料中的第i个词,N(w)表示词w的词频,wi表示词i在语料库中的词频,K表示第j篇语料中的词数之和,wkj表示第j篇语料中第k个词语的词频,L表示内容库中的词数之和,wl表示内容库中第l个词语的词频。S133:对预处理后的内容训练出主题模型,并提本文档来自技高网...
一种实时关联新闻推荐内容的方法和装置

【技术保护点】
一种实时关联新闻的推荐内容的方法,其特征在于,包括:获取历史新闻内容及所述历史新闻内容的关联内容,建立内容库,并提取文本特征;获取用户当前浏览新闻内容;从所述当前浏览新闻内容提取出当前新闻文本特征;将所述当前新闻文本特征与所述内容库中的历史新闻内容和/或所述历史新闻内容的关联内容进行语义相似性匹配;根据匹配结果,从历史新闻内容和/或所述历史新闻内容的关联内容中选择目标内容,向所述用户推送。

【技术特征摘要】
1.一种实时关联新闻的推荐内容的方法,其特征在于,包括:获取历史新闻内容及所述历史新闻内容的关联内容,建立内容库,并提取文本特征;获取用户当前浏览新闻内容;从所述当前浏览新闻内容提取出当前新闻文本特征;将所述当前新闻文本特征与所述内容库中的历史新闻内容和/或所述历史新闻内容的关联内容进行语义相似性匹配;根据匹配结果,从历史新闻内容和/或所述历史新闻内容的关联内容中选择目标内容,向所述用户推送。2.根据权利要求1的所述的方法,其特征在于,根据匹配结果,从历史新闻内容中选择目标内容,向所述用户推送之后,还包括:获取用户对目标内容的反馈数据,根据所述反馈数据对所述内容库或匹配模型进行更新。3.根据权利要求1的所述的方法,其特征在于:所述历史新闻内容和所述当前浏览新闻内容包括新闻网页的标题、摘要和正文。4.根据权利要求1的所述的方法,其特征在于,从所述当前浏览新闻内容提取出当前新闻文本特征,包括:对所述当前浏览新闻内容进行预处理;对预处理后的内容进行词法分析,并提取关键词信息;对预处理后的内容训练出主题模型,并提取主题信息;对预处理后的内容训练出词语语义模型;根据得到的关键词信息、主题信息和词语语义模型确定当前浏览新闻内容的文本特征。5.根据权利要求1的所述的方法,其特征在于,将所述当前新闻文本特征与所述内容库中的历史新闻内容和/或所述历史新闻内容的关联内容进行语义相似性匹配包括:采用设定算法计算所述当前新闻文本特征与所述内容库中的历史新闻内容和/或所述历史新闻内容的关联内容的文本特征之间的相似性匹配度;将所述相似性匹配度超过预设阈值的历史新闻内容筛选出来。6.一种实时关联新闻的推荐内容的装置,其特征在于,包括:内容库建立模块,用于获取历史新闻内容及所述...

【专利技术属性】
技术研发人员:孙先李大海王晓张瑞
申请(专利权)人:智者四海北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1