热点话题搜索系统及热点话题搜索方法技术方案

技术编号:9667992 阅读:89 留言:0更新日期:2014-02-14 06:30
本发明专利技术涉及热点话题搜索系统及热点话题搜索方法,其中热点话题搜索系统包括:新闻热词挖掘模块、新闻搜索下载模块、以及热点话题产生及匹配模块;新闻热词挖掘模块,用于定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组;新闻搜索下载模块,用于下载热门新闻的新闻文档;热点话题产生及匹配模块,用于根据热点词组确定与热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。本发明专利技术能够给用户展现新闻热点话题发展的全过程。

【技术实现步骤摘要】

本专利技术涉及互联网搜索
,特别涉及。
技术介绍
随着互联网技术的蓬勃发展,使得信息传播的速度大幅度提高,而各行各业也因此深受互联网的影响,其中以新闻产业的感受最为深刻。热点话题为新闻媒体所关注的热点新闻,通常有一个发生、发展和结束的过程,热点话题一般会被媒体广泛报道,话题存在期间会出现很多描述话题客观事实以及对话题进行评论的新闻。新闻搜索站点满足用户的需求主要有两种:一种是接受检索与指定关键词最相关的新闻,另一种是主动推荐当前最热点的新闻给用户。用户一般情况下会优先想知道一些大型的新闻事件(即热点话题)。如果能自动识别出当前最热点的新闻话题,就可以推荐热点话题相关的新闻给用户,使得推荐的新闻更容易满足用户的需求。但是,热点话题一般都是在不断发展变化中的,如何描述和识别出一个热点话题的变化也是一个非常困难的问题。如果不能识别出热点话题的变化,那么一个连续的话题就会被割裂成多个片段。如果只能将割裂开来的话题展现给用户,会使得用户对话题的了解不够完整,影响用户体验。所以,需要自动发现、追踪和监测新闻热点话题的发展变化。在用户检索指定关键词时,目前的发现、追踪热点话题的方法往往只能提供用户与关键词相关的新闻,例如只描述该事件的最近进展,不能有针对性的推荐与关键词相关的新闻热点话题给用户以给用户展现新闻热点话题发展的全过程,从而使得用户缺乏对新闻热点话题起因和之前发展脉络的了解,不能够满足用户的真实搜索需求。
技术实现思路
因此,本专利技术提供,以克服现有互联网搜索技术存在的问题。具体地,本专利技术实施例提出的一种热点话题搜索系统,包括:新闻热词挖掘模块、新闻搜索下载模块、以及热点话题产生及匹配模块;新闻热词挖掘模块,用于定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组;新闻搜索下载模块,用于下载热门新闻的新闻文档;热点话题产生及匹配模块,用于根据热点词组确定与热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。另外,本专利技术实施例提出的一种热点话题搜索方法,其包括下列步骤:定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组;下载热门新闻的新闻文档;以及根据热点词组确定与热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。由上述实施例可知,本专利技术通过使用话题跟踪算法,即两个热点词组对应新闻文档集合的相似度代表两个热点词组的相似度来解决热点词组相似度计算困难的问题,还通过使用检索词命中的新闻文档集合与热点话题对应新闻文档集合的相似度来表示检索词与热点话题相似度,还可以在不同时间段内选取代表新闻文档以及不同时间段内计算新闻文档热度,使得本专利技术增强了新闻搜索站点推荐新闻的精准度,还通过给用户推荐检索词相关的热点话题,增加了用户满意度。从而确保了本专利技术能够自动发现当前最热的热点话题、自动追踪热点话题的发展变化、自动推荐热点话题相关新闻、以及自动查找与检索关键词最匹配的热点话题等。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。【附图说明】图1是本专利技术实施例提出的热点话题搜索系统的主要架构框图。图2是热点话题的相关新闻及热点话题的相关新闻关注度随时间的变化曲线的示意图。图3是本专利技术实施例提出的热点话题搜索方法的步骤流程图。【具体实施方式】为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的其【具体实施方式】、结构、特征及功效,详细说明如后。有关本专利技术的前述及其他
技术实现思路
、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过【具体实施方式】的说明,当可对本专利技术为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本专利技术加以限制。图1是本专利技术实施例提出的热点话题搜索系统的主要架构框图。图2是热点话题的相关新闻及热点话题的相关新闻关注度随时间的变化曲线的示意图。请一并参阅图1及图2,热点话题搜索系统包括:新闻热词挖掘模块100、热点话题产生及匹配模块103、以及新闻搜索下载模块104。此外,热点话题搜索系统还可以包括新热点查询词获取模块102、近期新闻文档获取模块106、热点话题代表文档选取及热度计算模块110、热点话题文档在线查询服务模块112以及资料库,以整合更多的功能。资料库可以包括热词库115、话题元数据库116、话题展示数据库117以及新闻文档相关话题对应关系库118。更具体地,新闻热词挖掘模块100,用于定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组。此外,新闻热词挖掘模块100,还用于将热点词组发送到热词库115中进行存储。其中,新闻热词挖掘模块100可以每隔一定时间定向获取新闻网站的热点新闻区域,获得当前时间点上的热点新闻的锚文本或标题,对当前时间点上所有热点新闻的锚文本或标题进行统计,从而得到热点新闻的锚文本或标题中重复出现的词组,并将这些词组作为热点词组。新热点查询词获取模块102,用于定期分析新闻搜索的用户日志以获取用户日志中出现的高频查询词,还用于将用户日志中出现的高频查询词发送到热词库115中进行存储。其中,新闻搜索的用户日志中保存了用户搜索新闻时所使用的历史关键词。热点话题产生及匹配模块103,用于根据热点词组及/或高频查询词确定与热点词组及/或高频查询词对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。此外,热点话题产生及匹配模块103,还用于定期检查热词库115中的热点词组及/或高频查询词以及历史热点话题产生和匹配结果,判断所有当前热点话题是否有新的热点词组及/或高频查询词加入及/或判断是否有新的热点话题产生,还可以将热点话题及热点话题的热词(包括热点词组及/或高频查询词)发送到话题元数据库116中进行存储。其中话题元数据库116存储了热点话题与热点词组及/或高频查询词的对应关系。热点话题产生及匹配模块103,采用话题跟踪算法确定与热点词组及/或高频查询词对应的每个热点话题及判断所有当前热点话题是否有新的热点词组及/或高频查询词加入及/或判断是否有新的热点话题产生。热点话题产生及匹配模块103使用新闻网站的首页热点新闻区域的锚文本或标题作为话题跟踪算法的数据源。之所以选取这个作为数据源,而不是选取全量新闻网页作为数据源,主要有以下几点好处:1.减小数据规模,降低选取算法复杂程度,加快选取算法的运行速度。2.减少噪音干扰,由于新闻网站的首页热点新闻区域都是由新闻编辑手工维护的,所以不需要安排编辑对挖掘出来的话题进行人工检查。3.提高热点话题发现效果,降低话题发现和话题追踪算法的难度。因为在新闻网站的首页热点新闻区域出现的文字已经都是描述当前非常热点的事件了,所以不用担心发现出来的事件热度不够。并且可以认为所有足够热的事件一定会出现在某个大型网站的焦点区域中,不会对事本文档来自技高网
...

【技术保护点】
一种热点话题搜索系统,其特征在于,所述热点话题搜索系统包括:新闻热词挖掘模块,用于定期获取新闻网站的热点新闻区域的热门新闻并提取所述热门新闻中的热点词组;新闻搜索下载模块,用于下载所述热门新闻的新闻文档;热点话题产生及匹配模块,用于根据所述热点词组确定与所述热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与所述每个热点话题对应的新闻文档。

【技术特征摘要】
1.一种热点话题搜索系统,其特征在于,所述热点话题搜索系统包括: 新闻热词挖掘模块,用于定期获取新闻网站的热点新闻区域的热门新闻并提取所述热门新闻中的热点词组; 新闻搜索下载模块,用于下载所述热门新闻的新闻文档; 热点话题产生及匹配模块,用于根据所述热点词组确定与所述热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与所述每个热点话题对应的新闻文档。2.如权利要求1所述的热点话题搜索系统,其特征在于,还包括: 近期新闻文档获取模块,对所述下载的新闻文档建立倒排索引以提供给客户端使用关键词检索所述新闻文档。3.如权利要求1所述的热点话题搜索系统,其特征在于,还包括: 新热点查询词获取模块,用于定期分析新闻搜索的用户日志以获取所述用户日志中出现的高频查询词。4.如权利要求1或3所述的热点话题搜索系统,其特征在于,还包括:热词库,保存所述高频查询词及所述热点词组。5.如权利要求1所述的热点话题搜索系统,其特征在于,所述热点话题产生及匹配模块,还用于采用话题跟踪算法确定与热点词组对应的每个热点话题、判断所有当前热点话题是否有新的热点词组加入及/或判断是否有新的热点话题产生。6.如权利要求1所述的热点话题搜索系统,其特征在于,还包括: 热点话题代表文档选取及热度计算模块,用于根据所述每个热点话题的热点词组,计算所述下载的新闻文档与所述每个热点话题之间的相关程度,并统计出每个热点话题各时段的相关新闻文档及/或每个热点话题各时段相关新闻文档的数量及/或每个热点话题的代表新闻文档及/或所有关联到每个热点话题的新闻文档id及/或关联信息。7.如权利要求6所述的热点话题搜索系统,其特征在于,所述热点话题代表文档选取及热度计算模块,还用于使用热点话题对应的每一个热点词组检索所有下载的新闻文档,得到所述热点话题对应的新闻文档集合,并统计所述新闻文档集合的文档总数得到所述热点话题的总体热度,并统计新闻文档集合中各新闻的发布时间,得到热点话题的总体时新度,综合热点话题的总体热度、总体时新度指标对所有热点话题进行排名,得到需要推荐的若干个热点话题,并按照新闻文档的发表时间将需要推荐的热点话题的新闻文档集合分成几段,每段选出排名最高的一篇新闻文档向用户进行推荐。8.如权利要求7所述的热点话题搜索系统,其特征在于,还包括话题展示数据库以及新闻文档相关话题对应关系数据库,所述话题展示数据库存储所述每个热点话题各时段相关新闻文档及/或每个热点话题各时段相关新闻文档数量及/或每个热点话题的代表新闻文...

【专利技术属性】
技术研发人员:李峰林子敬陈锡彬王炫聪樊扬胡熠熊展志沈剑平李翔黄斌强
申请(专利权)人:深圳市世纪光速信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1