一种获取热点资讯的方法及装置制造方法及图纸

技术编号:11167370 阅读:50 留言:0更新日期:2015-03-19 00:59
本发明专利技术公开了一种获取热点资讯的方法及装置,方法包括:获取热点关键词集合;从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合;分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度;根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。本发明专利技术能实现通过计算机独立获取热点资讯,可节约成本,能提高获取热点资讯的速度。

【技术实现步骤摘要】
一种获取热点资讯的方法及装置
本专利技术涉及计算机应用
,具体涉及信息处理
,尤其涉及一种获 取热点资讯的方法及装置。
技术介绍
资讯网站的为了方便用户快速的进行最新的信息的浏览,往往都含有大量的最新 热点资讯的内容,例如浏览常见门户网站的主页面时,主页面会含热点导航栏,其包括了诸 如新闻、娱乐、汽车、军事、读书和博客等最新热点资讯的链接,用户可以通过点击感兴趣的 链接跳转到对应的资讯内容页面。随着互联网的蓬勃发展,互联网资讯更新更加频繁,每时 每刻都有热点人物和事件产生,如何在后台的海量资讯集合(如内容池)中,准确且快速地 获取到实时热点的相关资讯(又称热点资讯),并及时展现给用户,变得非常困难。 现有技术主要采用人工配置资讯的方式,对于实时热点关键词,通过大量的人工 手动挑选若干与之相关的资讯,展现给用户。 上述现有技术的方法存在如下问题:首先,由于实时热点更新频繁,所以人工配置 代价比较高;另外,配置过程相对缓慢,达不到及时将内容触达用户的速度性要求。
技术实现思路
有鉴于此,本专利技术实施例提供一种获取热点资讯的方法及装置,其可提高获取热 点资讯的速度。 本专利技术实施例提出了以下技术方案: 第一方面,本专利技术实施提供了一种获取热点资讯的方法,包括: 获取热点关键词集合; 从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合; 分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的 相关度; 根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选 到的候选资讯作为热点资讯。 第二方面,本专利技术实施例还提供了一种获取热点资讯的装置,包括: 热点关键词获取单元,用于获取热点关键词集合; 候选资讯提取单元,用于从包含资讯的资讯集合中提取预设时间窗口内的资讯作 为候选资讯集合; 相关度计算单元,用于分别计算所述热点关键词集合中的热点关键词与所述候选 资讯集合中的资讯的相关度; 热点资讯筛选单元,用于根据所述相关度从所述候选资讯集合中筛选满足预设条 件的候选资讯,将所筛选到的候选资讯作为热点资讯。 本专利技术实施例提出的获取热点资讯的方法及装置具有如下特点:通过获取热点关 键词集合,从资讯集合中将较新的资讯提取出来,分别计算获取的热点关键词集合中的热 点关键词与所提取的较新资讯的相关度,根据所述相关度从所提取的较新资讯中筛选满足 预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。本专利技术实施例提出的技术方 案能实现通过计算机独立获取热点资讯,可节约成本,能提高获取热点资讯的速度。 【附图说明】 为了更清楚地说明本专利技术实施例中的技术方案,下面将对本专利技术实施例描述中所 需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本专利技术实施 例的内容和这些附图获得其他的附图。 图1是本专利技术具体实施例一所述的获取热点资讯的方法流程图; 图2是本专利技术具体实施例二所述的获取热点资讯的方法流程图; 图3是本专利技术具体实施例三所述的获取热点资讯的装置的结构框图; 图4是本专利技术具体实施例四所述的获取热点资讯的装置的结构框图; 图5是本专利技术具体实施例所述的终端的结构示意图。 【具体实施方式】 为使本专利技术解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面 将结合附图对本专利技术实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅 是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在 没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。 本专利技术实施例的技术方案主要应用于提供资讯的网站为用户实时提供热点资讯, 需要说明的是,本实施例所述的热点资讯是指搜索指数和/或出现次数最高的,距离当前 时间的间隔小于预设时长的新闻网页。 下面结合附图并通过【具体实施方式】来进一步说明本专利技术的技术方案。 实施例一 图1是本实施例所述的获取热点资讯的方法流程图,本实施例主要以该获取热点 资讯的方法应用于能连接到互联网的终端中来举例说明,该终端可以包括个人计算机、月艮 务器、智能手机、平板电脑、膝上型便携计算机等等。如图1所示,本实施例所述的获取热点 资讯的方法包括: S101、获取热点关键词集合。 获取热点关键词集合的方法可有多种。例如,可从预先指定的网站(例如新浪、搜 狐等网站)获取热点关键词集合,也可从包含资讯的资讯集合(如内容池)中进行统计获得, 还可从虚拟社区(例如微博、论坛等)挖掘出有意义有价值的热点关键词。方法可包括: 方法一:从所述预先指定的网站的新闻页面中搜索关键词,对预设时间窗口(例如 距离当前时间24小时之内)的各关键词按照搜索指数进行统计,按出现次数进行排名,将排 名靠前的词句作为热点关键词。 方法二:通过大量运算,统计虚拟社区内容中各种热点关键词出现的频次等,根据 所述频次由高到低提取社区的热点关键词。 方法三:通过直接从预先指定的网站的热词页面中提取热点关键词(例如百度的 热点关键词页面)。 S102、从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合。 RSS (Really Simple Syndication,易信息聚合)订阅是站点用来和其他站点之间 共享内容的一种简易方式,例如,可通过对预先指定的主流网站(例如新浪、搜狐等网站)的 RSS源进行抓取并解析,得到资讯对应的统一资源定位符URL、标题、时间、正文、热度等,保 存到资讯集合中。 为了及时获取最新资讯,所述抓取并解析的步骤可为周期性的步骤,例如每2小 时抓取一次,并进行去重操作。 S103、分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资 讯的相关度。 热点关键词集合中的热点关键词的个数记为m,候选资讯集合中的资讯数目记为 η,分别计算m个热点关键词中各热点关键词与η个候选资讯集合中的各资讯之间的相关 度。例如,计算第i热点关键词与第j资讯的相关度的可采用如下方法: 将第i热点关键词拆分成至少一个热点关键字组合; 按照预设算法分别计算第j资讯与第i热点关键词所拆分的各热点关键字组合的 相关度; 将第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度相加作为第i 热点关键词与第j资讯的相关度; 所述i大于等于1小于等于m的整数,j大于等于1小于等于η的整数。 上述将第i热点关键词拆分成至少一个热点关键字组合的步骤优选为:将第i热 点关键词中每相邻的两个字作为热点关键字组合。例如热点关键词为吉林爆炸。这里将 其拆分为多个长度为2的热点关键字组合,依次为:吉林、林爆、爆炸。 S104、根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将 所筛选到的候选资讯作为热点资讯。 该步骤可根据热点资讯的展示需要,通过多种方式获取满足需求的热点资讯:例 如,可采用如下三种方式之一: 方法一:从所述候选资讯集合中提取分别本文档来自技高网...

【技术保护点】
一种获取热点资讯的方法,其特征在于,包括:获取热点关键词集合;从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合;分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度;根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯。

【技术特征摘要】
1. 一种获取热点资讯的方法,其特征在于,包括: 获取热点关键词集合; 从包含资讯的资讯集合中提取预设时间窗口内的资讯作为候选资讯集合; 分别计算所述热点关键词集合中的热点关键词与所述候选资讯集合中的资讯的相关 度; 根据所述相关度从所述候选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的 候选资讯作为热点资讯。2. 如权利要求1所述的获取热点资讯的方法,其特征在于,所述获取热点关键词集合 的步骤包括;从预先指定的网站获取热点关键词集合。3. 如权利要求1所述的获取热点资讯的方法,其特征在于,所述从包含资讯的资讯集 合中提取预设时间窗口内的资讯作为候选资讯集合的步骤之前还包括:对预先指定的资讯 网站的易信息聚合进行抓取并解析,获得资讯,将所获得的资讯保存到资讯集合中。4. 如权利要求3所述的获取热点资讯的方法,其特征在于,所述从预先指定的资讯网 站抓取并解析获得资讯的步骤具体为:对预先指定的资讯网站的易信息聚合周期性地进行 抓取并解析。5. 如权利要求1所述的获取热点资讯的方法,其特征在于,所述预设时间窗口的起始 时间为比当前时间小于预设时长的时间,所述预设时间窗口的终止时间为当前时间。6. 如权利要求1所述的获取热点资讯的方法,其特征在于,所述分别计算所述热点关 键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度的步骤中,计算第i热点 关键词与第j资讯的相关度的方法具体包括: 将第i热点关键词拆分成至少一个热点关键字组合; 按照预设算法分别计算第j资讯与第i热点关键词所拆分的各热点关键字组合的相关 度; 将第j资讯与第i热点关键词所拆分的各热点关键字组合的相关度相加作为第i热点 关键词与第j资讯的相关度; 所述i和j为不小于1的正整数。7. 如权利要求6所述的获取热点资讯的方法,其特征在于,所述将第i热点关键词拆分 成至少一个热点关键字组合的步骤具体包括;将第i热点关键词中每相邻的两个字作为热 点关键字组合。8. 如权利要求6所述的获取热点资讯的方法,其特征在于,所述分别计算所述热点关 键词集合中的热点关键词与所述候选资讯集合中的资讯的相关度的步骤中,计算热点关键 词与资讯的相关度的方法为: 成。巧化=艺:。化77%') * 公(。)/化純,)* 乂4劇)]; 其中,Q为热点关键词; D为资讯; Score怕,D)为热点关键词Q与资讯D的相关度; i为热点关键词中包含的热点关键字组合的序号; n为热点关键词中包含的热点关键字组合的数目; Qi为热点关键词Q的第i个热点关键字组合; TF hi)为热点关键字组合di的资讯D中的频率; H值)为资讯D的热度; DFhi)为热点关键字组合qi的文档频率; L0))为资讯D的内容长度; 入1、入2、入3和入4为预设系数。9. 如权利要求1所述的获取热点资讯的方法,其特征在于,根据所述相关度从所述候 选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯的步骤 具体包括: 从所述候选资讯集合中筛选分别与所获取的各热点关键词的相关度最高的资讯,将所 筛选到的候选资讯作为热点资讯。10. 如权利要求1所述的获取热点资讯的方法,其特征在于,根据所述相关度从所述候 选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯的步骤 具体包括: 从所述候选资讯集合中筛选分别与所获取的各热点关键词的相关度大于预设阔值的 资讯将所筛选到的候选资讯作为热点资讯。11. 如权利要求1所述的获取热点资讯的方法,其特征在于,根据所述相关度从所述候 选资讯集合中筛选满足预设条件的候选资讯,将所筛选到的候选资讯作为热点资讯的步骤 具体包括: 从所述候选资讯集合中提取分别与所获取的各热点关键词的相关度为排名前预设数 目个候选资讯作为热点资讯。12. 如权利要求1所述的获取热点资讯的...

【专利技术属性】
技术研发人员:蔡兵
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1