用于输出信息的方法和装置制造方法及图纸

技术编号:17655268 阅读:25 留言:0更新日期:2018-04-08 08:31
本申请公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:响应于接收到地名信息,获取与地名信息相关的资讯数据集合;获取位于预定区域内的用户使用的搜索信息集合以及搜索频次;确定每条资讯数据的资讯标题与搜索信息集合中的每条搜索信息的相似度大于预定相似度阈值的搜索信息作为该条资讯数据的相关搜索信息;将相关搜索信息聚类得到至少一个聚类簇和每个聚类簇的聚类中心;将每个聚类簇的聚类中心确定为当前事件信息,并将属于该聚类簇的各相关搜索信息的搜索频次之和确定为当前事件信息的当前热度,并输出当前事件信息和当前事件信息的当前热度。该实施方式能够提高识别出特定地理位置的热点事件的准确度和速度。

【技术实现步骤摘要】
用于输出信息的方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其用于输出信息的方法和装置。
技术介绍
现有的通用的分地域的热点资讯发现还没有成熟的技术方案,都是通过各个站点的子频道进行简单的爬取和罗列。按照传统的方法,往往是根据用户对资讯的阅读量、浏览量、评论量等数据来获取热点的资讯。对全网的资讯或者某些地域的资讯进行热点的预测和报道需要通过人工的方式收集大量的数据。并且通过人工主观判断热点资讯。
技术实现思路
本申请实施例提出了用于输出信息的方法和装置。第一方面,本申请实施例提供了一种用于输出信息的方法,包括:响应于接收到地名信息,获取与地名信息相关的资讯数据集合,其中,资讯数据集合中的资讯数据包括资讯标题;获取位于预定区域内的用户使用的搜索信息集合以及搜索信息集合中各条搜索信息对应的搜索频次;对于资讯数据集合中的每条资讯数据,确定该条资讯数据的资讯标题与搜索信息集合中的每条搜索信息的相似度,并确定相似度大于预定相似度阈值的搜索信息作为该条资讯数据的相关搜索信息;将资讯数据集合中的各条资讯数据的相关搜索信息进行第一次聚类,得到至少一个聚类簇和每个聚类簇的聚类中心;对于至少一个聚类簇中的每个聚类簇,将该聚类簇的聚类中心确定为当前事件信息,并将属于该聚类簇的各相关搜索信息的搜索频次之和确定为当前事件信息的当前热度,并输出当前事件信息和当前事件信息的当前热度。在一些实施例中,该方法还包括:获取至少一条历史事件信息及各历史事件信息的历史热度;将至少一个当前事件信息和至少一条历史事件信息进行第二次聚类,得到至少一个新聚类簇和每个新聚类簇的新聚类中心;对于至少一个新聚类簇中的每个新聚类簇,将该新聚类簇的新聚类中心确定为新事件信息,并将新事件信息的当前热度和历史热度之和确定为新热度,并输出该新事件信息和该新事件信息的新热度。在一些实施例中,确定相似度大于预定相似度阈值的搜索信息作为该条资讯数据的相关搜索信息,包括:从搜索信息集合中确定相似度大于预定相似度阈值并且文本长度小于预定长度阈值的至少一条候选搜索信息;按照搜索频次由大到小的顺序从至少一条候选搜索信息中选取预定数目的候选搜索信息作为该条资讯数据的相关搜索信息。在一些实施例中,获取与地名信息相关的资讯数据集合,包括:从预设的关键词映射表中查询地名信息对应的至少一条关键词,其中,关键词映射表用于表征地名信息和关键词的对应关系;获取与至少一条关键词匹配的资讯数据集合。在一些实施例中,获取与地名信息相关的资讯数据集合,包括:从位于地名信息所指示的地理区域中的网站获取资讯数据集合。在一些实施例中,资讯数据集合中的资讯数据还包括统一资源定位符、时间信息、资讯内容;以及在获取与地名信息相关的资讯数据集合之后,该方法还包括:对于资讯数据集合中的每条资讯数据,删除该条资讯数据中的资讯内容,并将该条资讯数据中的资讯标题、统一资源定位符和时间信息转换成预定格式的资讯数据;将资讯数据集合中各预定格式的资讯数据进行聚类合并。第二方面,本申请实施例提供了一种用于输出信息的装置,包括:地域信息获取单元,配置用于响应于接收到地名信息,获取与地名信息相关的资讯数据集合,其中,资讯数据集合中的资讯数据包括资讯标题;搜索信息获取单元,配置用于获取位于预定区域内的用户使用的搜索信息集合以及搜索信息集合中各条搜索信息对应的搜索频次;确定单元,配置用于对于资讯数据集合中的每条资讯数据,确定该条资讯数据的资讯标题与搜索信息集合中的每条搜索信息的相似度,并确定相似度大于预定相似度阈值的搜索信息作为该条资讯数据的相关搜索信息;聚类单元,配置用于将资讯数据集合中的各条资讯数据的相关搜索信息进行第一次聚类,得到至少一个聚类簇和每个聚类簇的聚类中心;输出单元,配置用于对于至少一个聚类簇中的每个聚类簇,将该聚类簇的聚类中心确定为当前事件信息,并将属于该聚类簇的各相关搜索信息的搜索频次之和确定为当前事件信息的当前热度,并输出当前事件信息和当前事件信息的当前热度。在一些实施例中,该装置还包括历史事件唤醒单元,配置用于:获取至少一条历史事件信息及各历史事件信息的历史热度;将至少一个当前事件信息和至少一条历史事件信息进行第二次聚类,得到至少一个新聚类簇和每个新聚类簇的新聚类中心;对于至少一个新聚类簇中的每个新聚类簇,将该新聚类簇的新聚类中心确定为新事件信息,并将新事件信息的当前热度和历史热度之和确定为新热度,并输出该新事件信息和该新事件信息的新热度。在一些实施例中,确定单元进一步用于:从搜索信息集合中确定相似度大于预定相似度阈值并且文本长度小于预定长度阈值的至少一条候选搜索信息;按照搜索频次由大到小的顺序从至少一条候选搜索信息中选取预定数目的候选搜索信息作为该条资讯数据的相关搜索信息。在一些实施例中,地域信息获取单元进一步用于:从预设的关键词映射表中查询地名信息对应的至少一条关键词,其中,关键词映射表用于表征地名信息和关键词的对应关系;获取与至少一条关键词匹配的资讯数据集合。在一些实施例中,地域信息获取单元进一步用于:从位于地名信息所指示的地理区域中的网站获取资讯数据集合。在一些实施例中,资讯数据集合中的资讯数据还包括统一资源定位符、时间信息、资讯内容;以及该装置还包括格式化单元,配置用于:在获取与地名信息相关的资讯数据集合之后,对于资讯数据集合中的每条资讯数据,删除该条资讯数据中的资讯内容,并将该条资讯数据中的资讯标题、统一资源定位符和时间信息转换成预定格式的资讯数据;将资讯数据集合中各预定格式的资讯数据进行聚类合并。第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。本申请实施例提供的用于输出信息的方法和装置,通过获取指定的地名相关资讯数据,并获取预定区域内用户搜索信息,根据搜索信息与资讯数据的相似度确定相关搜索信息,并通过聚类确定出相关搜索信息中的聚类中心作为当前的热点事件,并将该聚类簇的各相关搜索信息的搜索频次之和作为当前热点事件的热度。从而有效地利用了搜索信息和地域相关资讯数据,能够提高识别出特定地理位置的热点事件的准确度和速度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的用于输出信息的方法的一个实施例的流程图;图3是根据本申请的用于输出信息的方法的一个应用场景的示意图;图4是根据本申请的用于输出信息的方法的又一个实施例的流程图;图5是根据本申请的用于输出信息的装置的一个实施例的结构示意图;图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的本文档来自技高网...
用于输出信息的方法和装置

【技术保护点】
一种用于输出信息的方法,包括:响应于接收到地名信息,获取与所述地名信息相关的资讯数据集合,其中,所述资讯数据集合中的资讯数据包括资讯标题;获取位于预定区域内的用户使用的搜索信息集合以及所述搜索信息集合中各条搜索信息对应的搜索频次;对于所述资讯数据集合中的每条资讯数据,确定该条资讯数据的资讯标题与所述搜索信息集合中的每条搜索信息的相似度,并确定相似度大于预定相似度阈值的搜索信息作为该条资讯数据的相关搜索信息;将所述资讯数据集合中的各条资讯数据的相关搜索信息进行第一次聚类,得到至少一个聚类簇和每个聚类簇的聚类中心;对于所述至少一个聚类簇中的每个聚类簇,将该聚类簇的聚类中心确定为当前事件信息,并将属于该聚类簇的各相关搜索信息的搜索频次之和确定为所述当前事件信息的当前热度,并输出所述当前事件信息和所述当前事件信息的当前热度。

【技术特征摘要】
1.一种用于输出信息的方法,包括:响应于接收到地名信息,获取与所述地名信息相关的资讯数据集合,其中,所述资讯数据集合中的资讯数据包括资讯标题;获取位于预定区域内的用户使用的搜索信息集合以及所述搜索信息集合中各条搜索信息对应的搜索频次;对于所述资讯数据集合中的每条资讯数据,确定该条资讯数据的资讯标题与所述搜索信息集合中的每条搜索信息的相似度,并确定相似度大于预定相似度阈值的搜索信息作为该条资讯数据的相关搜索信息;将所述资讯数据集合中的各条资讯数据的相关搜索信息进行第一次聚类,得到至少一个聚类簇和每个聚类簇的聚类中心;对于所述至少一个聚类簇中的每个聚类簇,将该聚类簇的聚类中心确定为当前事件信息,并将属于该聚类簇的各相关搜索信息的搜索频次之和确定为所述当前事件信息的当前热度,并输出所述当前事件信息和所述当前事件信息的当前热度。2.根据权利要求1所述的方法,其中,所述方法还包括:获取至少一条历史事件信息及各历史事件信息的历史热度;将所述至少一个当前事件信息和所述至少一条历史事件信息进行第二次聚类,得到至少一个新聚类簇和每个新聚类簇的新聚类中心;对于所述至少一个新聚类簇中的每个新聚类簇,将该新聚类簇的新聚类中心确定为新事件信息,并将新事件信息的当前热度和历史热度之和确定为新热度,并输出该新事件信息和该新事件信息的新热度。3.根据权利要求1所述的方法,其中,所述确定相似度大于预定相似度阈值的搜索信息作为该条资讯数据的相关搜索信息,包括:从所述搜索信息集合中确定相似度大于预定相似度阈值并且文本长度小于预定长度阈值的至少一条候选搜索信息;按照搜索频次由大到小的顺序从所述至少一条候选搜索信息中选取预定数目的候选搜索信息作为该条资讯数据的相关搜索信息。4.根据权利要求1-3任一项所述的方法,其中,所述获取与所述地名信息相关的资讯数据集合,包括:从预设的关键词映射表中查询所述地名信息对应的至少一条关键词,其中,所述关键词映射表用于表征地名信息和关键词的对应关系;获取与所述至少一条关键词匹配的资讯数据集合。5.根据权利要求1-3任一项所述的方法,其中,所述获取与所述地名信息相关的资讯数据集合,包括:从位于所述地名信息所指示的地理区域中的网站获取资讯数据集合。6.根据权利要求1-3任一项所述的方法,其中,所述资讯数据集合中的资讯数据还包括统一资源定位符、时间信息、资讯内容;以及在所述获取与所述地名信息相关的资讯数据集合之后,所述方法还包括:对于所述资讯数据集合中的每条资讯数据,删除该条资讯数据中的资讯内容,并将该条资讯数据中的资讯标题、统一资源定位符和时间信息转换成预定格式的资讯数据;将所述资讯数据集合中各预定格式的资讯数据进行聚类合并。7.一种用于输出信息的装置,包括:地域信息获取单元,配置用于响应于接收到地名信息,获取与所述地名信息相关的资讯数据集合,其中,所述资讯数据集合中的资讯数据包括资讯标题;搜索信息获取单元,...

【专利技术属性】
技术研发人员:鄢胜利尹存祥雍倩韦庭黎爱坤王璐刘俐岑吴伟佳
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1