一种热点数据处理方法及其设备技术

技术编号:18256475 阅读:55 留言:0更新日期:2018-06-20 08:16
本发明专利技术实施例公开一种热点数据处理方法及其设备,其中方法包括如下步骤:获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息;在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据;获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出。采用本发明专利技术,可以实现对多个数据站点的数据进行聚合并自动生成热点数据,提升热点数据的多样性,提高热点数据的生成效率。

A hot data processing method and its equipment

An embodiment of the present invention discloses a hot spot data processing method and its device. The method comprises the following steps: obtaining the current original data set stored by a plurality of data stations within the first preset time period, determining the data mark information of the hot data based on the current original data set, which contains the data label information. The result of the word segmentation processing of the hot data, the key field and the data label information of the content set in the result of the word segmentation processing; obtaining the first original data associated with the data label information in the current original data set; obtaining the hot data selected in the first original data and the hot spot on the hot spot. The data is output. Using the invention, the data of multiple data stations can be aggregated and hot data can be generated automatically to improve the diversity of hot spot data and improve the efficiency of hot data generation.

【技术实现步骤摘要】
一种热点数据处理方法及其设备
本专利技术涉及互联网
,尤其涉及一种热点数据处理方法及其设备。
技术介绍
随着互联网技术不断的开发和完善,各种热点数据(例如:新闻、话题、事件等)可以通过互联网进行传播,用户通过手机和平板电脑等终端即可浏览热点数据,在现有的对热点数据进行整合的过程中,往往需要人工进行整合,包括标题确定、内容结合、观点概述等,整合时间过长,影响了热点数据的生成效率,同时由于人工所能获取的数据来源有限,使得热点数据的数据内容过于单一。
技术实现思路
本专利技术实施例提供一种热点数据处理方法及其设备,可以实现对多个数据站点的同一数据标签的数据进行聚合并自动生成热点数据,提升热点数据的多样性,提高热点数据的生成效率。本专利技术实施例第一方面提供了一种热点数据处理方法,可包括:获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息;在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据;获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出。本专利技术实施例第二方面提供了一种热点数据处理设备,可包括:信息确定单元,用于获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息;第一数据获取单元,用于在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据;数据输出单元,用于获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出。在本专利技术实施例中,通过获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于该当前原始数据集合确定出热点数据的数据标签信息,并在当前原始数据集合中获取与数据标签信息关联的第一原始数据,再获取在第一原始数据中筛选的热点数据,最终对热点数据进行输出,实现了对多个数据站点的同一数据标签的数据进行聚合并自动生成热点数据的过程,提高了热点数据的生成效率,同时通过在多个数据站点自动获取预设时间段内的数据集合,增加了数据来源,进而提升了热点数据的多样性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种热点数据处理方法的流程示意图;图2是本专利技术实施例提供的另一种热点数据处理方法的流程示意图;图3是本专利技术实施例提供的一种热点数据处理的举例示意图;图4是本专利技术实施例提供的一种热点数据处理设备的结构示意图;图5是本专利技术实施例提供的另一种热点数据处理设备的结构示意图;图6是本专利技术实施例提供的信息确定单元的结构示意图;图7是本专利技术实施例提供的数据输出单元的结构示意图;图8是本专利技术实施例提供的又一种热点数据处理设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的热点数据处理方法可以应用于承载新闻、话题、事件等热点数据的终端媒体应用对热点数据进行筛选的场景,例如:热点数据处理设备获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息,所述热点数据处理设备在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据,所述热点数据处理设备获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出的场景等。实现了对多个数据站点的同一数据标签的数据进行聚合并自动生成热点数据的过程,提高了热点数据的生成效率,同时通过在多个数据站点自动获取预设时间段内的数据集合,增加了数据来源,进而提升了热点数据的多样性。本专利技术实施例涉及的热点数据处理设备可以为用于支持终端媒体应用的后台服务设备;所述终端媒体应用为装载于用户终端中的用于加载并展示热点数据的终端应用;所述热点数据具体可以为在一定时间内被关注频率最高的数据,可以包括新闻、话题、事件等;所述用户终端可以包括平板电脑、个人计算机(PC)、智能手机、掌上电脑以及移动互联网设备(MID)等终端设备;所述数据站点为采集并发布各用户所输入的原始数据的后台服务设备。下面将结合附图1和附图2,对本专利技术实施例提供的热点数据处理方法进行详细介绍。请参见图1,为本专利技术实施例提供了一种热点数据处理方法的流程示意图。如图1所示,本专利技术实施例的所述方法可以包括以下步骤S101-步骤S103。S101,获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息;具体的,热点数据处理设备可以基于多个数据站点在第一预设时间段内存储的当前原始数据集合,确定热点数据的数据标签信息,所述数据站点可以包括新闻数据站点、交互信息发布平台站点、多媒体数据站点等,所述热点数据处理设备可以分别获取多个数据站点中各数据站点在第一预设时间内存储的当前原始数据,并汇总为当前原始数据集合,优选的,针对所述新闻数据站点,可以通过部署分布式爬虫系统实时抓取新闻站点数据;针对交互信息发布平台站点,可以通过站点提供的公共应用程序编程接口(ApplicationProgrammingInterface,API)获取交互站点数据;针对多媒体数据站点,可以通过站点合作的方式获取多媒体站点数据,所述第一预设时间具体可以由开发人员根据经验值进行设定,以保证可以实时获取最新的热点数据,例如:获取1小时内的当前原始数据集合等。所述数据标签信息为用于代表所述热点数据的关键信息,可以包括所述热点数据的分词处理结果、关键字段以及内容集合等。优选的,所述热点数据处理设备还可以对所述当前原始数据集合中各当前原始数据进行结构化处理,例如:获取的某个交互站点数据包括编辑的文本数据、关联的新闻站点数据以及关联的多媒体站点数据等,所述热点数据处理设备可以记录各当前原始数据间的关联关系。S102,在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据;具体的,所述热点数据处理设备可以在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据,优选的,可以根据结构化处理后的各当前原始数据间的关联关系获取与所述数据标签信息相关联的第一原始数据。S103,获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出;具体的,所述热点数据处理设备可以获取开发人员在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出,优选的,所述热点数据处理设备可以采用预设格式对所述热点数据进行封装并进行输出显示。在本本文档来自技高网...
一种热点数据处理方法及其设备

【技术保护点】
1.一种热点数据处理方法,其特征在于,包括:获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息;在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据;获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出。

【技术特征摘要】
1.一种热点数据处理方法,其特征在于,包括:获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息;在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据;获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出。2.根据权利要求1所述的方法,其特征在于,所述获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,包括:获取多个数据站点在第一预设时间段内存储的当前原始数据集合,并记录所述当前原始数据集合中各当前原始数据间的关联关系;对所述各当前原始数据进行预处理,所述预处理包括分词处理和分类处理;分别提取预处理后的所述各当前原始数据的数据标题,并在所述各当前原始数据的数据标题中确定热点数据的数据标题;根据所述热点数据的数据标题获取包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息。3.根据权利要求2所述的方法,其特征在于,所述分别提取预处理后的所述各当前原始数据的数据标题,并在所述各当前原始数据的数据标题中确定热点数据的数据标题,包括:分别提取预处理后的所述各当前原始数据的数据标题;采用预设过滤规则对所述各当前原始数据的数据标题进行过滤处理,以获取至少一个数据标题;分别计算所述至少一个数据标题中各数据标题对应的热度信息;根据所述各数据标题对应的热度信息确定热点数据的数据标题。4.根据权利要求3所述的方法,其特征在于,所述预设过滤规则包括:过滤分类处理结果属于预设类别的第一数据标题;和,过滤分词处理结果属于预设词性搭配的第二数据标题;和,过滤数据标题长度小于预设长度阈值的第三标题数据;和,过滤属于预设标题的第四标题数据;中的至少一种。5.根据权利要求2所述的方法,其特征在于,所述在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据,包括:基于所述各当前原始数据间的关联关系,在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据。6.根据权利要求2所述的方法,其特征在于,所述获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出之前,还包括:在预先存储的历史原始数据集合中获取与所述数据标签信息匹配相似度大于预设相似度阈值的第二原始数据;其中,所述历史原始数据集合为历史获取的所述多个数据站点在第二预设时间段内除所述第一预设时间段所存储的数据集合。7.根据权利要求6所述的方法,其特征在于,所述获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出,包括:获取在所述第一原始数据和所述第二原始数据中筛选的热点数据;采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理,并对延展调整处理...

【专利技术属性】
技术研发人员:孙钟前李宏杰唐柯尹光宗陈杨吕远方韩耀庆林孟光方圆霍然
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1