An embodiment of the present invention discloses a hot spot data processing method and its device. The method comprises the following steps: obtaining the current original data set stored by a plurality of data stations within the first preset time period, determining the data mark information of the hot data based on the current original data set, which contains the data label information. The result of the word segmentation processing of the hot data, the key field and the data label information of the content set in the result of the word segmentation processing; obtaining the first original data associated with the data label information in the current original data set; obtaining the hot data selected in the first original data and the hot spot on the hot spot. The data is output. Using the invention, the data of multiple data stations can be aggregated and hot data can be generated automatically to improve the diversity of hot spot data and improve the efficiency of hot data generation.
【技术实现步骤摘要】
一种热点数据处理方法及其设备
本专利技术涉及互联网
,尤其涉及一种热点数据处理方法及其设备。
技术介绍
随着互联网技术不断的开发和完善,各种热点数据(例如:新闻、话题、事件等)可以通过互联网进行传播,用户通过手机和平板电脑等终端即可浏览热点数据,在现有的对热点数据进行整合的过程中,往往需要人工进行整合,包括标题确定、内容结合、观点概述等,整合时间过长,影响了热点数据的生成效率,同时由于人工所能获取的数据来源有限,使得热点数据的数据内容过于单一。
技术实现思路
本专利技术实施例提供一种热点数据处理方法及其设备,可以实现对多个数据站点的同一数据标签的数据进行聚合并自动生成热点数据,提升热点数据的多样性,提高热点数据的生成效率。本专利技术实施例第一方面提供了一种热点数据处理方法,可包括:获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息;在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据;获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出。本专利技术实施例第二方面提供了一种热点数据处理设备,可包括:信息确定单元,用于获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息;第一数据获取单元,用于在所述当前原始数据集合中获取与所述数 ...
【技术保护点】
1.一种热点数据处理方法,其特征在于,包括:获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息;在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据;获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出。
【技术特征摘要】
1.一种热点数据处理方法,其特征在于,包括:获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息;在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据;获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出。2.根据权利要求1所述的方法,其特征在于,所述获取多个数据站点在第一预设时间段内存储的当前原始数据集合,基于所述当前原始数据集合确定热点数据的数据标签信息,包括:获取多个数据站点在第一预设时间段内存储的当前原始数据集合,并记录所述当前原始数据集合中各当前原始数据间的关联关系;对所述各当前原始数据进行预处理,所述预处理包括分词处理和分类处理;分别提取预处理后的所述各当前原始数据的数据标题,并在所述各当前原始数据的数据标题中确定热点数据的数据标题;根据所述热点数据的数据标题获取包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息。3.根据权利要求2所述的方法,其特征在于,所述分别提取预处理后的所述各当前原始数据的数据标题,并在所述各当前原始数据的数据标题中确定热点数据的数据标题,包括:分别提取预处理后的所述各当前原始数据的数据标题;采用预设过滤规则对所述各当前原始数据的数据标题进行过滤处理,以获取至少一个数据标题;分别计算所述至少一个数据标题中各数据标题对应的热度信息;根据所述各数据标题对应的热度信息确定热点数据的数据标题。4.根据权利要求3所述的方法,其特征在于,所述预设过滤规则包括:过滤分类处理结果属于预设类别的第一数据标题;和,过滤分词处理结果属于预设词性搭配的第二数据标题;和,过滤数据标题长度小于预设长度阈值的第三标题数据;和,过滤属于预设标题的第四标题数据;中的至少一种。5.根据权利要求2所述的方法,其特征在于,所述在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据,包括:基于所述各当前原始数据间的关联关系,在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据。6.根据权利要求2所述的方法,其特征在于,所述获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出之前,还包括:在预先存储的历史原始数据集合中获取与所述数据标签信息匹配相似度大于预设相似度阈值的第二原始数据;其中,所述历史原始数据集合为历史获取的所述多个数据站点在第二预设时间段内除所述第一预设时间段所存储的数据集合。7.根据权利要求6所述的方法,其特征在于,所述获取在所述第一原始数据中筛选的热点数据,并对所述热点数据进行输出,包括:获取在所述第一原始数据和所述第二原始数据中筛选的热点数据;采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理,并对延展调整处理...
【专利技术属性】
技术研发人员:孙钟前,李宏杰,唐柯,尹光宗,陈杨,吕远方,韩耀庆,林孟光,方圆,霍然,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。