一种多粒度实时热点聚合方法技术

技术编号:15691012 阅读:137 留言:0更新日期:2017-06-24 03:52
本发明专利技术提供一种多粒度实时热点聚合方法,包括:对输入的流式数据进行数据清洗处理,并将处理后的流式数据表示为结构化数据;对第一预设时间片内的结构化数据进行分词,并计算各分词在所有结构化数据中的权重;根据各分词的权重计算当前时间片内各事件的权重;对事件进行聚合,并根据各事件的权重计算聚合后的每个事件簇的权重;根据各事件簇的权重生成排序后的事件列表。本发明专利技术提供的技术方案,提升了最终事件显示结果的粒度、事件的完整性和准确性,方便了用户快速准确地获取热点信息。

Multi granularity real-time hot spot polymerization method

The invention provides a multi granularity real-time hot polymerization method, including: data stream of input data cleaning processing, and the processed data stream for structured data; for the first time in the pre structured data segmentation, and calculate the segmentation in all structured data in weight; weight calculation the current time slice of each event according to the weight of each word; the event aggregation, and calculate the weight of each event after polymerization according to the weight of each cluster events; according to the weight sorting of the cluster after the event generated event list. The technical proposal provided by the invention improves the granularity of the final event display result, the integrity and accuracy of the event, and facilitates the quick and accurate acquisition of the hotspot information by the user.

【技术实现步骤摘要】
一种多粒度实时热点聚合方法
本专利技术涉及信息检索技术,尤其涉及一种多粒度实时热点聚合方法。
技术介绍
互联网每时每刻都会产生的大量信息,其中有价值、信息量高的信息可视为热点信息,传统的新闻媒体通过人工对这些热点信息进行编辑与发布进而形成新闻,以便于人们及时了解实时信息,把握新鲜资讯。这种通过人工形成新闻的方式,能够保证新闻的准确性,但需要耗费大量时间,在一定意义上牺牲了新闻的实时性与客观性。而伴随着现代人工智能及自然语言处理技术的发展与兴起,大量处理流式信息文本数据的非人工热点事件检测系统被开发,由机器代替人工,此类系统能够在微博、博客、网页等多源异构海量文本数据中快速发现文本结构异常,进而通过表示学习模型抽取事件表示,形成事件,因此拥有较高的时效性、客观性与准确性。其中一些已经被实现的系统中应用机器学习、深度学习等方法,获得了较为良好的效果。但由于此类非人工热点事件检测技术仍处于初始应用阶段,很多真实世界中的情况无法预先考虑进来,诸如事件表示类似、同事件不同阶段等情况,会造成时间显示的冗余,影响用户快速准确地获取相关时间段内的热点信息;此外,事件表示不清、事件含义模糊等情况的出现也会影响用户获取热点信息的准确性。
技术实现思路
本专利技术提供一种多粒度实时热点聚合方法,用于方便用户快速准确地获取热点信息。本专利技术提供一种多粒度实时热点聚合方法,包括:对输入的流式数据进行数据清洗处理,并将处理后的流式数据表示为结构化数据;对第一预设时间片内的结构化数据进行分词,并计算各分词在所有结构化数据中的权重;根据各分词的权重计算当前时间片内各事件的权重,当前时间片位于第一预设时间片内,事件与结构化数据一一对应;对事件进行聚合,并根据各事件的权重计算聚合后的每个事件簇的权重;根据各事件簇的权重生成排序后的事件列表。在本专利技术的一实施例中,结构化数据的属性包括标题和下列属性中的至少一项:时间、地点、人物、关键词、事件类型、情绪;上述方法还包括:根据各分词的权重计算当前时间片内结构化数据的各属性的权重,并根据结构化数据的各属性的权重基于各属性生成排序后的属性列表。在本专利技术的一实施例中,对事件进行聚合具体包括:根据各事件对应的结构化数据的标题间的文本编辑距离、各属性的语义相似度和各事件的时间轴分布对事件进行聚合。在本专利技术的一实施例中,在根据各分词的权重计算当前时间片内各事件的权重之前,该方法还包括:对第一预设时间片内的结构化数据进行词性标注;对各分词进行词性过滤。在本专利技术的一实施例中,在根据各分词的权重计算当前时间片内的事件的权重之前,该方法还包括:计算各分词的语义相似度,对语义相似度大于第一预设阈值的分词进行合并操作,并根据各分词的权重和词性计算合并后的各分词的权重;则根据各分词的权重计算当前时间片内各事件的权重,具体包括:根据合并后的各分词的权重计算当前时间片内各事件的权重。在本专利技术的一实施例中,在根据合并后的各分词的权重计算当前时间片内各事件的权重之前,该方法还包括:删除权重小于第二预设阈值的分词。在本专利技术的一实施例中,在对事件进行聚合之前,该方法还包括:根据历史时间片内的事件对当前时间片内的事件的影响力补偿当前时间片内的事件的权重。在本专利技术的一实施例中,在对事件进行聚合之前,该方法还包括:对当前时间片内的突发事件的权重进行补偿;突发事件为第二预设时间片内首次出现,且权重大于第三预设阈值的事件,第二预设时间片位于第一预设时间片内,当前时间片位于第二预设时间片内。在本专利技术的一实施例中,根据各分词的权重和词性计算合并后的各分词的权重,具体包括:根据公式(1)计算各分词在结构化数据中的权重;其中,wordi表示第i个分词,wordj表示第j个分词,表示wordi的权重;表示wordi的词频,表示第i个分词的逆词频,表示wordj的词频,表示wordj的逆词频;表示wordi的来源属性对应的权重,表示wordi的词性对应的权重,表示wordj的来源属性对应的权重,表示wordj的词性对应的权重,numbersimilar表示与wordi的语义相似度大于第一预设阈值的分词的个数。在本专利技术的一实施例中,根据公式(2)计算历史时间片内的事件对当前时间片内的事件的影响力;其中,event_influenceresidual表示影响力值,hotscoreevent表示历史时间片内与当前分析事件相关的事件的权重,eventnow表示当前分析事件的发生时间,eventend表示历史时间片内与当前分析事件相关的事件的发生时间,weighttype表示事件类型对应的权重。本专利技术实施例提供的多粒度实时热点聚合方法,通过对处理后的事件进行聚合,将相同或相似的事件聚合在了一起,提升了最终事件显示结果的粒度,方便了用户快速准确地获取热点信息;通过对事件的数据补全操作,提高了事件的完整性和准确性,进而提高了用户获取热点信息的准确性。附图说明图1为本专利技术提供的多粒度实时热点聚合方法实施例一的流程示意图;图2为本专利技术提供的多粒度实时热点聚合方法实施例二的流程示意图;图3为本专利技术提供的多粒度实时热点聚合系统的结构示意图。具体实施方式下面结合附图,对本专利技术的实施例进行描述。图1为本专利技术提供的多粒度实时热点聚合方法实施例一的流程示意图,本实施例的执行主体可以是多粒度实时热点聚合系统,如图1所示,本实施例提供的方法包括以下步骤:S101、对输入的流式数据进行数据清洗处理,并将处理后的流式数据表示为结构化数据。具体的,可以采用分布式爬虫技术采集网络(例如:新浪微博、新浪新闻、网易新闻等)中的流式数据,这些流式数据包括事件、新闻等热点信息。将采集到流式数据输入系统后,可以首先根据设定的规则对这些数据进行数据清洗工作,以过滤广告数据,清洗垃圾数据;然后可以将其表示为格式统一、属性表明、时间对齐的结构化数据。另外,由于流式数据输入的来源不同、格式不同,此步骤可能会涉及包括多源异构处理、数据补全等操作在内的多种操作,此处不再详细说明。S102、对第一预设时间片内的结构化数据进行分词,并计算各分词在所有结构化数据中的权重。具体的,本实施例中,选取对一个比较长的时间段(即第一预设时间片)内的结构化数据作为语料库,对这些结构化数据通过分词工具(如:NLPIR汉语分词系统)进行分词;然后计算每个分词在语料库(即所有结构化数据)中的权重,具体可以采用TF-IDF(termfrequency–inversedocumentfrequency)法计算分词的权重。S103、根据各分词的权重计算当前时间片内各事件的权重。具体的,事件与结构化数据一一对应,本实施例中,采用谷歌的PageRank网页排名思想,根据各个分词的权重,计算各结构化数据对应的事件的权重。本实施例中,为了提高事件权重计算结果的准确性,在计算当前时间片内各事件的权重时,采用根据第一时间片内的结构化数据计算出的分词的权重。其中,当前时间片位于第一预设时间片内,即第一时间片的长度大于当前时间片的长度;具体的,当前时间片和第一预设时间片的长度可以根据实际需要设置,本实施例不做特别限定。S104、对事件进行聚合和数据补全操作,并根据各事件的权重计算聚合后的每个事件簇的权重。一个完整的事件往往会由诸多不同阶段的小事件组合而成,这些本文档来自技高网...
一种多粒度实时热点聚合方法

【技术保护点】
一种多粒度实时热点聚合方法,其特征在于,包括:对输入的流式数据进行数据清洗处理,并将处理后的流式数据表示为结构化数据;对第一预设时间片内的结构化数据进行分词,并计算各所述分词在所有结构化数据中的权重;根据各所述分词的权重计算当前时间片内各事件的权重,所述当前时间片位于所述第一预设时间片内,所述事件与所述结构化数据一一对应;对所述事件进行聚合,并根据各所述事件的权重计算聚合后的每个事件簇的权重;根据各所述事件簇的权重生成排序后的事件列表。

【技术特征摘要】
1.一种多粒度实时热点聚合方法,其特征在于,包括:对输入的流式数据进行数据清洗处理,并将处理后的流式数据表示为结构化数据;对第一预设时间片内的结构化数据进行分词,并计算各所述分词在所有结构化数据中的权重;根据各所述分词的权重计算当前时间片内各事件的权重,所述当前时间片位于所述第一预设时间片内,所述事件与所述结构化数据一一对应;对所述事件进行聚合,并根据各所述事件的权重计算聚合后的每个事件簇的权重;根据各所述事件簇的权重生成排序后的事件列表。2.根据权利要求1所述的方法,其特征在于,所述结构化数据的属性包括标题和下列属性中的至少一项:时间、地点、人物、关键词、事件类型、情绪;所述方法还包括:根据各所述分词的权重计算当前时间片内结构化数据的各属性的权重,并根据所述结构化数据的各属性的权重基于各属性生成排序后的属性列表。3.根据权利要求2所述的方法,其特征在于,所述对所述事件进行聚合具体包括:根据各所述事件对应的结构化数据的标题间的文本编辑距离、各属性的语义相似度和各事件的时间轴分布对所述事件进行聚合。4.根据权利要求1所述的方法,其特征在于,在所述根据各所述分词的权重计算当前时间片内各事件的权重之前,所述方法还包括:对第一预设时间片内的结构化数据进行词性标注;对各所述分词进行词性过滤。5.根据权利要求4所述的方法,其特征在于,在所述根据各所述分词的权重计算当前时间片内的事件的权重之前,所述方法还包括:计算各所述分词的语义相似度,对语义相似度大于第一预设阈值的分词进行合并操作,并根据各所述分词的权重和词性计算合并后的各分词的权重;则所述根据各所述分词的权重计算当前时间片内各事件的权重,具体包括:根据所述合并后的各分词的权重计算当前时间片内各事件的权重。6.根据权利要求5所述的方法,其特征在于,在所述根据所述合并后的各分词的权重计算当前时间片内各事件的权重之前,所述方法还包括:删除权重小于第二预设阈值的分词。7.根据权利要求1-6任一项所述的方法,其特征在于,在所述对所述事件进行聚合之前,所述方法还包括:根据历史时间片内的事件对当前时间片内的事件的影响力补偿当前时间片内的事件的权重。8.根据权利要求1...

【专利技术属性】
技术研发人员:李建欣李晨兰天张日崇彭浩
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1