一种多粒度实时热点聚合方法技术

技术编号：15691012 阅读：165 留言：0更新日期：2017-06-24 03:52

本发明专利技术提供一种多粒度实时热点聚合方法，包括：对输入的流式数据进行数据清洗处理，并将处理后的流式数据表示为结构化数据；对第一预设时间片内的结构化数据进行分词，并计算各分词在所有结构化数据中的权重；根据各分词的权重计算当前时间片内各事件的权重；对事件进行聚合，并根据各事件的权重计算聚合后的每个事件簇的权重；根据各事件簇的权重生成排序后的事件列表。本发明专利技术提供的技术方案，提升了最终事件显示结果的粒度、事件的完整性和准确性，方便了用户快速准确地获取热点信息。

Multi granularity real-time hot spot polymerization method

The invention provides a multi granularity real-time hot polymerization method, including: data stream of input data cleaning processing, and the processed data stream for structured data; for the first time in the pre structured data segmentation, and calculate the segmentation in all structured data in weight; weight calculation the current time slice of each event according to the weight of each word; the event aggregation, and calculate the weight of each event after polymerization according to the weight of each cluster events; according to the weight sorting of the cluster after the event generated event list. The technical proposal provided by the invention improves the granularity of the final event display result, the integrity and accuracy of the event, and facilitates the quick and accurate acquisition of the hotspot information by the user.

全部详细技术资料下载

【技术实现步骤摘要】
一种多粒度实时热点聚合方法
本专利技术涉及信息检索技术，尤其涉及一种多粒度实时热点聚合方法。
技术介绍
互联网每时每刻都会产生的大量信息，其中有价值、信息量高的信息可视为热点信息，传统的新闻媒体通过人工对这些热点信息进行编辑与发布进而形成新闻，以便于人们及时了解实时信息，把握新鲜资讯。这种通过人工形成新闻的方式，能够保证新闻的准确性，但需要耗费大量时间，在一定意义上牺牲了新闻的实时性与客观性。而伴随着现代人工智能及自然语言处理技术的发展与兴起，大量处理流式信息文本数据的非人工热点事件检测系统被开发，由机器代替人工，此类系统能够在微博、博客、网页等多源异构海量文本数据中快速发现文本结构异常，进而通过表示学习模型抽取事件表示，形成事件，因此拥有较高的时效性、客观性与准确性。其中一些已经被实现的系统中应用机器学习、深度学习等方法，获得了较为良好的效果。但由于此类非人工热点事件检测技术仍处于初始应用阶段，很多真实世界中的情况无法预先考虑进来，诸如事件表示类似、同事件不同阶段等情况，会造成时间显示的冗余，影响用户快速准确地获取相关时间段内的热点信息；此外，事件表示不清、事件...
一种多粒度实时热点聚合方法

【技术保护点】
一种多粒度实时热点聚合方法，其特征在于，包括：对输入的流式数据进行数据清洗处理，并将处理后的流式数据表示为结构化数据；对第一预设时间片内的结构化数据进行分词，并计算各所述分词在所有结构化数据中的权重；根据各所述分词的权重计算当前时间片内各事件的权重，所述当前时间片位于所述第一预设时间片内，所述事件与所述结构化数据一一对应；对所述事件进行聚合，并根据各所述事件的权重计算聚合后的每个事件簇的权重；根据各所述事件簇的权重生成排序后的事件列表。

【技术特征摘要】
1.一种多粒度实时热点聚合方法，其特征在于，包括：对输入的流式数据进行数据清洗处理，并将处理后的流式数据表示为结构化数据；对第一预设时间片内的结构化数据进行分词，并计算各所述分词在所有结构化数据中的权重；根据各所述分词的权重计算当前时间片内各事件的权重，所述当前时间片位于所述第一预设时间片内，所述事件与所述结构化数据一一对应；对所述事件进行聚合，并根据各所述事件的权重计算聚合后的每个事件簇的权重；根据各所述事件簇的权重生成排序后的事件列表。2.根据权利要求1所述的方法，其特征在于，所述结构化数据的属性包括标题和下列属性中的至少一项：时间、地点、人物、关键词、事件类型、情绪；所述方法还包括：根据各所述分词的权重计算当前时间片内结构化数据的各属性的权重，并根据所述结构化数据的各属性的权重基于各属性生成排序后的属性列表。3.根据权利要求2所述的方法，其特征在于，所述对所述事件进行聚合具体包括：根据各所述事件对应的结构化数据的标题间的文本编辑距离、各属性的语义相似度和各事件的时间轴分布对所述事件进行聚合。4.根据权利要求1所述的方法，其特征在于，在所述根据各所述分词的权重计算当前时间片内各事件的权重之前，所述方法还包括：对第一预设时间片内的结构化数据进行词性标注；对各所述分词进行词性过滤。5.根据权利要求4所述的方法，其特征在于，在所述根据各所述分词的权重计算当前时间片内的事件的权重之前，所述方法还包括：计算各所述分词的语义相似度，对语义相似度大于第一预设阈值的分词进行合并操作，并根据各所述分词的权重和词性计算合并后的各分词的权重；则所述根据各所述分词的权重计算当前时间片内各事件的权重，具体包括：根据所述合并后的各分词的权重计算当前时间片内各事件的权重。6.根据权利要求5所述的方法，其特征在于，在所述根据所述合并后的各分词的权重计算当前时间片内各事件的权重之前，所述方法还包括：删除权重小于第二预设阈值的分词。7.根据权利要求1-6任一项所述的方法，其特征在于，在所述对所述事件进行聚合之前，所述方法还包括：根据历史时间片内的事件对当前时间片内的事件的影响力补偿当前时间片内的事件的权重。8.根据权利要求1...

【专利技术属性】
技术研发人员：李建欣，李晨，兰天，张日崇，彭浩，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人