【技术实现步骤摘要】
本专利技术涉及网络数据挖掘领域,特别涉及一种基于网络事件模型的新闻事件检测 方法和装置。
技术介绍
新闻事件检测是网络舆情分析处理的一个重要部分。新闻是指网络上各个新闻门 户给出的一篇新闻报道、分析、文章等,是网络新闻舆情的一个重要的载体,而事件是指一 系列报道相同事物的新闻的集合。 在对新闻事件检测的数据挖掘任务中,常常采用无监督学习的方法来确定一堆新 闻数据中的事件关系,即哪些新闻构成一个事件集合。当新闻能以事件的形式展现的时候, 使舆情监测的任务得到极大的简化,毕竟用户是为了了解某一个事件的相关信息而查找和 阅读相关的新闻报道。经过新闻事件检测分析之后,新闻以各个事件集合的形式呈现给用 户,用户只需要关注自己感兴趣的事件,即可高效、聚焦、全面地获取到自己希望获得的信 息。 其中,传统的新闻事件检测方法,是基于比较两篇新闻文本相似度来实现的,然 而,在面对网络上每天成千上万的新闻流数据,传统方法的处理速度在新闻流数据流很大 时难以得到实时的分析结果,并且准确性也不高,这两点对于网络舆情监测来说是极大的 缺陷。
技术实现思路
本专利技术旨在至少在 ...
【技术保护点】
一种基于网络事件模型的新闻事件检测方法,其特征在于,包括以下步骤:实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息,其中,所述网页文本信息包括所述新闻的标题信息和所述新闻的文本内容信息,L、M均为正整数;对第i个新闻的网页文本信息进行分析,提取所述第i个新闻的第一特征信息,其中,i为正整数,且1≤i≤M;根据所述第i个新闻的第一特征信息计算所述第i个新闻与N个预先建立的事件簇的N个相似度值,其中,N为正整数;以及根据所述N个相似度值检测所述第i个新闻是否属于所述N个预先建立的事件簇。
【技术特征摘要】
【专利技术属性】
技术研发人员:黄永峰,刘佳伟,吴方照,袁志刚,吴思行,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。