当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于文档词汇特征变化的突发事件检测方法技术

技术编号:9034073 阅读:157 留言:0更新日期:2013-08-15 00:54
一种基于文档词汇特征变化的突发事件检测方法。包括:利用计算机从新闻网站上的时政新闻报道中爬取指定时间段的新闻文章;对每一个文档进行预处理,包括汉语词切分和词性标注;留下内容词,过滤掉其它词;获取前面k年与目标文档相同时间段及前r天和后r天的新闻文档作为比较文档集;对比较文档集同样进行汉语切词和词性标注处理,保留内容词;从数据库中提取目标文档集中的所有线索词;对线索词集聚类,形成突发事件描述。利用本发明专利技术提供的技术方案,可以将事件空间还原到线索词空间,通过聚类的方法输出的线索词子集合,一个子集合对应着一个突发事件的描述。

【技术实现步骤摘要】

本专利技术提出了一种基于可比时间段文档集合中词汇特征变化的突发事件检测方法,通过分析可比时间段文档集合中词汇使用的不同,推断可能的新事件,特别是突发事件。本专利技术属于文本挖掘和信息检索领域。
技术介绍
网络信息化为人们传 递消息、表达观点、获取信息提供了非常方便的手段。网络已经成为了信息的海洋。如何充分利用网络信息资源,挖掘感兴趣的信息,追踪热点事件,已经成为人们非常关注的问题。突发事件是一种可能给社会的安宁带来冲击的事件,历来受到政府机构和相关企业部门的高度重视。在当今社会,网络成为事件报道和信息传播的主要途径。一旦出现突发事件,通常会有大量的跟进报道。从网上快速检测突发事件、跟踪事件的发展过程,对于政府决策和维护社会稳定有着重要的作用。由于事件的突然性和特殊性,相关报道在用词和语言的表达方面也会存在不同之处。本专利技术就是针对文档集合,通过分析用词规律的变化来检测可能的突发事件。
技术实现思路
为了便于说明,先约定下列概念:内容词:这里指名词、动词和形容词。线索词:也叫区分词,是能够用于检测突发事件、并表达事件内容的词语。突发线索词可以区分普通报道,特别是规律性的报道。在这里,突发线索词属于内容词。目标文档集:待挖掘的文档集合。目标文档集包含若干文档,每一文档对应于一篇网上时政新闻文章。比较文档集:用于同目标文档集作对比的文档集,通过对比来检测目标文档在用词方面的变化情况,以判断目标文档是否含有突发事件。一般使用目标文档之前若干年同一时间段的新闻文章作为比较文档集。突发事件:指目标文档集中与比较文档集差异较大的一组文档的集合共同表达的内容,可以由一组线索词来代表。在新闻文档集合中,发生在A年份但在之前若干年份同一时期没有发生的事件可以看成是突发事件。本专利技术的目的是提供一种简单的方法,在没有人工干预的情况下,容易检测目标文档集中所含的突发事件。本专利技术的原理是:利用某种度量方法计算目标文档集与比较文档集中差异明显的词,将它们作为突发线索词;再对线索词集进行聚类处理,然后将聚类结果映射到事件,从而找到目标文档集的突发事件。度量方法可以根据需要选择,例如选择TF-1DF方法,也可以是自己编写的其他方法。这里提到的TF-1DF方法是信息检索中一种经典的计算方法,其中,TF(t)表示词t在一个文档中出现的频率(Term Frequency), DF(t)表示词t在多少个文档中出现(Document Frequency), IDF(t)称为t的逆文档频率(Inverse DocumentFrequency),可以是DF(t)的倒数或其它变形的计算方法。如果词t在某个文档中出现得非常频繁,同时,很少在其它文档中出现,那么,这一个词就是差异明显的词,也度量了所在文档与其它文档的某种差异。在后面的实施部分将详细说明TF和IDF的计算方法。本专利技术的技术方案如下:(参图1),其特征是,包括如下步骤:步骤一:利用计算机从新闻网站(例如腾讯、新浪)上的时政新闻报道中爬取指定时间段(例如,某一天)的新闻文章,每一篇文章表示为一个文档,时间段内的全部文档构成目标文档集合;对每一个文档进行预处理,包括汉语词切分和词性标注;留下内容词,过滤掉其它词;把每一个目标文档及其处理结果存储到计算机的数据库中;步骤二:获取前面k年与目标文档相同时间段及前r天和后r天的新闻文档作为比较文档集;对比较文档集同样进行汉语切词和词性标注处理,保留内容词,将每一个对比文档及其处理结果存储在计算机的数据库中;这里的k值和r值可以根据需要设置;步骤三:从数据库中提取目标文档集中的所有线索词;步骤四:对线索词集聚类,形成突发事件描述。所述的突发事件检测方法,其特征是,所述步骤三,如下实现:S31:从数据库中获取 目标文档集、比较文档集的所有内容词以及词频;S32:用一定的信息衡量标准计算目标文档集合中的内容词与比较文档集中相同词的差异性;S33:根据一定的顺序排列,把排在前面的部分词语筛选出来,作为目标文档集的线索词。所述的突发事件检测方法,其特征是,所述步骤四,如下实现:S41:构建线索词之间的相关度矩阵;S42:在步骤S41构建的相关度矩阵基础上,对线索词集进行聚类处理,得到若干个子集合,每个子集合表示一个类,对应于一个事件;S43:将聚类后得到的所有类别排序,然后再输出排在前面的若干个类,表示若干个关发事件。所述的突发事件检测方法,其特征是,步骤一中,利用网络爬虫每天从指定新闻网站爬取新闻文档。所述的突发事件检测方法,其特征是,步骤S32中,使用TF-1DF值作为信息衡量标准,也可以使用自己编写的其它信息衡量标准方法。所述的突发事件检测方法,其特征是,步骤S33中,根据TF-1DF值降序进行排列。所述的突发事件检测方法,其特征是,步骤S41中,两个线索词之间的相关程度计算方法可以是各种有效的方法,如互信息或卡方值等;若有η个线索词,那么相关度矩阵就是ηΧη的矩阵,用V(nXn)表示;于是,V(i,j)便是线索词i与线索词j之间的相关度。所述的突发事件检测方法,其特征是,步骤S42中,聚类的方法为现有的典型算法,如层次聚类或基于图的聚类等,也可以是自己编写的其它聚类算法。所述的突发事件检测方法,其特征是,步骤S43中,按照词语集合在目标文档集中频次的大小降序,也可以是其它准则。利用本专利技术提供的技术方案,可以将事件空间还原到线索词空间,通过聚类的方法输出的线索词子集合,一个子集合对应着一个突发事件的描述。附图说明图1是本专利技术所述方法流程示意2是突发事件获取示例具体实施例方式下面通过实例对本专利技术做进一步的说明,但是需要注意的是,给出实例的目的在于帮助进一步理解本专利技术,但是本领域的技术人员可以理解:在不脱离本专利技术及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本专利技术不应局限于实例所公开的内容,本专利技术要求保护的范围以权利要求书界定的范围为准。假定本例中,目标文档集为2008年5月的新闻文档集合(如,从腾讯网上获取的时政新闻),比较文档集为2000年到2007年所有5月的新闻文档的集合。那么需要检测的突发事件是发生在2008年5月同时又不是每个5月周期性发生的事件。这里特别需要说明的是,在实际分析突发事件时,一般以一天的新闻文档集作为目标文档集,比较文档集可以选取前后一定时间窗口的文档。例如,若要分析2008年5月12日的突发事件,在选择比较文档集合时,可以选择从5月12日前!■天(如前面10天)到后r天的文档集合。首先需要获得词的信息,这里采用带词性信息的词作为文档中词的信息。比如,有一个词是“地震”,对应的词性是名词(表示为“NN”),那么用“地震#NN”代表这个特定的词。只考虑文档中的内容词。 衡量差异性的标准可以选择现有的标准,也可以选择自定义的标准。这里采用TF-1DF值作为标准。TF-1DF的主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词具有很好的类别区分能力。本专利技术将具有区分能力的词作为目标文档的突发线索词。在计算TF的时候,将目标文档集合看成一个单独的目标文档(一般以I天为I个集合单元)。不妨设其中的内容词出现的总次数为N,内容词t出现的次数为n,则词t在目标文档集中的频率为:丁丨.:(本文档来自技高网...

【技术保护点】
一种基于文档词汇特征变化的突发事件检测方法,其特征是,包括如下步骤:步骤一:利用计算机从新闻网站上的时政新闻报道中爬取指定时间段的新闻文章,每一篇文章表示为一个文档,时间段内的全部文档构成目标文档集合;对每一个文档进行预处理,包括汉语词切分和词性标注;留下内容词,过滤掉其它词;把每一个目标文档及其处理结果存储到计算机的数据库中;步骤二:获取前面k年与目标文档相同时间段及前r天和后r天的新闻文档作为比较文档集;对比较文档集同样进行汉语切词和词性标注处理,保留内容词,将每一个对比文档及其处理结果存储在计算机的数据库中;步骤三:从数据库中提取目标文档集中的所有线索词;步骤四:对线索词集聚类,形成突发事件描述。

【技术特征摘要】

【专利技术属性】
技术研发人员:王厚峰张龙凯
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1