一种微博突发事件检测方法技术

技术编号:11374807 阅读:117 留言:0更新日期:2015-04-30 12:46
一种微博突发事件检测方法,包括步骤:降维处理:基于LSH算法对微博数据流中的词汇进行映射处理;创建B-Sketch模型:创建微博数据流中的B-Sketch数据;推测突发事件:根据B-Sketch数据计算微博数据流中的事件加速率a和事件中词的分布向量p,根据事件加速率a判断事件是否为突发事件。由于通过LSH算法将所有词汇映射到低维空间,降低了计算的复杂度,并基于B-Sketch模型推测隐含的突发事件,使得能够快速有效的实时处理微博数据流,及早地检测出突发事件。

【技术实现步骤摘要】
一种微博突发事件检测方法
本专利技术涉及自然语言处理、文本数据挖掘、突发事件检测
,具体涉及一种微博突发事件检测方法。
技术介绍
微博,即微博客(MicroBlog),是一种迷你型博客,可供用户写一段简短的文字(中文微博客平台一般为140个汉字)来描述日常生活或发布消息、评论时事并传递这些信息给好友或感兴趣的旁观者,发布方式可以是手机短信、即时通讯工具(IM)、邮件或网络。与即时通讯相比,用户可以指定发布的信息是公开还是只限于一个小网络内;与博客平台相比,用户的时间和精力投入更低,沟通速度更快,还有更高的更新频率。互联网的发展使得微博的发布和获取变得更方便快捷,这直接导致了如下两个问题:第一,微博的数量规模巨大,通过人工的方式阅读所有信息是不可行的。第二,有价值的话题通常具有突发性,但这些话题被淹没在众多普通话题之中,如何从海量数据中找出具有突发性的事件是需要迫切解决的问题。因此使用计算机来处理微博数据,并自动获得其中的突发事件是很有必要的。目前,基于微博的突发事件检测研究的很少,一般的研究是检测微博流中频率异常高的突发词,而后对突发词按照出现在同一微博中次数进行聚类来找到新事件,但是该方法还很难达到实用的地步。目前,针对微博突发事件的检测方法具有以下的局限性:1)一般都是离线模式,达不到在线实时处理的需求,处理的数据规模十分有限;2)不能及早地探测到突发事件,表现出突发事件发现的滞后性,往往实用性极低;3)对特征空间没有采取降维处理,往往会导致运行速度缓慢,耗费大量的内存空间。
技术实现思路
针对微博突发事件检测的局限性,本申请提供一种微博突发事件检测方法,包括步骤:降维处理:基于LSH算法对微博数据流中的词汇进行映射处理;创建B-Sketch模型:创建微博数据流中的B-Sketch数据;推测突发事件:根据B-Sketch数据,计算微博数据流中的事件加速率a和事件中词的分布向量p,根据事件加速率a判断事件是否为突发事件。依据上述实施例的微博突发事件检测方法,由于通过LSH算法将所有词汇映射到低维空间,降低了计算的复杂度,并基于B-Sketch模型推测隐含的突发事件,使得能够快速有效的实时处理微博数据流,及早地检测出突发事件。附图说明图1为本专利技术微博突发事件检测方法流程图。具体实施方式在本专利技术实施例中,提出一种微博突发事件检测方法,具体是,通过提出的B-Sketch模型作为突发事件推断的基础,并基于LSH算法降低计算的复杂度,使得本专利技术可以检测出更多突发事件,并且能够更加精确的定位突发事件真实的发生时间。本例的微博突发事件检测方法包括如下步骤,其流程图如图1所示。S1:去噪处理。微博数据流中具有各种各样的信息,包括很多关于日常生活的描述、感慨以及一些广告信息等,这些信息对突发事件的检测有很大的干扰作用,所以本步骤对微博数据流先进行去噪处理。具体的,通过筛选微博数据流中的停用词,并将该停用词删除。一般情况下,把一个已做分词处理的微博文本中的名词、形容词、动词称之为实词,而把那些虽然经常在文本中出现,但对文本处理没有多大意义的词称为虚词。本例的停用词表包含所有绝大部分的虚词和一部分经常在微博出现的,比如“转发”、“评论”、“详情”等实词,当然还包括所有的标点符号。对于这些停用词而言,因为它们对突发事件的检测没有太多帮助,甚至会影响探测的准确性,还造成了一定程度上的资源浪费,所以在实际应用系统中,将这些停用词都进行删除。另外,去噪处理还包括将微博文本中的广告以及个人心情描述进行删除。这部分主要考虑的是微博文本中的广告以及个人心情描述对突发事件检测也没有任何帮助,同样也会造成计算资源和存储资源的浪费。本例中,通过正则表达式的匹配将微博文本中的广告以及个人心情描述进行删除,具体的,从样本数据里面筛选出一些广告微博和个人心情的微博,人工提取了这些微博的常规模式生成正则表达式规则,从实际结果来看,这种方法既简单又能有效去除80%以上的噪音数据,效率较高。S2:降维处理。由于微博数据流中的词语数量巨大,可以很容易的达到几十万的量级,所以,为了避免词语的高维度灾难的问题发生,本例采用LSH(Locality-sensitivehashing)算法对微博数据流中的词汇进行映射处理,LSH算法是本领域技术人员所熟知的,不作赘述。针对微博数据流中词语出现高维度的问题,现有的解决方案是:取一段时间内的活跃单词,如最近15分钟,当一个突发词被触发了,就只需考虑最近词汇集中的单词。然而,由于,微博数据流中这样处理之后的词汇量还是很大,依然不能有效的解决这个问题。基于LSH算法,本例解决上述问题的方案为:将微博数据流中的词汇哈希映射到B(B<<N)个哈希桶中,并且将每一个桶中所有单词看做一个“词”,而不是保存所有的活跃词汇集,并采用COUNT-MIN算法估计概率最高的单词。因此B-Sketch中的词汇数量就变为O(B2),维度空间的数量级优化为O(B*K)。这个比原问题中的O(N2)和O(N*K)小很多,映射之后,将得到关于哈希桶的分布,而不是原有活跃单词的哈希分布,即通过哈希桶的概率得到单词的概率。为了解决这个问题,通过观察发现,LSH算法只需关心概率最高的单词,因为它能够表示突发事件,因此采用Count-Min算法。它可以维护数据流上的频繁项。然而,对于这两个问题,潜在的逻辑是一样的,如下:如果使用H哈希函数去映射每个单词,可能会发生这种情况,一个话题的两个高频词都落在了相同的哈希桶内,因为所有的哈希函数是非常小的,更重要的是,如果在一个哈希桶中仅有一个单词是显著的高频率,就可以使用这个哈希桶的频率去代替这个高频单词的频率。具体的工作流程如下:假设有H个哈希函数(H1,H2,...,HH),该H个哈希函数可以统一、独立地将单词映射到哈希桶[1,2,…,B]中。对于一个事件中,词的分布pk和每个哈希函数Hh,1≤h≤H,对于每个哈希函数,就可以估计哈希桶的分布。这时,使用Count-Min算法去估计单词i的概率为返回概率高的单词其中s为概率阈值,比如0.02。LSH算法还维护了活跃单词集,因此估计集合中的单词概率不是此表中所有单词的概率。根据估计哈希桶的分布,这个算法在估计每个单词的概率为的情况下,其估计误差不大于e/B。S3:创建B-Sketch模型。本例提出的一种B-Sketch模型的新数据结构,该B-Sketch模型能够及早的发现突发事件的发生。具体的,通过对比微博整体发帖数的规模和加速率,给定一个能尽早发现突发事件的指示器,以此来检测是否发生了突发事件。事件Tk的加速率表示为ak(t),它是λk(t)在时间t上的导数。但是,一个隐含的突发事件是无法直接从ak(t)观测得到的,需要通过观测数据流D(t)的几个特征变量来推测出ak(t)。一般情况下,所选择的检测加速的特征变量其数学表达式为:为了达到尽早发现以及事件的推断,本例在数据流D(t)构建了一种B-Sketch模型,该B-Sketch数据包括三个特征变量:S"、X"和Y",其中,S"(t)和X"(t)提供了某个事件突然飙升的指示器,Y"(t)维持着可能被探测到的突发事件中词语之间关系的关键信息,且以上的三个特征变量可以很容易计算和本文档来自技高网...
一种微博突发事件检测方法

【技术保护点】
一种微博突发事件检测方法,其特征在于,包括步骤:降维处理:基于LSH算法对微博数据流中的词汇进行映射处理;创建B‑Sketch模型:创建微博数据流中的B‑Sketch数据;推测突发事件:根据B‑Sketch数据,计算微博数据流中的事件加速率a和事件中词的分布向量p,根据所述事件加速率a判断所述事件是否为突发事件。

【技术特征摘要】
1.一种微博突发事件检测方法,其特征在于,包括步骤:降维处理:基于LSH算法对微博数据流中的词汇进行映射处理;创建B-Sketch模型:获取特征变量:微博数据流中的总微博数的加速率S"、微博数据流中的每个词在总词汇数的加速率X"和微博数据流中的每个词语的加速率Y";其中,所述S"的获取方式为:通过等式一:得到;所述X"的获取方式为:通过等式二:得到;所述Y"的获取方式为:通过等式三:得到;所述等式一、等式二和等式三中的K为微博数据流中的当前活跃事件的数目,ak(t)为微博数据流中的事件加速率,pk为事件中词的分布向量;推测突发事件:根据所述特征变量,计算微博数据流中的事件加速率ak(t)和事件中词的分布向量pk,根据所述事件加速率ak(t)判断所述事件是否为突发事件。2.如权利要求1所述的方法,其特征在于,所述计算微博数据流中的事件加速率ak(t)和事件中词的分布向量pk的具体步骤包括:构建目标函数f,f=wX·eX+wY·eY,其中,eX和eY分别为等式二和等式三的误差的平方和,wX和wY分别为等式二和等式三中待调节的权重;根据所述等式一、等式二和等式三将所述目标函数f最优化,计算出事件加速率ak(t)和分布向量pk。3.如权利要求2所述的方法,其特征在于,所述推测突发事件之前,还包括步骤:动态...

【专利技术属性】
技术研发人员:徐睿峰汪奕丁黄锦辉陆勤
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1