一种基于推特的事件检测方法技术

技术编号:17097574 阅读:40 留言:0更新日期:2018-01-21 09:28
本发明专利技术公开一种基于推特的事件检测方法,针对目前新闻线索获取存在的实时性问题,本申请首先采用自然语言处理技术对推文进行预处理;然后基于短文本相似度对推文进行在线聚类;接着利用每个推文类中推文的特征对推文簇的事件属性做初步判断;最后利用已有的推文事件库判断检测的事件是否为第一事件,防止事件重复输出;本申请方法计算复杂度较低,可以用于大规模流式数据中的突发热点事件的检测;有助于更快、更准确的从社交媒体上获取有价值的信息,可以直接或间接的产生经济效益。

A tweet based event detection method

The invention discloses a twitter event detection method based on the real-time problem of the current news clues to get there, the first application using Natural Language Processing technology to preprocess the tweets; then short text similarity to online clustering of tweets based on the characteristics of each use; and then push the genre of twitter tweets cluster event attributes do the preliminary judging; finally the tweets to determine whether the detected event base event as the first event of the event to prevent duplicate output; the application method has low computational complexity, can be used for the detection of large-scale flow data in emergency events; contribute to faster and more accurate from social media to obtain valuable information, can directly or indirectly produce economic benefits.

【技术实现步骤摘要】
一种基于推特的事件检测方法
本专利技术属于数据挖掘领域,特别涉及一种基于推特的数据挖掘技术。
技术介绍
随着web2.0时代的到来,互联网用户越来越主动的获取网络内容并参与到内容的创建,其中的一种重要的形式就是基于社交媒体。社交媒体顾名思义是用于社交的,随着社交用户的增长,其内部逐渐形成了一张或重合的多张社交网络,社交信息可以沿着该网络在用户之间传播。一般说来,社交媒体用户可以直接获取他所关注用户所发的社交信息,用图论观点来说就是能够从邻接用户那里获取信息。虽然社交网络结构十分复杂,但根据六度分割理论,其直径不会太大,所以通过社交用户的转发,信息在社交网络上能够突破地域限制,得到迅速的传播。据统计,2016年全球社交媒体用户达到23.1亿,相当于全球总人口的31%,移动社交媒体用户达到19.7亿,占全球总人口的27%,并且用户年均增长率超过10%。通过社交网络,用户可以分享日常生活中的琐事,可以和朋友闲谈,可以分享周边发生的事情。基于以上的事实,通过对社交媒体信息的获取,人们可以最快的获取现实生活中所发生的事件。但是,由于社交媒体上大量充斥着用户私人消息以及广告等事件无关的信息,往往事件有关的社交信息极少。基于这样的社交信息数据,如何及时有效的检测出其中的热点事件是一个很困难的事情。近年来,大量基于推特等社交网络的事件检测方法被提出。根据需求的不同和使用的技术上的差异这些方法可以分为两大类,即特定事件检测和非特定事件检测。特定事件检测一般有先验信息,比如地震检测、运动新闻检测等,由于其主题明确,该类问题可以用分类的方法处理。非特定事件检测没有先验信息,可以检测出具有某些特征的事件,比如突发事件等,由于没有指定主题,该类问题一般是通过文本聚类的方法来解决,它可以适应变化,检测出新类型的事件。随着推特的流行,研究人员提出了大量基于推特的非特定事件检测方法。TwitterStand使用朴素贝叶斯分类器来过滤不相关推文,采用在线聚类方法根据TFIDF加权的推文词语向量的文本余弦相似度进行聚类,得到新闻类,检测突发新闻。通过hashtag和时间提升聚类准确性,提出了去噪和事件定位的方法。基于流模型的新事件检测方法,通过计算推文之间的余弦相似度来检测以前推文中从未出现过的新事件,并提出一个修改的局部敏感哈希(LSH)算法减少推文搜索数量来提升这个在线新事件检测方法的效率。基于构建单个词语的离散小波信号的事件检测方法,根据时间依赖变量DFIDF重构信号,通过滑动窗口来捕获时间上的变化,根据词语互相关过滤掉无关紧要的词,将剩余词聚类,使用图划分的方法划分子图,子图对应事件。随着推特等社交网络的日益流行,基于推特的数据挖掘逐渐成为一个热点方向。人们希望通过对社交网络的研究,获取有价值的信息。基于推特的事件检测方法可以实时从推特文本流中获取当前正在发生的各种事件,可以应用于突发热点新闻发现及追踪、实时决策、灾难预警等多种领域。传统的新闻机构一般通过人工获取新闻线索、发布新闻,这样虽然能保证新闻的质量,但是新闻的实时性会受到很大的影响。
技术实现思路
为解决上述技术问题,本申请提出了一种基于推特的事件检测方法,采用自然语言对推文进行预处理,然后基于短文本相似度对推文进行在线聚类,利用每个推文类中推文的特征对推文簇的事件属性做初步判断,最后利用已有的推文事件库判断检测的事件是否为第一事件,防止事件重复输出。本申请采用的技术方案为:一种基于推特的事件检测方法,包括:S1、对推文进行预处理,得到标准文本;S2、基于短文本相似度对步骤S1得到的标准文本进行在线聚类;S3、根据各个聚类得到的簇中推文的特征对该簇的事件属性进行初步判断;S4、通过与已知的推文事件库进行余弦相似度计算,输出事件。进一步地,步骤S1具体为:采用自然语言处理将推文转化为标准文本;具体处理包括:将推文中的每个语法单元切割开的分词处理,对每个单词标记词性的词性识别处理,判断单词所属于的实体类型的命名实体识别处理,去除由于单词语法变形导致的形式不一致的词形还原处理和词干提取处理。更进一步地,步骤S1之后还包括:过滤处理,去掉推文中的停止词。进一步地,步骤S2具体为:S21、将步骤S1得到的标准文本表示为向量形式,得到文本向量;S22、根据文本向量计算每条推文与各已知簇的类中心的余弦相似度;S23、若最大余弦相似度大于设定阈值,则将该条标准文本加入最大余弦相似度对应的簇;否则为该条标准文本创建一个新类。更进一步地,所述簇的类中心通过累加簇中每条标准推文的文本向量得到。进一步地,步骤S3所述推文的特征包括:推文到达时间间隔分布和类推文数量。更进一步地,步骤S3具体为:根据以下公式计算推文突发性得分,并按照从大到小对当前簇中的推文进行排序,然后根据用户指定的速率值截取前面的一部分作为突发事件;其中,Max表示推文到达时间间隔的最大值,Median表示推文到达时间间隔的中间值,Q1表示推文到达时间间隔的四分位数。进一步地,步骤S4具体为:S41、计算当前事件与已知事件库中每一个事件的余弦相似度;S42、若最大的余弦相似度小于预先设定的事件相似度阈值,则输出事件,并将该事件存入事件数据库中;否则丢弃该事件。本专利技术的有益效果:本专利技术的一种基于推特的事件检测方法,首先采用自然语言处理技术对推文进行预处理;然后基于短文本相似度对推文进行在线聚类;接着利用每个推文类中推文的特征对推文簇的事件属性做初步判断;最后利用已有的推文事件库判断检测的事件是否为第一事件,防止事件重复输出;本申请方法计算复杂度较低,可以用于大规模流式数据中的突发热点事件的检测;有助于更快、更准确的从社交媒体上获取有价值的信息,可以直接或间接的产生经济效益;具体包括以下优点:1、通过类推文到达时间间隔分布来提取类的突发特征,基于类推文平均速率判断事件的热门程度;提取的特征较少,计算量较低,特征对事件的解释性好;2、事件输出通过与事件库进行相似度计算,避免了处理复杂的类合并,以及合并过程中可能引入的噪声,同时,能较好地避免了相同事件的重复输出。附图说明图1为本申请的方案流程图;图2为在线聚类流程图;图3为基于事件库的判定流程图。具体实施方式为便于本领域技术人员理解本专利技术的
技术实现思路
,下面结合附图对本
技术实现思路
进一步阐释。如图1所示为本申请的方案流程图,本申请的技术方案为:一种基于推特的事件检测方法,包括:S1、对推文进行预处理,得到标准文本;S2、基于短文本相似度对步骤S1得到的标准文本进行在线聚类;S3、根据各个聚类得到的簇中推文的特征对该簇的事件属性进行初步判断;S4、通过与已知的推文事件库进行余弦相似度计算,输出事件。步骤S1具体为:预处理是为了规范化待处理的文本并将它转化为后面步骤可以处理的形式,本申请实施例中预处理采用自然语言处理技术实现。规范化主要用于推文等社交媒体短文本,与传统文本相比该类文本用语不规范、存在部分有意或者无意的拼写错误,还存在大量表情符号,推文长度限制导致用户习惯使用缩略词,口语化的交流环境使用户习惯使用口语词汇、俚语、网络用语等。推文的标准化多用正则表达式对文本中的符号、部分缩略词、hashtag和@进行快速的处理。自然语言处理技术为现有的已知技术,本申请在此作简要说明,具体处理包本文档来自技高网
...
一种基于推特的事件检测方法

【技术保护点】
一种基于推特的事件检测方法,其特征在于,包括:S1、对推文进行预处理,得到标准文本;S2、基于短文本相似度对步骤S1得到的标准文本进行在线聚类;S3、根据各个聚类得到的簇中推文的特征对该簇的事件属性进行初步判断;S4、通过与已知的推文事件库进行余弦相似度计算,输出事件。

【技术特征摘要】
1.一种基于推特的事件检测方法,其特征在于,包括:S1、对推文进行预处理,得到标准文本;S2、基于短文本相似度对步骤S1得到的标准文本进行在线聚类;S3、根据各个聚类得到的簇中推文的特征对该簇的事件属性进行初步判断;S4、通过与已知的推文事件库进行余弦相似度计算,输出事件。2.根据权利要求1所述的一种基于推特的事件检测方法,其特征在于,步骤S1具体为:采用自然语言处理将推文转化为标准文本;具体处理包括:将推文中的每个语法单元切割开的分词处理,对每个单词标记词性的词性识别处理,判断单词所属于的实体类型的命名实体识别处理,去除由于单词语法变形导致的形式不一致的词形还原处理和词干提取处理。3.根据权利要求2所述的一种基于推特的事件检测方法,其特征在于,步骤S1之后还包括:过滤处理,去掉推文中的停止词。4.根据权利要求1所述的一种基于推特的事件检测方法,其特征在于,步骤S2具体为:S21、将步骤S1得到的标准文本表示为向量形式,得到文本向量;S22、根据文本向量计算每条推文与各已知簇的类中心的余弦相似度;S23、若最大余弦相似度大于设定阈值,则将该条标准文本加入...

【专利技术属性】
技术研发人员:费高雷赵海林胡光岷
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1