The invention discloses a twitter event detection method based on the real-time problem of the current news clues to get there, the first application using Natural Language Processing technology to preprocess the tweets; then short text similarity to online clustering of tweets based on the characteristics of each use; and then push the genre of twitter tweets cluster event attributes do the preliminary judging; finally the tweets to determine whether the detected event base event as the first event of the event to prevent duplicate output; the application method has low computational complexity, can be used for the detection of large-scale flow data in emergency events; contribute to faster and more accurate from social media to obtain valuable information, can directly or indirectly produce economic benefits.
【技术实现步骤摘要】
一种基于推特的事件检测方法
本专利技术属于数据挖掘领域,特别涉及一种基于推特的数据挖掘技术。
技术介绍
随着web2.0时代的到来,互联网用户越来越主动的获取网络内容并参与到内容的创建,其中的一种重要的形式就是基于社交媒体。社交媒体顾名思义是用于社交的,随着社交用户的增长,其内部逐渐形成了一张或重合的多张社交网络,社交信息可以沿着该网络在用户之间传播。一般说来,社交媒体用户可以直接获取他所关注用户所发的社交信息,用图论观点来说就是能够从邻接用户那里获取信息。虽然社交网络结构十分复杂,但根据六度分割理论,其直径不会太大,所以通过社交用户的转发,信息在社交网络上能够突破地域限制,得到迅速的传播。据统计,2016年全球社交媒体用户达到23.1亿,相当于全球总人口的31%,移动社交媒体用户达到19.7亿,占全球总人口的27%,并且用户年均增长率超过10%。通过社交网络,用户可以分享日常生活中的琐事,可以和朋友闲谈,可以分享周边发生的事情。基于以上的事实,通过对社交媒体信息的获取,人们可以最快的获取现实生活中所发生的事件。但是,由于社交媒体上大量充斥着用户私人消息以及广告等事件无关的信息,往往事件有关的社交信息极少。基于这样的社交信息数据,如何及时有效的检测出其中的热点事件是一个很困难的事情。近年来,大量基于推特等社交网络的事件检测方法被提出。根据需求的不同和使用的技术上的差异这些方法可以分为两大类,即特定事件检测和非特定事件检测。特定事件检测一般有先验信息,比如地震检测、运动新闻检测等,由于其主题明确,该类问题可以用分类的方法处理。非特定事件检测没有先验信息,可以 ...
【技术保护点】
一种基于推特的事件检测方法,其特征在于,包括:S1、对推文进行预处理,得到标准文本;S2、基于短文本相似度对步骤S1得到的标准文本进行在线聚类;S3、根据各个聚类得到的簇中推文的特征对该簇的事件属性进行初步判断;S4、通过与已知的推文事件库进行余弦相似度计算,输出事件。
【技术特征摘要】
1.一种基于推特的事件检测方法,其特征在于,包括:S1、对推文进行预处理,得到标准文本;S2、基于短文本相似度对步骤S1得到的标准文本进行在线聚类;S3、根据各个聚类得到的簇中推文的特征对该簇的事件属性进行初步判断;S4、通过与已知的推文事件库进行余弦相似度计算,输出事件。2.根据权利要求1所述的一种基于推特的事件检测方法,其特征在于,步骤S1具体为:采用自然语言处理将推文转化为标准文本;具体处理包括:将推文中的每个语法单元切割开的分词处理,对每个单词标记词性的词性识别处理,判断单词所属于的实体类型的命名实体识别处理,去除由于单词语法变形导致的形式不一致的词形还原处理和词干提取处理。3.根据权利要求2所述的一种基于推特的事件检测方法,其特征在于,步骤S1之后还包括:过滤处理,去掉推文中的停止词。4.根据权利要求1所述的一种基于推特的事件检测方法,其特征在于,步骤S2具体为:S21、将步骤S1得到的标准文本表示为向量形式,得到文本向量;S22、根据文本向量计算每条推文与各已知簇的类中心的余弦相似度;S23、若最大余弦相似度大于设定阈值,则将该条标准文本加入...
【专利技术属性】
技术研发人员:费高雷,赵海林,胡光岷,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。