【技术实现步骤摘要】
本专利技术属于信息
,涉及一种针对Twitter文本事件抽取的方法。
技术介绍
世界上每天都会发生大量不同社会事件,给日常生活与社会秩序带来利弊和程度不同的影响。其中,游行、静坐、罢工、罢课、罢市、“占领”之类的群体性抗议事件,往往会或大或小冲击社会稳定,有些甚至引发动荡、造成灾难性后果。以早几年爆发于北非和中东的“阿拉伯之春”运动为例,该事件引发了长达两年、横跨数国的动乱,使无数人流离失所、陷入困境,甚至卷入战争、失去生命,其后作用至今仍在中东、北非延续。正因为与人类生活息息相关,所以人们一直期待能及时感知、甚至预知将会发生的群体性抗议事件,以便趋利避害或者未雨绸缪,尽可能免于灾难性后果。但长期以来,由于社会系统极度复杂、事件爆发地域相对分散,因而若非置身当地,则通常只能依靠新闻媒体或口口相传来获取相关消息,如此不仅导致信号不全不准,而且往往滞后明显,及时感知群体性抗议事件非常困难,更谈不上提前预测预判。进入新世纪以后,随着各类社交网络的兴起与飞速普及,这种情况发生了巨大改观:全球各地的用户可以随时随地、随心随意地通过社交平台发布信息、分享自己的所听所见和所感所思。这样,单个的社交用户就起到了智能“社会传感器”的作用,而拥有大量不同用户的社交平台则构成了“社会传感网络”,可以为感知、甚至预知社会事件提供强有力的数据支撑。在众多社交平台中,微博平台Twitter的社会传感能力尤为突出,这主要由于:它具有轻载、易用、与移动互联网结合紧密、信息更新和扩散速度快、用户众多且位置分布等特点,人们用它实时记录和分享自己的见闻感思,由此构成了一个覆盖世界上所有 ...
【技术保护点】
一种针对Twitter文本事件抽取的方法,其特征在于,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,文本数据预处理:(1)数据去重处理,把内容基本或完全一致的推文进行去重处理;(2)文本预处理,首先是切句处理,将文本处理为句子级;然后对句子进行中文分词,以满足后续分析需要;步骤三,事件消息识别联合要素抽取,包括:基于触发词匹配的事件消息识别,使用事件触发词对已采集的去重数据进行过滤,得到目标结果;时间表达式识别,利用时间正则表达式以及自定义时间词库作为文本特征,对推文进行时间要素抽取,如果存在时间信息,则认为推文确实为事件推文,反之则认为是垃圾信息,不再提取其他要素;基于词库的地名实体识别,构建地名词典,并加入命名实体识别工具,从事件推文内容中抽取地名,从而得到事件的位置信息;基于词库的主体抽取,构建人物、团体词典,将这些词典加入命名实体识别工具,完成事件主体的抽取;活动主题抽取,根据活动主题要素完成事件抽取。
【技术特征摘要】
1.一种针对Twitter文本事件抽取的方法,其特征在于,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,文本数据预处理:(1)数据去重处理,把内容基本或完全一致的推文进行去重处理;(2)文本预处理,首先是切句处理,将文本处理为句子级;然后对句子进行中文分词,以满足后续分析需要;步骤三,事件消息识别联合要素抽取,包括:基于触发词匹配的事件消息识别,使用事件触发词对已采集的去重数据进行过滤,得到目标结果;时间表达式识别,利用时间正则表达式以及自定义时间词库作为文本特征,对推文进行时间要素抽取,如果存在时间信息,则认为推文确实为事件推文,反之则认为是垃圾信息,不再提取其他要素;基于词库的地名实体识别,构建地名词典,并加入命名实体识别工具,从事件推文内容中抽取地名,从而得到事件的位置信息;基于词库的主体抽取,构建人物、团体词典,将这些词典加入命名实体识别工具,完成事件主体的抽取;活动主题抽取,根据活动主题要素完成事件抽取。2.如权利要求1所述的针对Twitter文本事件抽取的方法,其特征在于:其中步骤一包括两种数据采集模式:1)基于关键词查询的推文采集,初始采集的过程主要基于关键词在Twitte...
【专利技术属性】
技术研发人员:郭利翔,张鑫,丁兆云,李沛,王晖,邓经升,乔凤才,程佳军,沈大勇,曹建平,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。