一种针对Twitter文本事件抽取的方法技术

技术编号：13917645 阅读：99 留言：0更新日期：2016-10-27 16:00

本发明专利技术公开了一种针对Twitter文本事件抽取的方法，主要包括以下步骤：步骤一，从Twitter平台上采集推文数据，并存入数据库；步骤二，数据去重处理和文本预处理；步骤三，事件消息识别联合要素抽取，包括基于触发词匹配的事件消息识别、时间表达式识别、基于词库的地名实体识别、基于词库的主体抽取、活动主题抽取。本发明专利技术利用基于规则的事件要素抽取的方法，针对每一个事件，标注其事件要素，主要为事件发生时间、地点、主体以及活动主题，可以更加准确地对采集到的推文进行事件抽取，实现事件的快速检测与发现。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息
，涉及一种针对Twitter文本事件抽取的方法。
技术介绍
世界上每天都会发生大量不同社会事件，给日常生活与社会秩序带来利弊和程度不同的影响。其中，游行、静坐、罢工、罢课、罢市、“占领”之类的群体性抗议事件，往往会或大或小冲击社会稳定，有些甚至引发动荡、造成灾难性后果。以早几年爆发于北非和中东的“阿拉伯之春”运动为例，该事件引发了长达两年、横跨数国的动乱，使无数人流离失所、陷入困境，甚至卷入战争、失去生命，其后作用至今仍在中东、北非延续。正因为与人类生活息息相关，所以人们一直期待能及时感知、甚至预知将会发生的群体性抗议事件，以便趋利避害或者未雨绸缪，尽可能免于灾难性后果。但长期以来，由于社会系统极度复杂、事件爆发地域相对分散，因而若非置身当地，则通常只能依靠新闻媒体或口口相传来获取相关消息，如此不仅导致信号不全不准，而且往往滞后明显，及时感知群体性抗议事件非常困难，更谈不上提前预测预判。进入新世纪以后，随着各类社交网络的兴起与飞速普及，这种情况发生了巨大改观：全球各地的用户可以随时随地、随心随意地通过社交平台发布信息、分享自己的所听所见和所感所思。这样，单个的社交用户就起到了智能“社会传感器”的作用，而拥有大量不同用户的社交平台则构成了“社会传感网络”，可以为感知、甚至预知社会事件提供强有力的数据支撑。在众多社交平台中，微博平台Twitter的社会传感能力尤为突出，这主要由于：它具有轻载、易用、与移动互联网结合紧密、信息更新和扩散速度快、用户众多且位置分布等特点，人们用它实时记录和分享自己的见闻感思，由此构成了一个覆盖世界上所有...

【技术保护点】
一种针对Twitter文本事件抽取的方法，其特征在于，主要包括以下步骤：步骤一，从Twitter平台上采集推文数据，并存入数据库；步骤二，文本数据预处理：(1)数据去重处理，把内容基本或完全一致的推文进行去重处理；(2)文本预处理，首先是切句处理，将文本处理为句子级；然后对句子进行中文分词，以满足后续分析需要；步骤三，事件消息识别联合要素抽取，包括：基于触发词匹配的事件消息识别，使用事件触发词对已采集的去重数据进行过滤，得到目标结果；时间表达式识别，利用时间正则表达式以及自定义时间词库作为文本特征，对推文进行时间要素抽取，如果存在时间信息，则认为推文确实为事件推文，反之则认为是垃圾信息，不再提取其他要素；基于词库的地名实体识别，构建地名词典，并加入命名实体识别工具，从事件推文内容中抽取地名，从而得到事件的位置信息；基于词库的主体抽取，构建人物、团体词典，将这些词典加入命名实体识别工具，完成事件主体的抽取；活动主题抽取，根据活动主题要素完成事件抽取。

【技术特征摘要】
1.一种针对Twitter文本事件抽取的方法，其特征在于，主要包括以下步骤：步骤一，从Twitter平台上采集推文数据，并存入数据库；步骤二，文本数据预处理：(1)数据去重处理，把内容基本或完全一致的推文进行去重处理；(2)文本预处理，首先是切句处理，将文本处理为句子级；然后对句子进行中文分词，以满足后续分析需要；步骤三，事件消息识别联合要素抽取，包括：基于触发词匹配的事件消息识别，使用事件触发词对已采集的去重数据进行过滤，得到目标结果；时间表达式识别，利用时间正则表达式以及自定义时间词库作为文本特征，对推文进行时间要素抽取，如果存在时间信息，则认为推文确实为事件推文，反之则认为是垃圾信息，不再提取其他要素；基于词库的地名实体识别，构建地名词典，并加入命名实体识别工具，从事件推文内容中抽取地名，从而得到事件的位置信息；基于词库的主体抽取，构建人物、团体词典，将这些词典加入命名实体识别工具，完成事件主体的抽取；活动主题抽取，根据活动主题要素完成事件抽取。2.如权利要求1所述的针对Twitter文本事件抽取的方法，其特征在于：其中步骤一包括两种数据采集模式：1)基于关键词查询的推文采集，初始采集的过程主要基于关键词在Twitte...

【专利技术属性】
技术研发人员：郭利翔，张鑫，丁兆云，李沛，王晖，邓经升，乔凤才，程佳军，沈大勇，曹建平，
申请(专利权)人：中国人民解放军国防科学技术大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人