一种针对Twitter文本事件抽取的方法技术

技术编号:13917645 阅读:99 留言:0更新日期:2016-10-27 16:00
本发明专利技术公开了一种针对Twitter文本事件抽取的方法,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,数据去重处理和文本预处理;步骤三,事件消息识别联合要素抽取,包括基于触发词匹配的事件消息识别、时间表达式识别、基于词库的地名实体识别、基于词库的主体抽取、活动主题抽取。本发明专利技术利用基于规则的事件要素抽取的方法,针对每一个事件,标注其事件要素,主要为事件发生时间、地点、主体以及活动主题,可以更加准确地对采集到的推文进行事件抽取,实现事件的快速检测与发现。

【技术实现步骤摘要】

本专利技术属于信息
,涉及一种针对Twitter文本事件抽取的方法
技术介绍
世界上每天都会发生大量不同社会事件,给日常生活与社会秩序带来利弊和程度不同的影响。其中,游行、静坐、罢工、罢课、罢市、“占领”之类的群体性抗议事件,往往会或大或小冲击社会稳定,有些甚至引发动荡、造成灾难性后果。以早几年爆发于北非和中东的“阿拉伯之春”运动为例,该事件引发了长达两年、横跨数国的动乱,使无数人流离失所、陷入困境,甚至卷入战争、失去生命,其后作用至今仍在中东、北非延续。正因为与人类生活息息相关,所以人们一直期待能及时感知、甚至预知将会发生的群体性抗议事件,以便趋利避害或者未雨绸缪,尽可能免于灾难性后果。但长期以来,由于社会系统极度复杂、事件爆发地域相对分散,因而若非置身当地,则通常只能依靠新闻媒体或口口相传来获取相关消息,如此不仅导致信号不全不准,而且往往滞后明显,及时感知群体性抗议事件非常困难,更谈不上提前预测预判。进入新世纪以后,随着各类社交网络的兴起与飞速普及,这种情况发生了巨大改观:全球各地的用户可以随时随地、随心随意地通过社交平台发布信息、分享自己的所听所见和所感所思。这样,单个的社交用户就起到了智能“社会传感器”的作用,而拥有大量不同用户的社交平台则构成了“社会传感网络”,可以为感知、甚至预知社会事件提供强有力的数据支撑。在众多社交平台中,微博平台Twitter的社会传感能力尤为突出,这主要由于:它具有轻载、易用、与移动互联网结合紧密、信息更新和扩散速度快、用户众多且位置分布等特点,人们用它实时记录和分享自己的见闻感思,由此构成了一个覆盖世界上所有有手机信号地域的庞大“社会传感网络”。特别是,Twitter通常并不对用户内容进行审查过滤,所以越来越多地被应用到群体性抗议事件中,用以发布实况、表达感想,甚至进行事前策划组织和通知广告。这些Twitter微博文本(以下简称“推文”)信息为快速准确检测群体性抗议事件提供了数据基础,使得利用计算科学与数据科学的理论、方法与工具来感知和预测这类社会事件成为可能。但长期以来,针对Twitter事件检测技术的研究主要集中于两类方法:一类通过话题建模与聚类,以无监督方式实现开放域(或者说通用)事件发现;另一类借助关键词匹配或者一些有监督分类器来实现特定类事件发现。前一类方法存在的问题是:将事件与话题混淆,用关键词(主要是实体名和触发词)的词频向量或者概率分布来形式化描述事件,借助无监督聚类来实现事件发现,这就导致所检测到的常常是一系列事件的集合(实际上是话题),而且检测结果中一般并不包含事发时间与地点、参与群体等重要信息。而后一类方法存在的问题是:由于通常没有把时间、地点约束加入事件消息识别过程,所以所检测到的常常只是一些事件推文集合,一般也不能直接提供事发时间与地点等重要信息。从实际应用的需要来看,在海量推文中快速发现群体性抗议事件的相关信息固然重要,但能够第一时间知悉其时间、地点、参与群体、所表达诉求等信息,对于准确感知和提早预判这类事件更具意义,因为这些信息是我们开展社会管理、危机管控、风险规避等工作的重要决策依据。
技术实现思路
针对上述现有技术存在的缺陷,以及现实需求,本专利技术的目的旨在采集twitter上的推文数据,对之进行事件抽取,得到相应的事件结构化描述。为实现上述专利技术目的,本专利技术采用的基本技术方案包括如下内容:一种针对Twitter文本事件抽取的方法,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,文本数据预处理:(1)数据去重处理,把内容基本或完全一致的推文进行去重处理;(2)文本预处理,首先是切句处理,将文本处理为句子级;然后对句子进行中文分词,以满足后续分析需要;步骤三,事件消息识别联合要素抽取,包括:基于触发词匹配的事件消息识别,使用事件触发词对已采集的去重数据进行过滤,得到目标结果;时间表达式识别,利用时间正则表达式以及自定义时间词库作为文本特征,对推文进行时间要素抽取,如果存在时间信息,则认为推文确实为事件推文,反之则认为是垃圾信息,不再提取其他要素;基于词库的地名实体识别,构建地名词典,并加入命名实体识别工具,从事件推文内容中抽取地名,从而得到事件的位置信息;基于词库的主体抽取,构建人物、团体词典,将这些词典加入命名实体识别工具,完成事件主体的抽取;活动主题抽取,根据活动主题要素完成事件抽取。进一步地,步骤一包括两种数据采集模式:1)基于关键词查询的推文采集,初始采集的过程主要基于关键词在Twitter API中进行搜索的到相关推文;2)基于重点用户的推文采集,根据关键词查询采集得到的推文,选取其中重点关注的用户专门采集这些用户的推文。进一步地,其中步骤二文本数据预处理还包括以下内容:针对使用Twitter自带的转发功能进行转发的推文,在去重之前使用预置的正则表达式对Twitter特殊标记符号以及URL网址字符串进行过滤。进一步地,步骤三中,在触发词模式匹配之前,进行摘要句提取,在摘要句提取完毕后,根据触发词模式匹配推文文本,若匹配的句子为摘要句,则继续匹配,得到事件详情句,若触发词仅出现在摘要句中,则将摘要句视为详情句。进一步地,步骤二中文本数据去重采用Google的CityHash64算法进行处理。进一步地,步骤二中,切句是根据推文文本中表示停顿的标点符号对文本进行划分,形成具有较完整要素的句子和分句,切句分为两个层次:句子划分与分句划分,即:D={s1;s2;...;sn本文档来自技高网
...

【技术保护点】
一种针对Twitter文本事件抽取的方法,其特征在于,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,文本数据预处理:(1)数据去重处理,把内容基本或完全一致的推文进行去重处理;(2)文本预处理,首先是切句处理,将文本处理为句子级;然后对句子进行中文分词,以满足后续分析需要;步骤三,事件消息识别联合要素抽取,包括:基于触发词匹配的事件消息识别,使用事件触发词对已采集的去重数据进行过滤,得到目标结果;时间表达式识别,利用时间正则表达式以及自定义时间词库作为文本特征,对推文进行时间要素抽取,如果存在时间信息,则认为推文确实为事件推文,反之则认为是垃圾信息,不再提取其他要素;基于词库的地名实体识别,构建地名词典,并加入命名实体识别工具,从事件推文内容中抽取地名,从而得到事件的位置信息;基于词库的主体抽取,构建人物、团体词典,将这些词典加入命名实体识别工具,完成事件主体的抽取;活动主题抽取,根据活动主题要素完成事件抽取。

【技术特征摘要】
1.一种针对Twitter文本事件抽取的方法,其特征在于,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,文本数据预处理:(1)数据去重处理,把内容基本或完全一致的推文进行去重处理;(2)文本预处理,首先是切句处理,将文本处理为句子级;然后对句子进行中文分词,以满足后续分析需要;步骤三,事件消息识别联合要素抽取,包括:基于触发词匹配的事件消息识别,使用事件触发词对已采集的去重数据进行过滤,得到目标结果;时间表达式识别,利用时间正则表达式以及自定义时间词库作为文本特征,对推文进行时间要素抽取,如果存在时间信息,则认为推文确实为事件推文,反之则认为是垃圾信息,不再提取其他要素;基于词库的地名实体识别,构建地名词典,并加入命名实体识别工具,从事件推文内容中抽取地名,从而得到事件的位置信息;基于词库的主体抽取,构建人物、团体词典,将这些词典加入命名实体识别工具,完成事件主体的抽取;活动主题抽取,根据活动主题要素完成事件抽取。2.如权利要求1所述的针对Twitter文本事件抽取的方法,其特征在于:其中步骤一包括两种数据采集模式:1)基于关键词查询的推文采集,初始采集的过程主要基于关键词在Twitte...

【专利技术属性】
技术研发人员:郭利翔张鑫丁兆云李沛王晖邓经升乔凤才程佳军沈大勇曹建平
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1