一种基于文体和词表的突发事件信息抽取方法及系统技术方案

技术编号：17562037 阅读：56 留言：0更新日期：2018-03-28 12:28

本发明专利技术公开了一种基于文体和词表的突发事件信息抽取方法及系统，首先分析研究了Web文本和新闻文体的特征，利用Google Word2Vec对专家构建的词表进行扩展，针对突发事件的不同属性制定了不同的抽取方法：采用词表进行事件分类，采用文体特征进行时间、事件摘要的抽取，采用文体和词表进行地点、伤亡情况和经济损失属性的抽取。实验表明，采用这种基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时，平均准确率分别为87.89％、91.29％，平均召回率分别为81.76％、87.91％，能满足应急管理需求。

A method and system for information extraction of unexpected events based on style and vocabulary

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文体和词表的突发事件信息抽取方法及系统
本专利技术属于信息处理
，尤其涉及一种基于文体和词表的突发事件信息抽取方法及系统。
技术介绍
近年来在气候变暖、经济全球化、国际政治风云多变的影响下，全球范围内各类突发事件频发，给社会和谐稳定、人民幸福生活带来了极大的危害，应急管理已引起了各级地方政府的高度重视和大力支持，与此同时，在网络高度普及的今天，获取突发事件信息的渠道也从单一的政府公文扩展到各类新闻网站等网络渠道，本专利技术以Web新闻为研究对象，在深入分析Web新闻特性的基础上，力图借助信息抽取技术，合理有效地结构化新闻内容以满足应急管理的需求，为社会和谐、经济发展保驾护航。信息抽取(informationextraction:IE)是指把文本中包含的无结构无组织的信息进行一系列处理，转化成统一格式的结构化数据保存起来。输入信息抽取系统的是各种非结构化的文档，输出的是结构化的信息点，信息点从各类的文档中被提取出来，按照一定格式储存到数据库中。本专利技术研究目标是从网络自由化文本得到结构化数据。信息抽取的方法大致可分为基于统计的方法和基于规则的方法，基于统计的方法以强大的统计学原理为基础，具有较高的可移植性，但准确性不高，基于规则的方法以领域知识为基础，具有较高的准确性，但跨领域移植性几乎为零。近年来，信息抽取已经在金融、海事、物流等许多领域得到了成功应用。赵小明等提出一种基于统计的金融领域多元关系信息抽取算法，研究收购类事件描述句及事件角色，分别设计了单分类器的算法和多分类器的算法，结果表明多分类器算法比单分类器识别算法F-Measure提高...
一种基于文体和词表的突发事件信息抽取方法及系统

【技术保护点】
一种基于文体和词表的突发事件信息抽取方法，其特征在于，包括以下步骤：步骤1：获取新闻网站内容作为初始新闻语料库；步骤2：事件识别与分类；对初始新闻语料库进行预处理，判断新闻报道是否为突发事件，并在此基础上对获取新闻进行分类；步骤3：信息抽取；完成突发事件基本属性的抽取，实现突发事件信息结构化。

【技术特征摘要】
1.一种基于文体和词表的突发事件信息抽取方法，其特征在于，包括以下步骤：步骤1：获取新闻网站内容作为初始新闻语料库；步骤2：事件识别与分类；对初始新闻语料库进行预处理，判断新闻报道是否为突发事件，并在此基础上对获取新闻进行分类；步骤3：信息抽取；完成突发事件基本属性的抽取，实现突发事件信息结构化。2.根据权利要求1所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤2中，所述对初始新闻语料库进行预处理，包括去除新闻中因文本爬取保存过程中发生的字符乱码，舍弃新闻内容字数少于30个字符的新闻。3.根据权利要求1所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤2中，判断新闻报道是否为突发事件，首先以突发事件类型构建基础词表，基础词表由领域专家构建；利用GoogleWord2Vec，以基础词表为核心，无监督地生成扩充词表，选取Word2Vec计算出来的词中相关度最高的前10个词构成子关键词；然后判断输入新闻是否包含基础词表中关键词，若包含则属于该基础词表所属类型，若不包含则统计输入新闻包含扩充词表中子关键词个数，若大于2，则该新闻属于扩充词表所属类型，反之，该新闻不属于突发事件。4.根据权利要求3所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤2中，所述对突发事件分类，包含四类：事故灾害、公共卫生、社会安全、自然灾害。5.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法，其特征在于：步骤3中，将web新闻时间分为新闻发表时间pt、新闻报道时间rt、事件发生时间et；在突发事件时间基本属性抽取过程中，对于新闻的时间属性抽取，依次提取新闻发表时间pt、新闻报道时间rt、事件发生时间et，若成功提取，则覆盖...

【专利技术属性】
技术研发人员：邱奇志，周三三，刘长发，陈晖，於利艳，於剑，
申请(专利权)人：武汉理工大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人