一种基于文体和词表的突发事件信息抽取方法及系统技术方案

技术编号:17562037 阅读:56 留言:0更新日期:2018-03-28 12:28
本发明专利技术公开了一种基于文体和词表的突发事件信息抽取方法及系统,首先分析研究了Web文本和新闻文体的特征,利用Google Word2Vec对专家构建的词表进行扩展,针对突发事件的不同属性制定了不同的抽取方法:采用词表进行事件分类,采用文体特征进行时间、事件摘要的抽取,采用文体和词表进行地点、伤亡情况和经济损失属性的抽取。实验表明,采用这种基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时,平均准确率分别为87.89%、91.29%,平均召回率分别为81.76%、87.91%,能满足应急管理需求。

A method and system for information extraction of unexpected events based on style and vocabulary

【技术实现步骤摘要】
一种基于文体和词表的突发事件信息抽取方法及系统
本专利技术属于信息处理
,尤其涉及一种基于文体和词表的突发事件信息抽取方法及系统。
技术介绍
近年来在气候变暖、经济全球化、国际政治风云多变的影响下,全球范围内各类突发事件频发,给社会和谐稳定、人民幸福生活带来了极大的危害,应急管理已引起了各级地方政府的高度重视和大力支持,与此同时,在网络高度普及的今天,获取突发事件信息的渠道也从单一的政府公文扩展到各类新闻网站等网络渠道,本专利技术以Web新闻为研究对象,在深入分析Web新闻特性的基础上,力图借助信息抽取技术,合理有效地结构化新闻内容以满足应急管理的需求,为社会和谐、经济发展保驾护航。信息抽取(informationextraction:IE)是指把文本中包含的无结构无组织的信息进行一系列处理,转化成统一格式的结构化数据保存起来。输入信息抽取系统的是各种非结构化的文档,输出的是结构化的信息点,信息点从各类的文档中被提取出来,按照一定格式储存到数据库中。本专利技术研究目标是从网络自由化文本得到结构化数据。信息抽取的方法大致可分为基于统计的方法和基于规则的方法,基于统计的方法以强大的统计学原理为基础,具有较高的可移植性,但准确性不高,基于规则的方法以领域知识为基础,具有较高的准确性,但跨领域移植性几乎为零。近年来,信息抽取已经在金融、海事、物流等许多领域得到了成功应用。赵小明等提出一种基于统计的金融领域多元关系信息抽取算法,研究收购类事件描述句及事件角色,分别设计了单分类器的算法和多分类器的算法,结果表明多分类器算法比单分类器识别算法F-Measure提高了1.9%。余晨等提出一种基于规则的海事自由文本信息抽取方法,通过定义规则抽取海事新闻中的时间、地点、船舶名和事故类型,实验结果表明,准确率均在94.52%以上,但此方法仅限于单一的海事领域网站。原欢采用基于规则的信息抽取方法,提出了基于GATE的货物动态邮件信息抽取方法,应用货物动态邮件验证了方法的科学性和有效性。基于Web的信息抽取近年已取得一些研究,孙承杰等利用中文网页的特性提出了一种基于统计的信息抽取方法,但是该方法仅适用于使用<table>标签来布局的网页,实现简单,通用性好,但是对于文本内容较短的网页,抽取效果不好。吴平博等人在建立了统一事件框架的基础上,利用句型模板抽取了新闻事件的基础信息,并且通过实验表明,方法的召回率以及精度分别达到了60.82%和94.84%,但仅限于火灾、矿难和空难这三类新闻事件。杨尔弘提出一种自动获取事件信息结构的模型,该模型是在文本词语分析的基础上,通过对句子聚类的方法来进行抽取突发事件的信息,并进一步采用词语串搭配信息的方法来抽取突发事件某方面的具体信息,但仅限于HowNet知识资源不适用于网络自由文本,同时采用词语串替代表达意义,还远不能满足提取的任务要求。
技术实现思路
为了解决上述技术问题,本专利技术提出了一种基于文体和词表的突发事件信息抽取方法,针对现有信息抽取方法提出相应改进和整合,从而提出准确率高的信息抽取方法。本专利技术所采用的技术方案是:一种基于文体和词表的突发事件信息抽取方法,其特征在于,包括以下步骤:步骤1:获取新闻网站内容作为初始新闻语料库;步骤2:事件识别与分类;对初始新闻语料库进行预处理,判断新闻报道是否为突发事件,并在此基础上对突发事件分类;步骤3:信息抽取;本专利技术的系统所采用的技术方案是:一种基于文体和词表的突发事件信息抽取系统,其特征在于:包括信息获取模块、事件识别与分类模块、信息抽取模块;所述信息获取模块,用于获取新闻网站内容作为初始新闻语料库;所述事件识别与分类模块,用于对初始新闻语料库进行预处理,判断新闻报道是否为突发事件,并在此基础上对突发事件分类;所述信息抽取模块,用于完成突发事件基本属性的抽取,实现突发事件信息结构化。本方法主要有以下优点:非监督地结构化突发事件信息,是高效开展应急管理的基础,一方面是构建突发事件案例的基础工作,另一方面也是应急决策中案例推理的基础工作;此外所提出的基于文体和词表的信息抽取方法同时也融合了基于规则和统计方法的优点,对于结构化Web信息进行了有效的探索。采用这种基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时,平均准确率分别为87.89%、91.29%,平均召回率分别为81.76%、87.91%,能满足应急管理需求。附图说明图1是本专利技术实施例的系统架构图;图2是本专利技术实施例的子关键词个数实验结果示意图;图3是本专利技术实施例的突发事件识别与分类算法流程图;图4是本专利技术实施例的突发事件时间属性抽取算法流程图;图5是本专利技术实施例的突发事件伤亡属性抽取算法流程图;图6是本专利技术实施例的突发事件经济损失属性抽取算法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。请见图1,本专利技术实施例提供的一种基于文体和词表的突发事件信息抽取系统,包括信息获取模块、事件识别与分类模块、信息抽取模块;信息获取模块,用于获取新闻网站内容作为初始新闻语料库;事件识别与分类模块,用于对初始新闻语料库进行预处理,判断新闻报道是否为突发事件,并在此基础上对突发事件分类;信息抽取模块,用于完成突发事件基本属性的抽取,实现突发事件信息结构化。本专利技术实施例提供的一种基于文体和词表的突发事件信息抽取方法,包括以下步骤:步骤1:编写网络爬虫爬取Web网站相关板块的新闻数据;步骤2:由于网络爬虫过程中出现各种格式错误、乱码、内容失真,进行预处理工作;网络爬虫获取的新闻,会存在少量的字符乱码和异常数据,需要对数据预处理。本实施例对新闻语料主要进行如下两个步骤:1)去除新闻中因文本爬取保存过程中发生的字符乱码,主要是一些Unicode字符,如xa0等;2)当网站转发其他网站新闻进行多次链接跳转或者分页处理大量的图片新闻,会导致新闻内容严重缺失,本实施例设定当新闻内容字数少于30个字符时,舍弃这条新闻。步骤3:判断新闻报道是否为突发事件,并在此基础上对突发事件分类;根据领域专家构建的词表称为基础词表,扩充词表则利用GoogleWord2Vec构建,以基础词表为核心,无监督地生成扩充词表,选取了相关度最高的前10个词构成子关键词,共同组成了扩充词表,如表1,所展示词表的部分内容;表1词表(部分)请见图2和图3,在进行突发事件识别与分类过程中,对关键词个数进行实验,当使用子关键词个数为2时,准确率达到最大为91.84%。首先判断,该条新闻是否包含基础词表中关键词,若包含,读取该关键词所属类型,并将此类型作为突发事件类型属性返回;若不包含,计算该新闻包含扩充词表中子关键词个数,若大于等于2,读取子关键词所属类型,并将此类型作为突发事件类型属性返回;若小于2,则返回“非突发事件”。最后,对突发事件分类分类,包括自然灾害、社会安全、公共卫生、事故灾害四类。步骤4:信息抽取;此处主要对事件摘要、时间、地点、伤亡和经济损失5个数据项进行信息抽取。在进行基于文体的事件文摘信息抽取过程中,使用基于最大边界相关法MMR(Max本文档来自技高网
...
一种基于文体和词表的突发事件信息抽取方法及系统

【技术保护点】
一种基于文体和词表的突发事件信息抽取方法,其特征在于,包括以下步骤:步骤1:获取新闻网站内容作为初始新闻语料库;步骤2:事件识别与分类;对初始新闻语料库进行预处理,判断新闻报道是否为突发事件,并在此基础上对获取新闻进行分类;步骤3:信息抽取;完成突发事件基本属性的抽取,实现突发事件信息结构化。

【技术特征摘要】
1.一种基于文体和词表的突发事件信息抽取方法,其特征在于,包括以下步骤:步骤1:获取新闻网站内容作为初始新闻语料库;步骤2:事件识别与分类;对初始新闻语料库进行预处理,判断新闻报道是否为突发事件,并在此基础上对获取新闻进行分类;步骤3:信息抽取;完成突发事件基本属性的抽取,实现突发事件信息结构化。2.根据权利要求1所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤2中,所述对初始新闻语料库进行预处理,包括去除新闻中因文本爬取保存过程中发生的字符乱码,舍弃新闻内容字数少于30个字符的新闻。3.根据权利要求1所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤2中,判断新闻报道是否为突发事件,首先以突发事件类型构建基础词表,基础词表由领域专家构建;利用GoogleWord2Vec,以基础词表为核心,无监督地生成扩充词表,选取Word2Vec计算出来的词中相关度最高的前10个词构成子关键词;然后判断输入新闻是否包含基础词表中关键词,若包含则属于该基础词表所属类型,若不包含则统计输入新闻包含扩充词表中子关键词个数,若大于2,则该新闻属于扩充词表所属类型,反之,该新闻不属于突发事件。4.根据权利要求3所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤2中,所述对突发事件分类,包含四类:事故灾害、公共卫生、社会安全、自然灾害。5.根据权利要求1-4任意一项所述的基于文体和词表的突发事件信息抽取方法,其特征在于:步骤3中,将web新闻时间分为新闻发表时间pt、新闻报道时间rt、事件发生时间et;在突发事件时间基本属性抽取过程中,对于新闻的时间属性抽取,依次提取新闻发表时间pt、新闻报道时间rt、事件发生时间et,若成功提取,则覆盖...

【专利技术属性】
技术研发人员:邱奇志周三三刘长发陈晖於利艳於剑
申请(专利权)人:武汉理工大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1