当前位置: 首页 > 专利查询>苏州大学专利>正文

基于最大熵的事件论元及论元角色的识别方法及系统技术方案

技术编号:11797320 阅读:91 留言:0更新日期:2015-07-30 12:43
本发明专利技术公开基于最大熵的事件论元及论元角色的识别方法,提取事件的实体信息以确定事件论元候选项并提取事件的论元信息;提取事件论元候选项的特征信息,并利用特征信息及论元信息进行数据处理得到论元识别语料和论元角色识别语料;利用论元识别语料训练最大熵二元分类模型得到最大熵二元分类模型;利用论元角色识别语料训练最大熵多元分类模型得到最大熵多元分类模型;利用最大熵二元分类模型对事件中的事件论元候选项进行识别,得到论元识别结果;利用最大熵多元分类模型对论元识别结果进行识别,得到论元角色识别结果;该方法提高事件论元及论元角色识别效率;还公开基于最大熵的事件论元及论元角色的识别系统。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,特别是涉及一种基于最大熵的事件论元及论元角色的 识别方法及系统。
技术介绍
信息抽取是从文本中自动提取信息的一种主要手段。信息抽取是将无结构的文本 信息,按照人们的需求识别和抽取出来,转化为结构化或半结构化的信息,并采用数据库的 形式存储,以便人们查询和进一步的分析、利用。事件由事件触发词和描述事件结构的元素 构成,事件抽取(Event Extraction)是信息抽取的一个重要研宄方向。ACE2005将事件抽 取的任务定义为事件的检测与识别(Event detection and recognition),即识别特定类 型的事件,并进行相关信息的确定和抽取。事件论元是事件的重要组成元素,对事件论元及 其角色的识别是进行事件抽取其他子任务的基础。例如:"高中同学前一个月结婚了",其中 包括事件论元"高中同学",对应的论元角色为"Person"和"前一个月",对应的论元角色为 "Time"。 目前,事件论元及其角色的识别方法是基于模式匹配的方法,它主要是通过人工 或自动的方式来设定或提取一定的模式,然后在该模式的指导下进行事件信息的识别和抽 取。该方法匹配出的结果准确性较好,但是模式的建立需要取决于具体的领域和使用的环 境,建立起来较困难。因此,如何提供一种全局化的方法来选择合适的特征,提高事件论元 及论元角色的识别效率,是本领域技术人员需要解决的技术问题。
技术实现思路
本专利技术的目的是提供一种基于最大熵的事件论元及论元角色的识别方法,该方法 能够选择合适的特征,提高事件论元及论元角色的识别效率;本专利技术的另一目的是提供一 种基于最大熵的事件论元及论元角色的识别系统。 为解决上述技术问题,本专利技术提供一种基于最大熵的事件论元及论元角色的识别 方法,建立最大熵分类模型,其中,所述建立最大熵分类模型包括:提取事件的实体信息以 确定事件论元候选项,并提取事件的论元信息;提取所述事件论元候选项的特征信息,并利 用所述事件论元候选项的特征信息及所述论元信息进行数据处理得到论元识别语料和论 元角色识别语料;利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类 模型;利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型; 包括: 利用所述最大熵二元分类模型对事件中的事件论元候选项进行识别,得到论元识 别结果; 利用所述最大熵多元分类模型对所述论元识别结果进行识别,得到论元角色识别 结果。 其中,所述提取所述事件论元候选项的特征信息包括: 从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征; 利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关 系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征。 其中,所述从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征 包括: 从原始语料中抽取得到所述事件论元候选项的词特征,所述事件论元候选项的首 单词,所述事件论元候选项所属的实体类型,所述事件论元候选项所属的实体子类型,所述 事件论元候选项所在事件的触发词,所述事件论元候选项所在事件的事件类型,所述事件 论元候选项的上下文单词。 其中,所述利用Stanford工具对所述事件论元候选项所在的事件句进行词性标 注和依存关系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系 特征包括: 利用Stanford工具提取所述事件论元候选项的词性特征,所述事件论元候选项 的首单词的词性特征,所述事件论元候选项所在事件的触发词的词性特征,所述事件论元 候选项的上下文单词的词性特征及所述事件论元候选项所在事件的触发词的距离及位置 关系特征。 其中,所述提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息 包括: 利用ACE2005对事件论元的定义和相关标注信息提取事件的实体信息和论元信 息,通过所述实体信息确定事件论元候选项。 其中,所述的事件论元及论元角色的识别方法还包括: 定期对所述最大熵二元分类模型及最大熵多元分类模型进行更新训练。 本专利技术还提供一种基于最大熵的事件论元及论元角色的识别系统包括: 模型建立模块,用于提取事件的实体信息以确定事件论元候选项,并提取事件的 论元信息;提取所述事件论元候选项的特征信息,并利用所述事件论元候选项的特征信息 及所述论元信息进行数据处理得到论元识别语料和论元角色识别语料;利用所述论元识别 语料训练最大熵二元分类模型,得到最大熵二元分类模型;利用所述论元角色识别语料训 练最大熵多元分类模型,得到最大熵多元分类模型; 论元识别模块,用于利用所述最大熵二元分类模型对事件中的事件论元候选项进 行识别,得到论元识别结果; 论元角色识别模块,用于利用所述最大熵多元分类模型对所述论元识别结果进行 识别,得到论元角色识别结果。 其中,所述模型建立模块包括: 提取单元,用于提取事件的实体信息以确定事件论元候选项,并提取事件的论元 信息; 抽取单元,用于从原始语料中抽取得到所述事件论元候选项的词特征和实体信息 特征; Stanford单元,用于利用Stanford工具对所述事件论元候选项所在的事件句进 行词性标注和依存关系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及 依存关系特征; 数据处理单元,用于利用所述事件论元候选项的词性特征,上下文的词性特征,及 依存关系特征,所述事件论元候选项的词特征和实体信息特征进行数据处理得到论元识别 语料和论元角色识别语料; 第一训练模块,用于利用所述论元识别语料训练最大熵二元分类模型,得到最大 摘二元分类模型; 第二训练模块,用于利用所述论元角色识别语料训练最大熵多元分类模型,得到 最大熵多元分类模型。 其中,所述的事件论元及论元角色的识别系统还包括: 更新模块,用于定期对所述最大熵二元分类模型及最大熵多元分类模型进行更新 训练。 本专利技术所提供的一种基于最大熵的事件论元及论元角色的识别方法,该方法首先 对原始事件语料进行预处理,提取事件的实体信息以确定事件论元候选项,并提取事件的 论元信息,进而利用特征工具选择有效的特征,使特征具有全局性,进而将各特征信息进行 融合,对融合后的各个特征及论元信息进行数据处理,提取论元识别语料和论元角色识别 语料。然后先用论元识别语料训练最大熵二元分类模型;再用论元角色识别语料训练最大 熵多元分类模型,对之前识别出来的论元进行角色判定;本专利技术将事件论元及论元角色识 别任务看作是分类问题,使用最大熵模型,这样可以充分的利用有效的特征,建立一个统一 的概率模型,有利于提高事件论元及其角色的识别效率及性能。【附图说明】 为了更清楚的说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有 技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根 据这些附图获得其他的附图。 图1为本专利技术实施例提供的基于最大熵的事件论元及论元角色的识别方法的流 程图; 图2为本专利技术实施例提供的基于最大熵的事件论元及论元角色的识别系统的结 构框图; 图3为本专利技术实施例提供的最大熵分类模型建立模块本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/CN104809105.html" title="基于最大熵的事件论元及论元角色的识别方法及系统原文来自X技术">基于最大熵的事件论元及论元角色的识别方法及系统</a>

【技术保护点】
一种基于最大熵的事件论元及论元角色的识别方法,其特征在于,提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息;提取所述事件论元候选项的特征信息,并利用所述事件论元候选项的特征信息及所述论元信息进行数据处理,得到论元识别语料和论元角色识别语料;利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类模型;利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型;包括:利用所述最大熵二元分类模型对事件中的事件论元候选项进行识别,得到论元识别结果;利用所述最大熵多元分类模型对所述论元识别结果进行识别,得到论元角色识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:李寿山朱珠周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1