当前位置: 首页 > 专利查询>苏州大学专利>正文

事件信息融合方法和系统技术方案

技术编号:7025759 阅读:396 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种事件信息融合方法和系统,用于对事件信息进行抽取、补全、事件聚类和融合,形成事件信息完整度高的完备事件。本发明专利技术实施例方法包括:生成包括多个事件的初选事件集合;比较初选事件集中的事件与事件抽取模式的相似度,形成候选事件集合;甄别和标注候选事件集合,生成训练样本,通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;从待抽取完备事件的网页中获取网页正文,生成事件标注正文,对存在结构缺失的子句进行结构补全,生成事件补全标注正文;抽取事件补全标注正文的事件实例和事件论元,得到第一事件集合;对第一事件集合的事件实例进行聚类,再进行归一化,生成完备事件。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,尤其涉及一种事件信息融合方法和系统
技术介绍
由于本专利技术涉及了事件信息处理系统中的多个和事件相关的概念,为了更好的理解本专利技术,先对相关概念作出说明事件(Event)在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物等角色,如出生、死亡、地震和车祸等事件,由于表达方式的不同,每个特定的事件可能有不止一个的事件实例。实体(Entity)—个语义类别中的对象或对象的集合,如人名、交通工具和地名等。事件实例(Event Mention, EM)描述一个事件的句子或子句,如“张三1973年出生于江苏苏州。”就是一个类别为出生事件的事件实例。锚(Anchor):事件的触发词(一般为动词和名词居多)称为锚,用于识别事件。如 “生于”、“出生”等就是出生事件的锚。事件角色(Event Role)事件包含的元素就是事件角色,如出生事件包含“人名”、 “出生时间,,、“出生地点”等角色。事件论元(EventArgument)事件角色的实例(或取值)就是事件论元。如“1997 年”、“1997年5月3日”等就是特定的出生事件中的角色“出生时间”的论元。同指事件实例(Coreference Event Mentions)描述同一事件的事件实例。如图 1中EMl和EM2就是同指事件实例,简称同指事件,都是描述了永州法院枪击案中的死亡事件。相关事件(Related Events)两个或多个事件存在内在联系,这些事件称为相关事件,如图1中EM3 (攻击事件)、EM4 (死亡事件)和EM5 (受伤事件)就是相关事件,它们描述了一个主题事件“永州法院枪击事件”的三个侧面。完备事件(Complete Event)各个事件角色的论元尽可能不缺失且内容尽可能完整的事件称为完备事件。如图1中死亡事件EMl、EM2和EM4描述了同一个事件,它们是同指事件,假设一个死亡事件有4个角色死亡时间、死亡地点、死亡人员和凶手。那么,这3 个事件实例都缺少部分论元或论元的内容不完备,如EMl缺少死亡时间、死亡地点和凶手, 另外死亡人员信息也不完备,根据同指事件EM1、EM2和EM4,以及它们的相关事件EM3,可以得到一个完备事件。事件融合(Events Fusion)针对每个特定的事件,根据该事件的同指事件和相关事件的描述,融合生成一个描述尽可能完备、论元内容完整全面的完备事件的过程,也就是根据同指事件和相关事件生成完备事件的过程,如由图1中EMl、EM2、EM4和EM3得到EM6 的过程就是事件融合的过程。指代消解(Coreference Resolution)如果两个词或短语指示现实世界中同一实体,那么它们存在指代关系,指代消解就是在文档中找出指示同一个实体的所有词或短语, 把它们链接成为一个指代链。如上面两个句子中就存在一条指代链“词或短语一一它们 -"“^词或短语”。基于互联网的信息抽取技术一般分为两种形式半结构化文本信息抽取和无结构化文本信息抽取,前者主要根据网页中的HTML标注生成包装器(Wrapper)并利用包装器来从文本中抽取信息,它主要用于抽取那些信息表示具有一定结构的网页中的数据,如商品比价系统就是它的一个应用实例。目前,绝大多数的Web信息抽取系统和方法就属于这一类;而后者针对的是自然文本,如网页的正文、邮件的正文等,自然文本由大段的文字组成, 而这些文字之间并无结构或标注,所以在实现上比前一种方法更加困难,事件信息处理就属于这一类。目前,事件信息抽取研究主要集中在简单语句或者句群中的事件抽取,没有对事件抽取后的事件融合技术,使得事件信息不完整和不准确,存在事件属性缺失的问题。
技术实现思路
本专利技术实施例提供了一种事件信息融合方法和系统,用于对事件信息进行抽取、 事件属性补全、事件聚类和融合,形成事件信息完整度高的完备事件。本专利技术实施例提供了一种事件信息融合方法,包括以下步骤设置检索条件,按照检索条件检索生成包括多个事件的初选事件集合;比较所述初选事件集合中的事件与预先设置的事件抽取模式的相似度,选取所述相似度大于一预设阈值的事件形成候选事件集合,甄别和标注候选事件集合,生成训练样本,并通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;从待抽取完备事件的网页中获取网页正文,对网页正文进行标注,生成事件标注正文;判断所述事件标注正文中每一子句是否存在结构缺失,若存在结构缺失,则对所述存在结构缺失的子句进行结构补全,生成事件补全标注正文;抽取所述事件补全标注正文的事件实例和事件论元,得到第一事件集合;对所述第一事件集合的事件实例进行聚类,生成包含了同指事件链的第二事件集合,根据相关事件推理规则补全第二事件集合中每个事件的缺失论元,生成第三事件集合;根据所述同指事件链对所述第三事件集合的事件论元进行归一化,生成完备事件。依据本专利技术又一实施例的一种事件信息融合系统,包括规则和模型生成模块,用于生成训练样本,并根据所述训练样本采用最大熵和决策树学习器生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;文本预处理模块,用于对初选事件集合进行标注,生成事件标注正文;零指代识别模块,用于判断所述事件标注正文句法结构上是否有缺失成分,如果有则调用零指代消解模型进行填充,生成事件补全标注正文;实体规范化模块,用于把事件补全标注正文中的时间、数量词和各类专用名词调用规则进行规范化处理,形成事件规范化标注正文;事件抽取模块,用于调用事件识别和抽取模型从事件规范化正文中抽取出事件实例,并调用论元识别和抽取模型识别出事件实例中各个角色对应的论元,得到第一事件集合;同指事件识别模块,用于对所述第一事件集合中的事件实例按照事件类别分成类,对每类事件中的事件实例进行聚类,生成同指事件链,把所有的同指事件链加入第一事件集合,得到第二事件集合;相关事件推理模块,用于根据相关事件推理规则补全第二事件集合中每个事件的缺失论元,生成第三事件集合;事件融合模块,用于根据所述同指事件链对第三事件集合的事件论元进行归一化,生成完备事件。从以上技术方案可以看出,本专利技术实施例具有以下优点(1)根据事件表述时属性省略成分偏多的特点,在事件抽取前加入零指代识别模块,跨句子补全缺失的句子成分,提高事件抽取和论元识别的性能;(2)根据同指事件,在系统中加入同指事件识别模块,利用同指事件描述同一事件的事实,来补全事件论元;(3)增加了相关事件推理模块,从相关事件中获取缺失的论元,进一步明确表述不清楚的事件论元;(4)对事件各属性进行识别,聚类和归一化,提高了事件信息表述的准确度和完整性。附图说明图1是本专利技术事件信息融合方法的一个应用实例示意图;图2是本专利技术事件信息融合方法的实施例流程示意图;图3是本专利技术事件信息融合系统的实施例模块示意图;图4是本专利技术事件信息融合系统的规则和模型生成模块结构示意图;图5是本专利技术事件信息融合系统的文本预处理模块结构示意图;图6是本专利技术事件信息融合系统的零指代识别模块结构示意图;图7是本专利技术事件信息融合系统的实体规范化模块结构示意图;图8是本专利技术事件信息融合系统的事件抽取模块结构示意图;图9是本专利技术事件信息融合系统的事件融合模块结构示意图。具体实施例方本文档来自技高网
...

【技术保护点】
1.一种事件信息融合方法,其特征在于,包括以下步骤:设置检索条件,按照检索条件检索生成包括多个事件的初选事件集合;比较所述初选事件集合中的事件与预先设置的事件抽取模式的相似度,选取所述相似度大于一预设阈值的事件形成候选事件集合,甄别和标注候选事件集合,生成训练样本,并通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;从待抽取完备事件的网页中获取网页正文,对网页正文进行标注,生成事件标注正文;判断所述事件标注正文中每一子句是否存在结构缺失,若存在结构缺失,则对所述存在结构缺失的子句进行结构补全,生成事件补全标注正文;抽取所述事件补全标注正文的事件实例和事件论元,得到第一事件集合;对所述第一事件集合的事件实例进行聚类,生成包含了同指事件链的第二事件集合,根据相关事件推理规则补全第二事件集合中每个事件的缺失论元,生成第三事件集合;根据所述同指事件链对所述第三事件集合的事件论元进行归一化,生成完备事件。

【技术特征摘要】

【专利技术属性】
技术研发人员:李培峰朱巧明周国栋王红玲朱晓旭
申请(专利权)人:苏州大学
类型:发明
国别省市:32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1