利用结构信息进行实体关系提取的方法和系统技术方案

技术编号:4420098 阅读:250 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了利用结构信息进行实体关系提取的方法和系统。所述方法包括:获取文集,所述文集包括多个已标注了关系的句子;获取与所述文集中的句子结构相关的一组依存树模式;参考所述依存树模式提取所述文集中的每个句子的特征,所述特征包含该句子的结构特征;收集提取出的所述特征来训练关系标注模型;以及将所述关系标注模型应用到未经标注的句子以提取出关系实例。另外,本发明专利技术还提出了用于自动提取依存树模式的过程。与现有技术相比,本发明专利技术的关系提取系统和方法能够实现更好的性能。

【技术实现步骤摘要】

本专利技术一般地涉及自然语言处理,更具体而言,涉及利用结构信息进行实体关系 提取的方法和系统
技术介绍
随着数字信息量的持续增长及其可用性的不断增强,用户对于信息分析智能化的 要求越来越高,而传统的信息检索技术已经变得难以满足这些需求。用户希望计算机系统 能够在理解明文文本方面扮演更加重要的角色。例如,用户需要能够自动提取出文本中的 实体之间的关系的系统。关系提取(Relation Extraction,RE)可被用于很多领域。例如,通过检测开放域 文本并从中提取因果关系,可以有助于问答(Q-A)系统的开发。再比如,可以从生物医学文 献中发现基因与疾病的关系以用于疾病风险标记、诊断和预后,或者可以从在线社区站点 提取出社交关系并据此在日后向用户提供更好的信息推荐。基于关系知识的应用的性能极大依赖于用于关系提取的所选算法或方法的质量。 最终用户可以极大地受益于高质量的关系实例。因此,为了实现高性能的应用,如何提高关 系提取的精确性成为一个普遍问题。同时,仅仅通过对文本(例如句子)应用句法分析,无法解决关系提取的问题,因 为该问题的解决还依赖于找到某些语义信息。但是,现有技术中的语义分析方法的性能不 够好,因此,如何最大限度地利用存在缺陷的语义技术也是一个极具挑战性的问题。现有技术中已经开发出很多方法用于解决关系提取问题。但是这些现有方法在实 际应用中的性能并不令人满意。基本的方案是从经标注的训练文集学习平面文本模式(例 如正则表达式),并用提取出的模式来提取关系。正则表达式可以从标注了关系参数的句子 学习得至IJ。例如,在 EugeneAgichtein 禾口 Luis Gravano. Snowball 发表的文章“Extracting Relations fromLarge Plain-Text Collections,,(见 Proc. of the 5th ACM conference on Digitallibraries,2000)中提出一种用于提取“机构-地点”对的算法。该算法通过归 纳关系参数的上下文来生成模式。然后,提取出的候选模式被自动评价,并只有那些具有高 可信度的模式被保留下来,以用于寻找新的关系实例。新找到的关系实例将被用来提取更 多的候选模式。通过迭代,该算法可以获得具有合理准确度的大量关系实例。该文章的内 容通过弓I用被整体上结合于此以用于所有目的。由于关系提取可以被视为一个顺序标注问题,因此现有的顺序标注方法(例如隐 马尔可夫模型(HMM)、最大熵(ME)和条件随机域(CRF))可以被用来解决关系提取问题。当 前广泛使用的特征包括上下文词、上下文词的词性(part-of-speech,P0S)标签、判断一对 实体(在依存树中对应地标注为一对角色,也称为参数(argument))是否处于同一窗口中 的窗口特征、从依存树(cbpendency tree)或句法解析树提取出的特征等等。例如,K. Nanda 所发表的文章"Combining lexical, syntacticand semantic features with maximum entropy models for extracting relations,,(见Proc. of the 42nd Anniversary Meetingof the Association forComputational Linguistics (ACL,04),2004)中就使用了从依存 树或句法解析树提取出的特征。被采用的特征包括在解析树或依存树上从关系的第一参数 到第二参数的路径、第一和第二参数在依存树上的父节点、上下文词及其P0S标签等。该方 法使用基于训练文集的最大熵(ME)来训练模型,并使用模型来提取新的关系实例。该文章 的内容通过弓丨用被整体上结合于此以用于所有目的。另外,关系提取还可以被视为一个分类问题,因此另一种关系提取技术可以基于 核方法(Kernel Method)。核方法是一种非参数密度估计技术,其计算数据实例之间的核函 数,其中核函数可以被理解为一种相似性度量。相关的核函数可以针对语串(句子的单词 包)或依存树(句子的结构信息)来定义。使用这种支持向量机(SVM)中的核,可以检测 和提取出关系实例。Aron Culotta和Jeffrey Sorensen所发表的文章“D印endencyTree Kernels for Relation Extraction,,(见 Proc. of the 42nd AnniversaryMeeting of the Association for Computational Linguistics (ACL,04),2004)中提出了针对依存树的核 函数。相应的特征包括树节点的P0S标签、依存类型、实体类型(例如“人”或“机构”)和 角色(例如“参数ARG-A”和“参数ARG-B”)。该函数首先检查两个依存树的根是否相同。 如果两个根不同,则两个依存树的相似性得分应该为0。否则,函数将计算子节点之间的相 似性。最后,该核函数在SVM中被使用,以训练用于关系提取的分类器。该文章的内容通过 弓丨用被整体上结合于此以用于所有目的。然而,上述现有方法在关系提取期间都忽略了语义信息,而仅仅关注浅层的句子 结构信息,例如当前词所依赖于的单词的P0S标签或者在依存树上从关系参数“ARG-A”到 “ARG-B”的路径。但是,这些“父节点”或“路径”信息无法包含足够有用的语义信息来区分 关系,因此现有的关系提取方案的性能较差。实际上,关系可以利用依存树上具有完整语义含义的某一子结构来确定。这意味 着通过检查句子的依存树上枝干就足以检测到关系。但是,当前已有的现有技术中尚未提 出有效的方法可被用来找到这些关键子结构。
技术实现思路
鉴于上述问题,本专利技术致力于提供一种更加精确且高效的实体关系提取方法和系 统。具体而言,本专利技术的技术首先从包含实际关系实例的依存树提取出被称之为“依存树模 式”的关键子结构。然后,提取出的依存树模式可被用于提高关系提取的精确度。根据本专利技术第一方面,提供了一种用于关系提取的方法,包括获取文集,所述文 集包括多个已标注了关系的句子;获取与所述文集中的句子结构相关的一组依存树模式; 参考所述依存树模式提取所述文集中的每个句子的特征,所述特征包含该句子的结构特 征;收集提取出的所述特征来训练关系标注模型;以及将所述关系标注模型应用到未经标 注的句子以提取出关系实例。根据本专利技术第二方面,提供了一种用于关系提取的系统,包括文集获取装置,用 于获取文集,所述文集包括多个已标注了关系的句子;依存树模式获取装置,用于获取与所 述文集中的句子结构相关的一组依存树模式;特征提取装置,用于参考提取出的所述依存 树模式提取所述文集中的每个句子的特征,所述特征包含该句子的结构特征;关系标注模 型训练装置,用于收集所述特征提取装置提取出的所述特征来训练关系标注模型;以及模型应用装置,用于将所述关系标注模型应用到未经标注的句子以提取出关系实例。由此可见,本专利技术的系统可以被分成两个阶段模型训练阶段和模型应用阶段。在模型训练阶段期间,可以通过以下操作来获得高度精确的关系标注模型1.首先本文档来自技高网
...

【技术保护点】
一种用于关系提取的方法,包括:  获取文集,所述文集包括多个已标注了关系的句子;  获取与所述文集中的句子结构相关的一组依存树模式;  参考所述依存树模式提取所述文集中的每个句子的特征,所述特征包含该句子的结构特征;  收集提取出的所述特征来训练关系标注模型;以及  将所述关系标注模型应用到未经标注的句子以提取出关系实例。

【技术特征摘要】

【专利技术属性】
技术研发人员:许洪志胡长建沈国阳
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1