利用结构信息进行实体关系提取的方法和系统技术方案

技术编号：4420098 阅读：250 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了利用结构信息进行实体关系提取的方法和系统。所述方法包括：获取文集，所述文集包括多个已标注了关系的句子；获取与所述文集中的句子结构相关的一组依存树模式；参考所述依存树模式提取所述文集中的每个句子的特征，所述特征包含该句子的结构特征；收集提取出的所述特征来训练关系标注模型；以及将所述关系标注模型应用到未经标注的句子以提取出关系实例。另外，本发明专利技术还提出了用于自动提取依存树模式的过程。与现有技术相比，本发明专利技术的关系提取系统和方法能够实现更好的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术一般地涉及自然语言处理，更具体而言，涉及利用结构信息进行实体关系提取的方法和系统
技术介绍
随着数字信息量的持续增长及其可用性的不断增强，用户对于信息分析智能化的要求越来越高，而传统的信息检索技术已经变得难以满足这些需求。用户希望计算机系统能够在理解明文文本方面扮演更加重要的角色。例如，用户需要能够自动提取出文本中的实体之间的关系的系统。关系提取(Relation Extraction,RE)可被用于很多领域。例如，通过检测开放域文本并从中提取因果关系，可以有助于问答(Q-A)系统的开发。再比如，可以从生物医学文献中发现基因与疾病的关系以用于疾病风险标记、诊断和预后，或者可以从在线社区站点提取出社交关系并据此在日后向用户提供更好的信息推荐。基于关系知识的应用的性能极大依赖于用于关系提取的所选算法或方法的质量。最终用户可以极大地受益于高质量的关系实例。因此，为了实现高性能的应用，如何提高关系提取的精确性成为一个普遍问题。同时，仅仅通过对文本(例如句子)应用句法分析，无法解决关系提取的问题，因为该问题的解决还依赖于找到某些语义信息。但是，现有技术中的语义分析方法的性能不够好，因此，如何最大限度地利用存在缺陷的语义技术也是一个极具挑战性的问题。现有技术中已经开发出很多方法用于解决关系提取问题。但是这些现有方法在实际应用中的性能并不令人满意。基本的方案是从经标注的训练文集学习平面文本模式(例如正则表达式)，并用提取出的模式来提取关系。正则表达式可以从标注了关系参数的句子学习得至IJ。例如，在 EugeneAgichtein ...

【技术保护点】
一种用于关系提取的方法，包括：　　获取文集，所述文集包括多个已标注了关系的句子；　　获取与所述文集中的句子结构相关的一组依存树模式；　　参考所述依存树模式提取所述文集中的每个句子的特征，所述特征包含该句子的结构特征；　　收集提取出的所述特征来训练关系标注模型；以及　　将所述关系标注模型应用到未经标注的句子以提取出关系实例。

【技术特征摘要】

【专利技术属性】
技术研发人员：许洪志，胡长建，沈国阳，
申请(专利权)人：日电中国有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人