一种基于实例动态泛化的共指消解方法技术

技术编号:4059917 阅读:323 留言:0更新日期:2012-04-11 18:40
一种基于实例的动态泛化共指消解方法,涉及文本信息抽取领域。本发明专利技术所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成,并经由实例构建、实例库构建、建立索引、动态泛化与实例检索以及共指链合成几部分完成共指消解。本发明专利技术不仅解决了共指统计模型中长尾效应,充分发挥低频训练样本的作用,使得本来就很珍贵的训练样本得以充分的发挥,并且使实例的动态泛化机制能够自适应的将测试实例的分类问题转变为训练实例库中最佳泛化点的选定与利用,最终找到最佳匹配的训练实例。

【技术实现步骤摘要】

本专利技术涉及文本信息抽取领域,具体涉及一种基于实例的动态泛化共指消解方法。
技术介绍
近年来,随着互联网上信息的爆炸式增长,每天出现的新信息大大超过了人类的处理能力。在自然语言处理、信息检索等诸多领域中,现实世界中的同一事物经常会有不同的名称以及描述。将它们正确对应到具体的事物,对于数据的后续处理和深入理解是非常必要的。在自然语言处理中,对指向同一实体的名词、代词、以及普通名词短语进行消解,可以使后续的实体关系的描述更加完善,为其他自然语言处理领域,如机器翻译、信息抽取、自动文摘及信息检索等奠定基础。所谓共指消解就是根据一篇文档中各个表述的自身内容以及所在上下文来进行所有表述的等价类划分。例如,在讨论中国、美国、日本等大国间贸易的文章中,开篇可能会写“中华人民共和国”,后面可能会说“中国”、“大中国”等,还会提到“这个国家”、“她”等。这些表述都是“中华人民共和国”这个实体的不同体现。虽然人们可以毫无困难的区分文章中同一实体的不同体现,但对计算机而言,仍是非常困难的。在某种意义上说,共指在自然语言中起到了超链接的作用。一方面,它使得作者在撰写文章时可以体现一定的风格并实现篇章的连本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201010239736.html" title="一种基于实例动态泛化的共指消解方法原文来自X技术">基于实例动态泛化的共指消解方法</a>

【技术保护点】
一种基于实例的动态泛化共指消解方法,其特征在于所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成;所述训练实例库构建阶段包括:A、对训练语料进行底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;B、利用标注语料中共指链上的名词短语和A中抽取的名词短语,构造正/反训练实;C、抽取各正/反实例的特征取值,根据特征取值生成属于该实例的“泛化点”;D、构建带“泛化点”的训练实例库,并对训练实例库建立倒排索引;所述篇章内实体消解阶段包括:E、接收待处理的纯文本,并进行各种底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;F、利用E中抽取的名词短语构造可能...

【技术特征摘要】
1.一种基于实例的动态泛化共指消解方法,其特征在于所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成;所述训练实例库构建阶段包括:A、对训练语料进行底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;B、利用标注语料中共指链上的名词短语和A中抽取的名词短语,构造正/反训练实;C、抽取各正/反实例的特征取值,根据特征取值生成属于该实例的“泛化点”;D、构建带“泛化点”的训练实例库,并对训练实例库建立倒排索引;所述篇章内实体消解阶段包括:E、接收待处理的纯文本,并进行各种底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;F、利用E中抽取的名词短语构造可能存在共指关系的候选实例,抽取该候选实例的特征取值;G、抽取候选实例的特征取值,根据特征取值生成属于该实例的“泛化点”;H、根据动态泛化算法,利用候选实例的“泛化点”对训练实例库中的实例反复筛选泛化,剩余训练实例中正例所占比例作为该测试实例的正例置信度;I、根据各候选实例的正例置信度给出二元分类结果并合成最终共指链,共指消解完成。2.根据权利要求1所述的一种基于实例的动态泛化共指消解方其特征还在于步骤A和E步骤中所述自然语言预处理过程包括:断句;分词;词性标注;名词短语识别;命名实体识别和句法分析。3.根据权利要求1所述的一种基于实例的动态泛化共指消解方法,其特征还在于步骤B中所述构造训练实...

【专利技术属性】
技术研发人员:秦兵刘挺郎君黎耀炳张牧宇
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1