一种基于实例动态泛化的共指消解方法技术

技术编号:4059917 阅读:300 留言:0更新日期:2012-04-11 18:40
一种基于实例的动态泛化共指消解方法,涉及文本信息抽取领域。本发明专利技术所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成,并经由实例构建、实例库构建、建立索引、动态泛化与实例检索以及共指链合成几部分完成共指消解。本发明专利技术不仅解决了共指统计模型中长尾效应,充分发挥低频训练样本的作用,使得本来就很珍贵的训练样本得以充分的发挥,并且使实例的动态泛化机制能够自适应的将测试实例的分类问题转变为训练实例库中最佳泛化点的选定与利用,最终找到最佳匹配的训练实例。

【技术实现步骤摘要】

本专利技术涉及文本信息抽取领域,具体涉及一种基于实例的动态泛化共指消解方法。
技术介绍
近年来,随着互联网上信息的爆炸式增长,每天出现的新信息大大超过了人类的处理能力。在自然语言处理、信息检索等诸多领域中,现实世界中的同一事物经常会有不同的名称以及描述。将它们正确对应到具体的事物,对于数据的后续处理和深入理解是非常必要的。在自然语言处理中,对指向同一实体的名词、代词、以及普通名词短语进行消解,可以使后续的实体关系的描述更加完善,为其他自然语言处理领域,如机器翻译、信息抽取、自动文摘及信息检索等奠定基础。所谓共指消解就是根据一篇文档中各个表述的自身内容以及所在上下文来进行所有表述的等价类划分。例如,在讨论中国、美国、日本等大国间贸易的文章中,开篇可能会写“中华人民共和国”,后面可能会说“中国”、“大中国”等,还会提到“这个国家”、“她”等。这些表述都是“中华人民共和国”这个实体的不同体现。虽然人们可以毫无困难的区分文章中同一实体的不同体现,但对计算机而言,仍是非常困难的。在某种意义上说,共指在自然语言中起到了超链接的作用。一方面,它使得作者在撰写文章时可以体现一定的风格并实现篇章的连贯性。但另一方面,语言中的共指现象在自然语言理解中增加了更多的模糊成分,为其他领域自然语言的处理,如机器翻译,信息抽取等带来困难。共指消解技术的研究目标就是发现篇章中同一实体的各个等价描述,为后续的自然语言处理奠定基础。共指消解研究面临许多困难,不仅需要语言学方面的知识,例如浅层的词汇、句法知识,还需要较为宏观的语义和篇章知识,以及丰富的背景知识才能完成。全自动的共指消解是计算机对自然语言理解的一项重要而艰难任务。这方面的专门研究在国外已经进行数十年,但在国内才刚起步不久。随着共指消解研究的不断深入,现在已经到了瓶颈阶段。最为关键的问题就是相关语料的稀缺,使得传统的基于语言学规则和基于统计方法都只能覆盖大多数的训练样本,对于一些频率较低样本未能进行充分的利用。基于语言学规则的共指消解方法,主要包括Hobbs算法、中心理论以及一些基于中心理论的方法。基于规则的方法都是前人在相关语料上总结大量的语言现象后得出的主观性处理方法。这种规律性的总结不可避免的会遗漏掉大量的一些较少出现的共指现象,尤其是在较小规模的语料上分析得到的规律性规则很难应用到实际的大量处理实际情况中。事实上,基于规则的方法在实际性能上都表现不太好,并且最终导致了基于统计的研究方法发展。统计学习方法应用到共指消解问题中兴起于1995年。随着McCarthy and Lehnert(1995)首次将共指消解问题视为二元分类并采用决策树(Decision Trees)C4.5算法以来,共指消解开始在二元分类的框架下获得了长足的发展。典型常用的基于统计的机器学习有决策树、最大熵、支撑向量机,这种基于统计学习的分类方法都是要先在训练语-->料上进行统计训练,得到一个可以统一描述问题的学习模型后,再将这个模型应用到需要分类的问题上。这种方法虽然能够取得一定的成绩,但是对于共指消解却存在一定的问题。分类算法在进行训练的过程中不断的优化过程中,每次进行选择时都是选择能够覆盖多数实例的优化方向,对于未能覆盖的实例不做考虑。这种情况下最终学习得到的模型只能覆盖多数情况,对于一些频率较低的实例就会存在错分的可能性。这种情况对于训练实例数量本来就相对较少的共指尤为突出。事实上,这种可能错分的频率较低的实例数量众多。
技术实现思路
为了解决上述问题,本专利技术公开了一种基于实例动态泛化的共指消解方法,不仅解决了共指统计模型中长尾效应,还充分发挥低频训练样本的作用,使得本来就很珍贵的训练样本得以充分的发挥,并且使实例的动态泛化机制能够自适应的将测试实例的分类问题转变为训练实例库中最佳泛化点的选定与利用,最终找到最佳匹配的训练实例。本专利技术解决上述技术问题的技术方案是:一种基于实例的动态泛化共指消解方法,其特征在于所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成;所述训练实例库构建阶段包括:A、对训练语料进行底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;B、利用标注语料中共指链上的名词短语和A中抽取的名词短语,构造正/反训练实例;C、抽取各正/反实例的特征取值,根据特征取值生成属于该实例的“泛化点”;D、构建带“泛化点”的训练实例库,并对训练实例库建立倒排索引。所述篇章内实体消解阶段包括:E、接收待处理的纯文本,并进行各种底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;F、利用E中抽取的名词短语构造可能存在共指关系的候选实例,抽取该候选实例的特征取值;G、抽取候选实例的特征取值,根据特征取值生成属于该实例的“泛化点”;H、根据动态泛化算法,利用候选实例的“泛化点”对训练实例库中的实例反复筛选泛化,剩余训练实例中正例所占比例作为该测试实例的正例置信度;I、根据各候选实例的正例置信度给出二元分类结果并合成最终共指链,共指消解完成。其中,步骤A和E步骤中所述自然语言预处理过程包括:断句,根据文档中的标点符号,将文档正确切分为一个个独立句子;分词,将文档中的字符序列切分成若干个单独的词;词性标注,为分词结果得到的词标注上词性标签;名词短语识别,根据词性标注结果和有定性描述和指示性描述的相关关键字识别出文档中的名词短语;命名实体识别,根据分词和词性标注结果,识别出当前领域中所关注的命名实体;-->句法分析,根据分词和词性标注结果,构建各句子的短语结构句法树。本专利技术步骤B中所述构造训练实例包括:a.同一共指链上,存在共指关系的两个相邻名词短语i、j构成正例对<i,j>;b.共指链上,存在共指关系的两个相邻名词短语i、j之间的其他名词短语k(i<k<j),与名词短语j构成反例对<k,j>。本专利技术中,对训练/测试实例的特征取值生成“泛化点”的具体过程为:针对当前考查的实例属性,抽取实例的特征取值,每个特征取值对应一个“泛化点”,泛化点形式化表示为“[a/b/ab].特征名.特征取值”,其中第一部分表示特征所描述的对象,a表示先行语,b表示照应语,ab表示两者先行语与照应语的联合体。本专利技术步骤D中所述构建训练实例库和建立倒排索引的具体过程为:a.对每个正/反训练实例生成所有“泛化点”;b.训练实例库中每一行记录存储了训练实例的所有信息,包括训练实例的类别标签“+”或“-”,该实例的所有“泛化点”由泛化点类型、特征名称、特征取值三部分信息组成;c.以建立后的训练实例库为基础,泛化点作为关键字,拥有该泛化点的所有训练实例在实例库中的位置列表作为索引项,由此建立训练实例库的倒排索引。上述提及的泛化点类型分为以下三种:a.枚举型,特征的可能取值为离散值;b.确定无穷型,这种类型主要是针对可能会有无穷种返回结果的特征,而且在动态泛化过程中进行泛化点匹配时,不再需要对这些特征取值进一步切分使用,这种类型主要指返回值为字符串形式的特征;c.变化无穷型,这种类型主要是针对可能会有无穷种返回结果的特征,并且在动态泛化过程中进行泛化点匹配时,需要对这些特征取值进一步切分使用,这种类型主要指返回值为树状的图结构。本专利技术中步骤H中所述动态本文档来自技高网
...
一种基于实例动态泛化的共指消解方法

【技术保护点】
一种基于实例的动态泛化共指消解方法,其特征在于所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成;所述训练实例库构建阶段包括:A、对训练语料进行底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;B、利用标注语料中共指链上的名词短语和A中抽取的名词短语,构造正/反训练实;C、抽取各正/反实例的特征取值,根据特征取值生成属于该实例的“泛化点”;D、构建带“泛化点”的训练实例库,并对训练实例库建立倒排索引;所述篇章内实体消解阶段包括:E、接收待处理的纯文本,并进行各种底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;F、利用E中抽取的名词短语构造可能存在共指关系的候选实例,抽取该候选实例的特征取值;G、抽取候选实例的特征取值,根据特征取值生成属于该实例的“泛化点”;H、根据动态泛化算法,利用候选实例的“泛化点”对训练实例库中的实例反复筛选泛化,剩余训练实例中正例所占比例作为该测试实例的正例置信度;I、根据各候选实例的正例置信度给出二元分类结果并合成最终共指链,共指消解完成。

【技术特征摘要】
1.一种基于实例的动态泛化共指消解方法,其特征在于所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成;所述训练实例库构建阶段包括:A、对训练语料进行底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;B、利用标注语料中共指链上的名词短语和A中抽取的名词短语,构造正/反训练实;C、抽取各正/反实例的特征取值,根据特征取值生成属于该实例的“泛化点”;D、构建带“泛化点”的训练实例库,并对训练实例库建立倒排索引;所述篇章内实体消解阶段包括:E、接收待处理的纯文本,并进行各种底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;F、利用E中抽取的名词短语构造可能存在共指关系的候选实例,抽取该候选实例的特征取值;G、抽取候选实例的特征取值,根据特征取值生成属于该实例的“泛化点”;H、根据动态泛化算法,利用候选实例的“泛化点”对训练实例库中的实例反复筛选泛化,剩余训练实例中正例所占比例作为该测试实例的正例置信度;I、根据各候选实例的正例置信度给出二元分类结果并合成最终共指链,共指消解完成。2.根据权利要求1所述的一种基于实例的动态泛化共指消解方其特征还在于步骤A和E步骤中所述自然语言预处理过程包括:断句;分词;词性标注;名词短语识别;命名实体识别和句法分析。3.根据权利要求1所述的一种基于实例的动态泛化共指消解方法,其特征还在于步骤B中所述构造训练实...

【专利技术属性】
技术研发人员:秦兵刘挺郎君黎耀炳张牧宇
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1