【技术实现步骤摘要】
本专利技术涉及文本信息抽取领域,具体涉及一种基于实例的动态泛化共指消解方法。
技术介绍
近年来,随着互联网上信息的爆炸式增长,每天出现的新信息大大超过了人类的处理能力。在自然语言处理、信息检索等诸多领域中,现实世界中的同一事物经常会有不同的名称以及描述。将它们正确对应到具体的事物,对于数据的后续处理和深入理解是非常必要的。在自然语言处理中,对指向同一实体的名词、代词、以及普通名词短语进行消解,可以使后续的实体关系的描述更加完善,为其他自然语言处理领域,如机器翻译、信息抽取、自动文摘及信息检索等奠定基础。所谓共指消解就是根据一篇文档中各个表述的自身内容以及所在上下文来进行所有表述的等价类划分。例如,在讨论中国、美国、日本等大国间贸易的文章中,开篇可能会写“中华人民共和国”,后面可能会说“中国”、“大中国”等,还会提到“这个国家”、“她”等。这些表述都是“中华人民共和国”这个实体的不同体现。虽然人们可以毫无困难的区分文章中同一实体的不同体现,但对计算机而言,仍是非常困难的。在某种意义上说,共指在自然语言中起到了超链接的作用。一方面,它使得作者在撰写文章时可以体现一定 ...
【技术保护点】
一种基于实例的动态泛化共指消解方法,其特征在于所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成;所述训练实例库构建阶段包括:A、对训练语料进行底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;B、利用标注语料中共指链上的名词短语和A中抽取的名词短语,构造正/反训练实;C、抽取各正/反实例的特征取值,根据特征取值生成属于该实例的“泛化点”;D、构建带“泛化点”的训练实例库,并对训练实例库建立倒排索引;所述篇章内实体消解阶段包括:E、接收待处理的纯文本,并进行各种底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;F、利用E中抽 ...
【技术特征摘要】
1.一种基于实例的动态泛化共指消解方法,其特征在于所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成;所述训练实例库构建阶段包括:A、对训练语料进行底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;B、利用标注语料中共指链上的名词短语和A中抽取的名词短语,构造正/反训练实;C、抽取各正/反实例的特征取值,根据特征取值生成属于该实例的“泛化点”;D、构建带“泛化点”的训练实例库,并对训练实例库建立倒排索引;所述篇章内实体消解阶段包括:E、接收待处理的纯文本,并进行各种底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;F、利用E中抽取的名词短语构造可能存在共指关系的候选实例,抽取该候选实例的特征取值;G、抽取候选实例的特征取值,根据特征取值生成属于该实例的“泛化点”;H、根据动态泛化算法,利用候选实例的“泛化点”对训练实例库中的实例反复筛选泛化,剩余训练实例中正例所占比例作为该测试实例的正例置信度;I、根据各候选实例的正例置信度给出二元分类结果并合成最终共指链,共指消解完成。2.根据权利要求1所述的一种基于实例的动态泛化共指消解方其特征还在于步骤A和E步骤中所述自然语言预处理过程包括:断句;分词;词性标注;名词短语识别;命名实体识别和句法分析。3.根据权利要求1所述的一种基于实例的动态泛化共指消解方法,其特征还在于步骤B中所述构造训练实...
【专利技术属性】
技术研发人员:秦兵,刘挺,郎君,黎耀炳,张牧宇,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:93
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。