基于事件的中文指代语料库构建方法技术

技术编号：15724705 阅读：326 留言：0更新日期：2017-06-29 10:57

本发明专利技术涉及一种基于事件的中文指代语料库构建方法。本方法主要包括以下几个步骤：(1) 选择CEC2.0语料库作为构建基础，(2) 确定指代标注的目标以及标注方式，(3) 根据具体的指代目标制定相应的标注规范，(4) CEC2.0语料文本预处理，(5) 自动标注事件要素以及事件指代，(6) 通过人工标注进一步优化标注结果，(7)设定一致性检验步骤，确保语料标注的质量。本发明专利技术克服了现有的指代消解语料库的缺陷。该方法不但可以覆盖语料库中的所有事件，而且是建立在中文句法分析和语义分析基础之上的，符合中文的特点，该方法还能够对标注后的语料进行一致性检查，以保证语料标注质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于事件的中文指代语料库构建方法
本专利技术属于自然语言处理领域（NaturalLanguageProcessing），涉及一种基于事件的中文指代语料库构建方法。
技术介绍
指代是一种常见的语言现象，在日常对话以及文本中大量出现。指代可以使语言表达简洁连贯，有利于语言交流以及文本书写。但大量地使用指代会增加计算机理解语言以及文本的难度。指代消解的主要任务就是识别篇章中不同表达方式描述的相同实体。以往大量的研究工作都是集中在非事件的文本中，并取得了一定的成果。随着“事件”这一概念的兴起，越来越多的学者开始着手面向事件的研究。事件关系到多方面的要素，是比静态概念粒度更大的知识表示单元，以事件作为人类知识的基本单元，更接近于人类的认知过程，更符合客观实际，受到了越来越多领域的关注，逐渐被计算机语言学、人工智能、信息检索、信息抽取、自动文摘等知识处理领域所采用。从上个世纪80年代末，一些信息抽取的国际测评会议开始兴起，如信息理解会议（MUC），自动内容抽取（ACE）等，这些会议对信息抽取以及指代消解等自然语言处理技术提供了统一的测试语料和测评方法，它们的召开在很大程度上推动了指代消解的发展，特别是这些会议提供的测试语料，使得指代消解系统从基于启发性规则的消解方法转向了基于数据驱动的消解方法。例如，MUC语料采用的是SGML标注方法，采用<COREFID=”x”>、<COREFID=”x”REF=”y”>分别表示实体、参照表达式的左边边界，用</COREF>表示实体、参照表达式的右边边界，x从1开始严格单调递增，表示实体在文本中的...
基于事件的中文指代语料库构建方法

【技术保护点】
一种基于事件的中文指代语料库构建方法，其特征在于操作步骤如下：(1) 选择CEC2.0语料库作为构建基础，(2) 确定指代标注的目标以及标注方式，(3) 根据具体的指代目标制定相应的标注规范，(4) CEC2.0语料文本预处理，(5) 自动标注事件要素以及事件指代，(6) 通过人工标注进一步优化标注结果，(7) 设定一致性检验步骤，确保语料标注的质量。

【技术特征摘要】
1.一种基于事件的中文指代语料库构建方法，其特征在于操作步骤如下：(1)选择CEC2.0语料库作为构建基础，(2)确定指代标注的目标以及标注方式，(3)根据具体的指代目标制定相应的标注规范，(4)CEC2.0语料文本预处理，(5)自动标注事件要素以及事件指代，(6)通过人工标注进一步优化标注结果，(7)设定一致性检验步骤，确保语料标注的质量。2.根据权利要求1所述的基于事件的中文指代语料库构建方法，其特征在于所述步骤(1)选择CEC2.0语料库作为构建基础：(1-1).选择CEC2.0作为构建的基础语料库；(1-2).对照CEC2.0语料标注规范，检验事件以及事件要素标注的准确性；(1-3).对于标注不完整的语料补充相关标注，标注错误的语料进行更正。3.根据权利要求1所述的基于事件的中文指代语料库构建方法，其特征在于所述步骤(2)确定指代标注的目标以及标注方式：(2-1).指代标注的目标分为两大类：事件要素——对象、环境和时间的指代标注和事件的指代标注，其中事件要素的指代标注又分为已存在要素的指代标注和缺省要素的指代标注两种；(2-2).为便于计算机做相关处理，所有类型的指代标注都采用XML格式，事件要素分为已存在要素和缺省要素，所以相应的指代标注有两种形式：第一种形式为属性Attribute标注，这种标注只针对要素的指代，与事件的标注无关，目的是进行事件中缺省要素的标注；第二种形式为标识Tag标注，即单独用一个标识进行指代标注，目的是对已存在要素和事件进行标注。4.根据权利要求1所述的基于事件的中文指代语料库构建方法，其特征在于所述步骤(3)根据具体的指代目标制定相应的标注规范：(3-1).缺省要素的标注规范：A.对象要素是在标识Participant或Object的属性主体编号sid或客体编号oid中进行标注；B.环境要素是在标识Location的属性lid中进行标注；C.时间要素是在标识Time的属性tid中进行标注；(3-2).已存在要素标注规范：A.对象要素有两种语义类型，在语料库中分别以Participant和Object这两个标识进行标注，前者与人有关，后者是与物有关，所以它们不属于一个语义类型，所以是不能相互指代的；B.环境要素的标注，除了标注指向同一地理位置的要素，还要进行基准类型的标注，即通过先行环境要素，可将照应环境要素的地理位置进行具体化；C.时间要素与环境要素类似，除了标注指向同一时间的要素，也要进行基准类型的标注；(3-3).事件标注规范：首先比较两个事件的触发词是否相同或同义，...

【专利技术属性】
技术研发人员：张亚军，刘宗田，李强，周文，刘炜，
申请(专利权)人：上海大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人