当前位置: 首页 > 专利查询>上海大学专利>正文

基于事件的中文指代语料库构建方法技术

技术编号:15724705 阅读:326 留言:0更新日期:2017-06-29 10:57
本发明专利技术涉及一种基于事件的中文指代语料库构建方法。本方法主要包括以下几个步骤:(1) 选择CEC2.0语料库作为构建基础,(2) 确定指代标注的目标以及标注方式,(3) 根据具体的指代目标制定相应的标注规范,(4) CEC2.0语料文本预处理,(5) 自动标注事件要素以及事件指代,(6) 通过人工标注进一步优化标注结果,(7)设定一致性检验步骤,确保语料标注的质量。本发明专利技术克服了现有的指代消解语料库的缺陷。该方法不但可以覆盖语料库中的所有事件,而且是建立在中文句法分析和语义分析基础之上的,符合中文的特点,该方法还能够对标注后的语料进行一致性检查,以保证语料标注质量。

【技术实现步骤摘要】
基于事件的中文指代语料库构建方法
本专利技术属于自然语言处理领域(NaturalLanguageProcessing),涉及一种基于事件的中文指代语料库构建方法。
技术介绍
指代是一种常见的语言现象,在日常对话以及文本中大量出现。指代可以使语言表达简洁连贯,有利于语言交流以及文本书写。但大量地使用指代会增加计算机理解语言以及文本的难度。指代消解的主要任务就是识别篇章中不同表达方式描述的相同实体。以往大量的研究工作都是集中在非事件的文本中,并取得了一定的成果。随着“事件”这一概念的兴起,越来越多的学者开始着手面向事件的研究。事件关系到多方面的要素,是比静态概念粒度更大的知识表示单元,以事件作为人类知识的基本单元,更接近于人类的认知过程,更符合客观实际,受到了越来越多领域的关注,逐渐被计算机语言学、人工智能、信息检索、信息抽取、自动文摘等知识处理领域所采用。从上个世纪80年代末,一些信息抽取的国际测评会议开始兴起,如信息理解会议(MUC),自动内容抽取(ACE)等,这些会议对信息抽取以及指代消解等自然语言处理技术提供了统一的测试语料和测评方法,它们的召开在很大程度上推动了指代消解的发展,特别是这些会议提供的测试语料,使得指代消解系统从基于启发性规则的消解方法转向了基于数据驱动的消解方法。例如,MUC语料采用的是SGML标注方法,采用<COREFID=”x”>、<COREFID=”x”REF=”y”>分别表示实体、参照表达式的左边边界,用</COREF>表示实体、参照表达式的右边边界,x从1开始严格单调递增,表示实体在文本中的顺序标号,REF表示该实体的先行语的信息,如果y等于某一个x的值,则这个参照表达式的先行语就是ID号为x的实体,若无REF值,则这个实体不存在先行语;而ACE语料与MUC语料不同,以ACE2005为例,它是通过指代链描述文本中的指代关系,将指向同一实体的表达都放在一条具有相同编号的指代链中,值得一提的是,ACE语料从ACE2003开始加入中文语料,目前已达到了30万字的训练语料、5万字的测试语料,而且加入了对事件提及的评测,这是最早针对中文指代消解的国际测评语料资源,对于中文指代消解的发展起到了很大的推动作用。2011年CoNLL提供了针对英文的OntoNotes4.0语料库,而且对事件名词与动词的共指关系进行了标注,并在2012年推出OntoNotes5.0,提供英文、中文以及阿拉伯文的语料进行多语言的共指消解评测。近些年,国内对指代消解的研究也逐渐增多,相关语料库的构建也有很多。例如,赵知纬等在ACE2005中文语料库的基础上构建的一个面向信息抽取的中文跨文本指代语料库,舒佳根等在ACE2005中文语料和中文维基百科基础上构建的一个实体链接语料库。然而,这些语料库大多不是基于事件的标注,虽然ACE语料库定义了8类事件,并对事件提及进行了评测,但其对事件的理解还停留在篇章层次,没有细化到具体的句子,而且并不能覆盖所有事件,而且它对事件提及的评测并没有涉及共指消解的问题。OntoNotes语料库提供的关于事件的共指关系,但仅仅涉及到英文,不适合中文的语句分析。国内大多数的语料库也是建立在像ACE中文语料的基础上,并没有以事件作为知识表示单元进行标注。事件中涉及多方面的实体,称之为要素,与传统文本中的静态概念一样,同样存在着大量的指代现象,同时,事件本身也存在着不少的指代,对于面向事件的应用来说,它们带来了许多的不确定性,需要对他们进行处理和研究,这就需要语料库的帮助,然而,到目前为止,还没有面向事件的中文指代语料库。
技术实现思路
本专利技术就是为了弥补现有的指代消解语料库的缺陷,提供一种基于事件的中文指代语料库构建方法,在CEC2.0语料库的基础上,构建了一个面向事件的中文指代语料库,其中包括了对已存在要素、缺省要素和事件的指代标注。该方法不但可以覆盖语料库中的所有事件,而且是建立在中文句法分析和语义分析基础之上的,符合中文的特点,该方法还能够对标注后的语料进行一致性检查,以保证语料标注的质量。下面三个定义为本专利技术中涉及到的概念:定义1.先行要素和照应要素:面向事件的中文文本中如果存在要素间指代关系,表达较为具体的要素称为先行要素,表达较为抽象的要素称为照应要素。定义2.先行事件和照应事件:面向事件的中文文本中如果存在事件间的指代关系,表达较为具体的事件称为先行事件,表达较为抽象的事件称为照应事件。事件的具体和抽象的判别与事件所包含的要素是否齐全有关,即事件的对象、环境和时间要素是否缺省。定义3.面向事件的指代消解:在面向事件的文本中寻找先行要素(或先行事件)和照应要素(或照应事件)之间的关系,并明确给出照应要素(或照应事件)所指向的先行要素(或先行事件)的过程。为达到上述目的,本专利技术采用下述技术方案:一种基于事件的中文指代语料库构建方法,其特征在于操作步骤如下:(1)选择CEC2.0语料库作为构建基础。A.选择CEC2.0作为构建的基础语料库。B.对照CEC2.0语料标注规范,检验事件以及事件要素标注的准确性。C.对于标注不完整的语料补充相关标注,标注错误的语料进行更正。(2)确定指代标注的目标以及标注方式。A.指代标注的目标分为两大类:事件要素(对象、环境和时间)的指代标注和事件的指代标注,其中事件要素的指代标注又分为已存在要素的指代标注和缺省要素的指代标注两种。B.为便于计算机做相关处理,所有类型的指代标注都采用XML格式。事件要素分为已存在要素和缺省要素,所以相应的指代标注有两种形式:第一种形式为属性(Attribute)标注,这种标注只针对要素的指代,与事件的标注无关,目的是进行事件中缺省要素的标注;第二种形式为标识(Tag)标注,即单独用一个标识进行指代标注,目的是对已存在要素和事件进行标注。(3)根据具体的指代目标制定相应的标注规范。A.缺省要素的标注规范:A.对象要素是在标识Participant或Object的属性sid(主体编号)或oid(客体编号)中进行标注;B.环境要素是在标识Location的属性lid中进行标注;C.时间要素是在标识Time的属性tid中进行标注。B.已存在要素标注规范:1.对象要素有两种语义类型,在语料库中分别以Participant和Object这两个标识进行标注,前者与人有关,后者是与物有关,所以它们不属于一个语义类型,所以是不能相互指代的。2.环境要素的标注,除了标注指向同一地理位置的要素,还要进行基准类型的标注,即通过先行环境要素,我们可以将照应环境要素的地理位置进行具体化。3.时间要素与环境要素类似,除了标注指向同一时间的要素,也要进行基准类型的标注。C.事件标注规范:首先比较两个事件的触发词是否相同或同义,若是,则进行下一步,否则两事件无指代关系。然后比较两个事件各要素,因为每个事件必须包含触发词,而其他要素可能缺省,不会出现,所以要根据上下文,补全缺省要素,然后判断两事件是否具有指代关系,具有指代关系的两事件的各要素必须一致,即指向现实中的同一实体。(4)CEC2.0语料文本预处理。A.CEC2.0语料库中没有对ReportTime(报道时间)进行编号,它可以作为时间要素指代标注中的基准本文档来自技高网
...
基于事件的中文指代语料库构建方法

【技术保护点】
一种基于事件的中文指代语料库构建方法,其特征在于操作步骤如下:(1) 选择CEC2.0语料库作为构建基础,(2) 确定指代标注的目标以及标注方式,(3) 根据具体的指代目标制定相应的标注规范,(4) CEC2.0语料文本预处理,(5) 自动标注事件要素以及事件指代,(6) 通过人工标注进一步优化标注结果,(7) 设定一致性检验步骤,确保语料标注的质量。

【技术特征摘要】
1.一种基于事件的中文指代语料库构建方法,其特征在于操作步骤如下:(1)选择CEC2.0语料库作为构建基础,(2)确定指代标注的目标以及标注方式,(3)根据具体的指代目标制定相应的标注规范,(4)CEC2.0语料文本预处理,(5)自动标注事件要素以及事件指代,(6)通过人工标注进一步优化标注结果,(7)设定一致性检验步骤,确保语料标注的质量。2.根据权利要求1所述的基于事件的中文指代语料库构建方法,其特征在于所述步骤(1)选择CEC2.0语料库作为构建基础:(1-1).选择CEC2.0作为构建的基础语料库;(1-2).对照CEC2.0语料标注规范,检验事件以及事件要素标注的准确性;(1-3).对于标注不完整的语料补充相关标注,标注错误的语料进行更正。3.根据权利要求1所述的基于事件的中文指代语料库构建方法,其特征在于所述步骤(2)确定指代标注的目标以及标注方式:(2-1).指代标注的目标分为两大类:事件要素——对象、环境和时间的指代标注和事件的指代标注,其中事件要素的指代标注又分为已存在要素的指代标注和缺省要素的指代标注两种;(2-2).为便于计算机做相关处理,所有类型的指代标注都采用XML格式,事件要素分为已存在要素和缺省要素,所以相应的指代标注有两种形式:第一种形式为属性Attribute标注,这种标注只针对要素的指代,与事件的标注无关,目的是进行事件中缺省要素的标注;第二种形式为标识Tag标注,即单独用一个标识进行指代标注,目的是对已存在要素和事件进行标注。4.根据权利要求1所述的基于事件的中文指代语料库构建方法,其特征在于所述步骤(3)根据具体的指代目标制定相应的标注规范:(3-1).缺省要素的标注规范:A.对象要素是在标识Participant或Object的属性主体编号sid或客体编号oid中进行标注;B.环境要素是在标识Location的属性lid中进行标注;C.时间要素是在标识Time的属性tid中进行标注;(3-2).已存在要素标注规范:A.对象要素有两种语义类型,在语料库中分别以Participant和Object这两个标识进行标注,前者与人有关,后者是与物有关,所以它们不属于一个语义类型,所以是不能相互指代的;B.环境要素的标注,除了标注指向同一地理位置的要素,还要进行基准类型的标注,即通过先行环境要素,可将照应环境要素的地理位置进行具体化;C.时间要素与环境要素类似,除了标注指向同一时间的要素,也要进行基准类型的标注;(3-3).事件标注规范:首先比较两个事件的触发词是否相同或同义,...

【专利技术属性】
技术研发人员:张亚军刘宗田李强周文刘炜
申请(专利权)人:上海大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1