当前位置: 首页 > 专利查询>苏州大学专利>正文

一种自然语言句子的语义角色标注方法技术

技术编号:2913385 阅读:560 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种自然语言句子的语义角色标注方法,其特征在于:采用联合学习模型,同时实现中文句法分析和语义角色标注。本发明专利技术通过联合模型的使用,能够同时输出一个句子的句法分析结果和给定谓词的语义角色标注结果。在联合学习模型中,由于句法分析模型中增加了语义信息,使得训练出来的模型更适合于语义角色标注任务,因此由此模型输出的语义角色标注性能更高。同时联合模型输出的句法分析结果同单个句法分析模型的结果相比,两者性能不会有很大差别,甚至由于语义信息的加入,还能够提高句法分析的性能。

【技术实现步骤摘要】

本专利技术涉及一种对自然语言的语义分析的方法,尤其涉及一种对自然语言句子的语义角色进行分析和标注的方法,属于计算语言学中的自然语言处理领域。
技术介绍
语义分析是自然语言处理的一个关键问题。作为目前的热点研究课题之一,语义角色标注(Semantic Role Labeling,SRL)是浅层语义分析(ShallowSemantic Parsing)的一种,其实质是在句子级别进行浅层的语义分析。所谓语义角色标注,就是对于给定句子,对句中的每个谓词标注出句中的相应语义成分,并作相应的语义标记,如施事、受事、工具或附加语等。SRL能应用于问答系统、信息抽取、文本摘要、文本蕴含等领域,具有广泛的应用前景。基于机器学习的语义角色标注通常可分为四个阶段:a)预处理,通常过滤掉不可能成为语义角色的句法成分;b)语义成分识别,识别出哪些标注单元是某一目标谓词的语义角色;c)语义角色分类,为识别语义成分的单元进行语义角色的分类;d)后处理,对标注的语义角色进行全局优化,确定合理的角色组合。其中,识别和分类阶段一般使用局部推导。所谓局部推导是指独立决定句中每个成分的语义标签,而不依赖于其他成分的标注,这样训练得到的模型称为局部模型。相应地,全局推导一般发生在后处理阶段。所谓全局推导是指在局部推导的基础上,考虑各成分标签之间的依赖关系,通过全局模型集成相关硬限制和软约束条件,从而得到合理的语义角色组合。通常,合理地集成局部模型和全局模型,能大大提高系统的性能和健壮性。局部模型的学习方法通常可分为两类:基于特征向量的方法和基于核函数的方法。从目前而言,基于特征向量的方法,取得了较大的成功,速度和性能都大大优于基于核函数的方法。基于特征向量的方法需要人为定义大量具有区分度的特征模板,然后根据-->此模板将每个实例转化为特征向量进行学习或预测操作。目前主要集中于特征工程和机器学习模型的研究。但由于基于特征向量的方法仅仅反映了待标注单元的局部信息,不能很好地反映全局信息和结构化句法信息,因此人们探索基于核函数的方法进行语义角色标注。基于核函数的方法的基本思想是将低维线性不可分问题映射到高维空间,使之成为线性可分问题。通常这种映射可以通过计算核函数隐式达到,从而降低时间和空间复杂性。核函数能很好的融入支持向量机、感知器等学习算法,因而引起了人们广泛的兴趣。自然语言处理任务包括词性标注、句法分析、语义分析、信息抽取等,通常是按序进行的,即后一项任务在前一项任务的基础上进行,例如语义角色分析通常要基于句法分析的结果。句法分析(Syntactic Parsing)是自然语言处理的一个基本问题和关键技术。它的任务是根据给定的语法,自动推导出句子的语法结构,即句子所包含的句法单位以及这些句法单位之间的关系。句法分析的目的主要有两个:一个是确定句子所包含的“谱系”结构;另一个是确定句子的组成成份之间的关系。通常,输入一个句子,即单词之间的线性次序,输出一个非线性的数据结构,如短语结构树(如句法树)或有向无环图(如依存关系图)等。因此,现有技术中,总是首先进行句法分析,获得句法树,然后在句法树的基础上,进行语义分析,包括进行句子的语义角色标。这样的做法会带来一系列问题,其一,前项任务在进行时,无法考虑到后面任务的具体需求而不能满足需求,通常句法分析面向后续的多个任务,因此输出结果比较通用,而语义角色标注除需要这些通用信息外,还可能需要一些特定的信息,如句法树或其子树的概率信息等,这些信息句法分析系统通常比较欠缺;其二,后项任务的性能受到前面任务性能的制约,句法分析结果的好坏会直接影响到语义角色标注的性能。现有的研究表明,在英文手工句法树和自动句法树上进行的语义角色标注,其性能(F1值)相差10个百分点,而基于中文手工句法树和自动句法树上进行的语义角色标注,其F1值相差甚至达30个百分点。
技术实现思路
本专利技术目的是本专利技术的目的是提供一种有效的句子的语义角色标注方法,-->通过建立联合推导模型,减少自动句法分析结果对语义角色标注性能的影响,从而解决基于自动句法分析的语义角色标注方法性能较差的问题。为达到上述目的,本专利技术采用的技术方案是:一种自然语言句子的语义角色标注方法,采用联合学习模型,同时实现中文句法分析和语义角色标注,包括如下步骤:(1)生成语义角色标注模型:生成训练文件:从标注语料库中,根据下表中的特征抽取特征,生成所需的训练文件; 位置路径中心词及其词性谓词子类框架句法成分类型句法成分首词和尾词句法成分左兄弟结点类型谓词语法框架动词类别句法成分前一个词句法成分父亲结点类型压缩路径句法成分是否有右兄弟结点句法成分左兄弟结点中心词类型修改的路径路径中是否存在根结点模型生成:利用训练文件对最大熵分类器模型进行训练,得到语义角色标注模型文件;该模型可经过足够的标注语料训练学习后得到,使用该模型能够有效地识别出句子中给定谓词的语义角色。(2)生成联合学习模型:在现有句法分析模型中,基于词汇化PCFG的句法分析模型虽然能够取得较好的性能,但执行效率过低,时间复杂度为0(n5);与此相比,基于历史信息的句法分析模型,按照从左至右的方式进行制定决策,仅需遍历一次,此方法由于只需一次从左至右遍历,故执行效率较高,但缺点是,在作决策时仅使用到当前位置前面的组块信息,且父结点通常早于其子结点生成,在子结点未全部生成的情况下,根据所处的上下文信息做出的预测并不可靠,这样势必造成性能的下降。例如,基于图1所示的基本短语识别结果,要得到正确句法分析结果,则前四个决策必须是{Start S和No、Start VP和No本文档来自技高网
...

【技术保护点】
一种自然语言句子的语义角色标注方法,其特征在于:采用联合学习模型,同时实现中文句法分析和语义角色标注,包括如下步骤: (1)生成语义角色标注模型: 生成训练文件:从标注语料库中,根据下表中的特征抽取特征,生成所需的训练文件;   *** 位置 路径 中心词及其词性 谓词 子类框架 句法成分类型 句法成分首词和尾词 句法成分左兄弟结点类型 谓词语法框架 动词类别 句法成分前一个词 句法成分父亲结点类型 压缩路径 句法成分是否有右兄弟结点  句法成分左兄弟结点中心词类型 修改的路径 路径中是否存在根结点 模型生成:利用训练文件对最大熵分类器模型进行训练,得到语义角色标注模型文件; (2)生成联合学习模型: 提取训练语料:从树库中,提取出句法分析训练语料,句 法分析的训练事件中包含语义特征; 生成训练文件:在句法分析模型常用特征基础上,添加语义特征,生成训练文件; 所述句法分析模型常用特征由下表表示: 第n棵树的中心词、成分标记和决策标记 第n棵树的中心词词性、成分标记和决 策标记 第n棵树的成分标记和决策标记 第n棵树的上下文特征 所述语义特征由下表表示: 谓词 当前谓语动词本身 谓词类别 谓词所属的动词类别 路径 当前句法成分到谓词的路径 谓词角色 调用语义角色标注模型识别出的 谓词语义角色 语义特征的获取采用步骤(1)的语义角色标注模型实现; 模型生成:利用训练文件对最大熵分类器模型进行训练,得到联合学习模型文件; (3)词性标记:调用词性标记模块,对给定句子进行词性标注,保留前N种最优的词性标记 系列结果; (4)基本短语识别:调用基本短语识别模块,分别对步骤(3)输出的N种词性标记结果,进行基本短语识别,最后保留前N种最优的基本短语识别结果; (5)句法分析:调用联合学习模型,以步骤(4)输出的N种基本短语识别结果作为 输入,输出最优的句法分析结果和语义角色标注结果; 其中,N为10~20的整数。...

【技术特征摘要】
1.一种自然语言句子的语义角色标注方法,其特征在于:采用联合学习模型,同时实现中文句法分析和语义角色标注,包括如下步骤:(1)生成语义角色标注模型:生成训练文件:从标注语料库中,根据下表中的特征抽取特征,生成所需的训练文件; 位置路径中心词及其词性谓词子类框架句法成分类型句法成分首词和尾词句法成分左兄弟结点类型谓词语法框架动词类别句法成分前一个词句法成分父亲结点类型        压缩路径句法成分是否有右兄弟结                      点                    句法成分左兄弟结点中                    心词类型            修改的路径路径中是否存在根结点模型生成:利用训练文件对最大熵分类器模型进行训练,得到语义角色标注模型文件;(2)生成联合学习模型:提取训练语料:从树库中,提取出句法分析训练语料,句法分析的训练事件中包含语义特征;生成训练文件:在句法分析模型常用特征基础上...

【专利技术属性】
技术研发人员:王红玲朱巧明钱培德孔芳李培峰周国栋钱龙华
申请(专利权)人:苏州大学
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1