一种融合谓词先验信息的语义角色标注方法技术

技术编号:16427796 阅读:40 留言:0更新日期:2017-10-21 22:31
本发明专利技术涉及自然语言处理技术领域,提供一种融合谓词先验信息的语义角色标注方法,对句子进行浅层语义分析的方法,包括步骤:(1)对句子进行分词和句法分析;(2)找出句子中的核心谓词;(3)针对当前谓词,利用一个基本语义角色标注系统生成初始语义角色标注结果,从而获得初始候选论元;(4)从训练数据中计算出每个谓词的谓词论元群组分布情况;(5)对初始语义角色标注结果进行联合分析,首先对所有的候选论元进行核心论元识别,然后根据当前谓词的谓词论元群组的概率分布,计算出得分最高的谓词论元群组,作为最终语义角色标注结果。本发明专利技术能够充分挖掘谓词本身的特性,合理利用谓词与论元之间的联系,提高语义角色标注的准确率。

A semantic role labeling method fusing predicate prior information

The present invention relates to the technical field of Natural Language Processing, labeling method incorporating a priori information of the predicate semantic role, method, shallow semantic analysis of sentences includes the steps of: (1) analyze the participle and the syntax of the sentence; (2) find the core predicate in the sentence; (3) for the current predicate, using a basic semantic role labeling system to generate the initial results of semantic role labeling, so as to obtain the initial candidate argument; (4) from the training data to calculate each predicate predicate argument group distribution; (5) to the initial semantic role annotation results combined with analysis, first of all is the core element of the candidate argument identification, probability distribution and argument group according to the current predicate predicate, calculate the highest score of the predicate argument group, as the final result of semantic role labeling. The invention can fully excavate the characteristics of the predicate itself, and rationally utilize the connection between the predicate and the argument element, so as to improve the accuracy rate of the semantic role labeling.

【技术实现步骤摘要】
一种融合谓词先验信息的语义角色标注方法
本专利技术涉及自然语言处理
,更具体地,是一种融合谓词先验信息的语义角色标注方法。
技术介绍
语义角色标注是一种浅层语义分析技术,它以句子的谓词为中心,研究句子中的各个成分与谓词之间的语义关系,并用各种语义角色来描述这种关系。一般地,在语义角色标注中,句子中的一个谓词代表了一个事件,而与谓词相关的其他成分通常表示了与该事件相关的信息。下面是语义角色标注的一个例子:[他们]A0[昨天]AM-TMP[在美国]AM-LOC[举行]Pred了[比赛]A1。其中,“举行”是谓词,代表了一个事件,“他们”是事件的施事者,“比赛”是受事者,“昨天”是事件发生的时间,“在美国”是事件发生的地点。由上述例子可以看出,对于一个句子,语义角色标注给出了这个句子所描述事件的完整信息,包括了事件的参与者、事件发生的时间、地点、原因等。因此,可以认为语义角色标注以一种简单而有效的方式表达了一个句子所包含的浅层语义信息。目前广泛使用的一个语义角色标注体系是PropositionBank(PropBank)的标注体系,具体说明可以参考文献【MarthaPalmer,DanielGildea,andPaulKingsbury.2005.ThePropositionBank:AnAnnotatedCorpusofSemanticRoles.ComputationalLinguistics,31(1):71-106.】。所述标注体系定义了一套通用的标签集,所述标签集中有A0、A1、A2、A3、A4、A5这六个关键语义角色标签,以及以AM开头的附属性标签如AM-TMP,AM-ADV等。对于一个谓词,不同的语义角色表示不同的含义。例如在所述体系中语义角色A0表示谓词所代表的动作的施事方,而语义角色A1则表示谓词所代表的动作的受事方。从上述的例子我们也可以看出,语义角色标注能够提取出一个句子的谓词-论元结构,从而反映出这个句子的语义框架。如果语义角色标注能够做好,将能极大地提高包括信息检索与抽取、机器翻译、自动文摘在内的多项技术的水平。一个句子描述了一个语义场景,而句子中的谓词和语义角色组成了场景的核心要素,因此谓词和语义角色是一个统一的整体,相互之间存在着紧密的联系。然而现有的语义角色标注系统却忽视了谓词和语义角色之间的联系。为了对一个候选论元赋予一个语义角色,现有的语义角色标注系统的做法是:对于一个候选论元,首先从句法树中抽取大量的句法和词汇化特征,然后把抽取到的特征输入到一个分类器中完成分类,之后再对其余的候选论元进行相同的操作。从上述过程中,可以得出以下结论:1)每个候选论元的标注过程是独立进行的;2)谓词对于候选论元标注的作用仅仅体现在特征中(谓词作为一种特征或是包含在其他的复合特征中)。由此可以看出一般的语义角色标注过程存在明显的不合理的地方。一方面,各个候选论元存在紧密的联系。一个常见的事实是在一个谓词―论元结构中核心论元最多出现一次,比如一个候选论元被标记为A0,其它候选论元不应再被标记为A0。除此之外,谓词与论元以及论元与论元之间的关系是多种多样的。另一方面,在谓词―论元结构中谓词处于支配地位,那么在具体的标注方法中也应当更加合理地利用谓词。然而在现有的方法中,谓词的作用仅仅体现在进行候选论元分类时作为一种特征,这显然与谓词在谓词―论元结构中的支配地位相悖。
技术实现思路
本专利技术的目的是为了克服上述现有技术中的不足,提出了一种融合谓词先验信息的语义角色标注方法,该方法能够充分挖掘谓词本身的特性,合理利用谓词与论元之间的联系,提高语义角色标注的准确率。为了实现所述目的,本专利技术提供了一种融合谓词先验信息的语义角色标注方法,包括以下步骤:步骤S1:对句子进行分词和句法分析;步骤S2:找出核心谓词;对句子进行分词和句法分析后,遍历每个词,并从中挑选出词性为“VA”、“VC”、“VE”和“VV”的词作为核心谓词;步骤S3:针对每个核心谓词,利用一个基本语义角色标注系统生成初始语义角色标注结果,从而获得初始候选论元;步骤S4:从训练数据中计算出每个谓词的谓词论元群组分布情况;步骤S5:对初始语义角色标注结果进行联合分析,首先对所有的候选论元进行核心论元识别,然后根据当前谓词的谓词论元群组的概率分布,计算出得分最高的谓词论元群组,作为最终语义角色标注结果。在上述技术方案中,步骤S3中所述基本语义角色标注系统采用一个基于最大熵分类器的语义角色标注系统,所述的基于最大熵分类器的语义角色标注系统以句法树作为输入,输出语义角色标注结果,从而获得初始候选论元;本专利技术使用开源的最大熵工具包来实现所述的基于最大熵分类器的语义角色标注系统,对于每一个论元,所述最大熵分类器都能输出一个分类概率,用这个分类概率作为所述论元的概率。在上述技术方案中,基本语义角色标注系统中的分类器采用了最大熵分类器,分类器使用的特征包括:(a)谓词;(b)候选论元到谓词的句法路径;(c)候选论元的头节点;(d)候选论元头结点的词性;(e)谓词类别;(f)谓词和候选论元头节点的组合;(g)谓词和候选论元句法标签的组合;(h)谓词类别和候选论元头节点的组合;(i)谓词类别和候选论元句法标签的组合。在上述技术方案中,步骤S5中所述最终语义角色标注结果的生成步骤如下:步骤S51:利用一个二元分类器将初始候选论元分为核心论元和修饰论元;步骤S52:根据当前谓词的谓词论元群组分布情况,生成一个谓词论元群组;步骤S53:将谓词论元群组中核心论元块的标签赋予步骤S51识别出的核心论元,并计算出该谓词论元群组的得分;其中,在将谓词论元群组中核心论元块的标签赋予核心论元的过程中需要遍历该谓词论元群组的所有的角色标签组合,将角色标签依次的赋给候选论元,从中选择得分最高的标签组合作为该谓词论元群组的最终结果;步骤S54:重复步骤S52和步骤S53,从中选择得分最高的谓词论元群组作为最终语义角色标注结果。在上述技术方案中,用于区分核心论元和修饰论元的分类器采用最大熵分类器,分类器使用的特征包括了全部论元分类的特征,此外还包括以下特征:(A)谓词父节点的句法标签;(B)候选论元父节点的句法标签;(C)谓词的句法标签。通过上述技术方案可知,本专利技术方法具有如下的积极效果:(1)本专利技术通过谓词论元群组可直接将谓词与论元联系起来,并能从训练数据中获取到每个谓词的谓词论元群组的分布情况,从而可以将这些谓词的先验信息充分的挖掘出来,并将其融入到语义角色标注系统中;(2)本专利技术由于考虑了谓词的先验信息,并通过一个概率模型合理地利用这些先验信息,因此可以显著地提升语义角色标注系统的性能。在一个标准数据集―中文命题库上进行了实验验证。结果表明,相对于基线系统,本专利技术使得论元分类的错误数降低了14%,整体效果显著地提升了1%。附图说明图1是本专利技术方法的系统框架示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。本专利技术所有代码实现都是用C++编程语言完成,开发平台为Ubuntu12.04,但不限于此,这些并不是对本专利技术的限制;由于所写程序没有用到任何平台相关的代码,因此所述的系统实现也可以运行于其他版本的本文档来自技高网
...
一种融合谓词先验信息的语义角色标注方法

【技术保护点】
一种融合谓词先验信息的语义角色标注方法,其特征在于该方法包括以下步骤:(1)对句子进行分词和句法分析;(2)找出核心谓词;对句子进行分词和句法分析后,遍历句子的每个词,并从中挑选出词性为“VA”、“VC”、“VE”和“VV”的词作为核心谓词;(3)针对每个核心谓词,利用一个基本语义角色标注系统生成初始语义角色标注结果,从而获得初始候选论元;(4)从训练数据中计算出步骤(2)中获得的每个谓词的谓词论元群组分布情况;谓词论元群组的定义如下:

【技术特征摘要】
1.一种融合谓词先验信息的语义角色标注方法,其特征在于该方法包括以下步骤:(1)对句子进行分词和句法分析;(2)找出核心谓词;对句子进行分词和句法分析后,遍历句子的每个词,并从中挑选出词性为“VA”、“VC”、“VE”和“VV”的词作为核心谓词;(3)针对每个核心谓词,利用一个基本语义角色标注系统生成初始语义角色标注结果,从而获得初始候选论元;(4)从训练数据中计算出步骤(2)中获得的每个谓词的谓词论元群组分布情况;谓词论元群组的定义如下:其中,pred表示谓词,(ArgX:n1)表示核心论元ArgX跟随该谓词出现了n1,(ArgM:n2)表示修饰论元ArgM跟随该谓词出现了n2;谓词论元群组分布的计算公式如下所示,在上式中,pred表示某个谓词,PAC表示一个谓词论元群组,count(pred,PAC)和count(pred,PAC′)表示pred分别和PAC、PAC′在语料中出现的次数,∑count(pred,PAC′)表示对该pred所有谓词论元群组的次数;(5)对初始语义角色标注结果进行联合分析,首先对所有的候选论元进行核心论元识别,然后根据当前谓词的谓词论元群组的概率分布,计算出得分最高的谓词论元群组,作为最终语义角色标注结果。2.根据权利要求1所述的融合谓词先验信息的语义角色标注方法,其特征在于步骤(3)中所述基本语义角色标注系统采用一个基于最大熵分类器的语义角色标注系统,所述的基于最大熵分类器的单语语义角色标注系统以短语结构句法树作为输...

【专利技术属性】
技术研发人员:杨海彤王炜
申请(专利权)人:华中师范大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1