The present invention relates to the technical field of Natural Language Processing, labeling method incorporating a priori information of the predicate semantic role, method, shallow semantic analysis of sentences includes the steps of: (1) analyze the participle and the syntax of the sentence; (2) find the core predicate in the sentence; (3) for the current predicate, using a basic semantic role labeling system to generate the initial results of semantic role labeling, so as to obtain the initial candidate argument; (4) from the training data to calculate each predicate predicate argument group distribution; (5) to the initial semantic role annotation results combined with analysis, first of all is the core element of the candidate argument identification, probability distribution and argument group according to the current predicate predicate, calculate the highest score of the predicate argument group, as the final result of semantic role labeling. The invention can fully excavate the characteristics of the predicate itself, and rationally utilize the connection between the predicate and the argument element, so as to improve the accuracy rate of the semantic role labeling.
【技术实现步骤摘要】
一种融合谓词先验信息的语义角色标注方法
本专利技术涉及自然语言处理
,更具体地,是一种融合谓词先验信息的语义角色标注方法。
技术介绍
语义角色标注是一种浅层语义分析技术,它以句子的谓词为中心,研究句子中的各个成分与谓词之间的语义关系,并用各种语义角色来描述这种关系。一般地,在语义角色标注中,句子中的一个谓词代表了一个事件,而与谓词相关的其他成分通常表示了与该事件相关的信息。下面是语义角色标注的一个例子:[他们]A0[昨天]AM-TMP[在美国]AM-LOC[举行]Pred了[比赛]A1。其中,“举行”是谓词,代表了一个事件,“他们”是事件的施事者,“比赛”是受事者,“昨天”是事件发生的时间,“在美国”是事件发生的地点。由上述例子可以看出,对于一个句子,语义角色标注给出了这个句子所描述事件的完整信息,包括了事件的参与者、事件发生的时间、地点、原因等。因此,可以认为语义角色标注以一种简单而有效的方式表达了一个句子所包含的浅层语义信息。目前广泛使用的一个语义角色标注体系是PropositionBank(PropBank)的标注体系,具体说明可以参考文献【MarthaPalmer,DanielGildea,andPaulKingsbury.2005.ThePropositionBank:AnAnnotatedCorpusofSemanticRoles.ComputationalLinguistics,31(1):71-106.】。所述标注体系定义了一套通用的标签集,所述标签集中有A0、A1、A2、A3、A4、A5这六个关键语义角色标签,以及以AM开头的附属性 ...
【技术保护点】
一种融合谓词先验信息的语义角色标注方法,其特征在于该方法包括以下步骤:(1)对句子进行分词和句法分析;(2)找出核心谓词;对句子进行分词和句法分析后,遍历句子的每个词,并从中挑选出词性为“VA”、“VC”、“VE”和“VV”的词作为核心谓词;(3)针对每个核心谓词,利用一个基本语义角色标注系统生成初始语义角色标注结果,从而获得初始候选论元;(4)从训练数据中计算出步骤(2)中获得的每个谓词的谓词论元群组分布情况;谓词论元群组的定义如下:
【技术特征摘要】
1.一种融合谓词先验信息的语义角色标注方法,其特征在于该方法包括以下步骤:(1)对句子进行分词和句法分析;(2)找出核心谓词;对句子进行分词和句法分析后,遍历句子的每个词,并从中挑选出词性为“VA”、“VC”、“VE”和“VV”的词作为核心谓词;(3)针对每个核心谓词,利用一个基本语义角色标注系统生成初始语义角色标注结果,从而获得初始候选论元;(4)从训练数据中计算出步骤(2)中获得的每个谓词的谓词论元群组分布情况;谓词论元群组的定义如下:其中,pred表示谓词,(ArgX:n1)表示核心论元ArgX跟随该谓词出现了n1,(ArgM:n2)表示修饰论元ArgM跟随该谓词出现了n2;谓词论元群组分布的计算公式如下所示,在上式中,pred表示某个谓词,PAC表示一个谓词论元群组,count(pred,PAC)和count(pred,PAC′)表示pred分别和PAC、PAC′在语料中出现的次数,∑count(pred,PAC′)表示对该pred所有谓词论元群组的次数;(5)对初始语义角色标注结果进行联合分析,首先对所有的候选论元进行核心论元识别,然后根据当前谓词的谓词论元群组的概率分布,计算出得分最高的谓词论元群组,作为最终语义角色标注结果。2.根据权利要求1所述的融合谓词先验信息的语义角色标注方法,其特征在于步骤(3)中所述基本语义角色标注系统采用一个基于最大熵分类器的语义角色标注系统,所述的基于最大熵分类器的单语语义角色标注系统以短语结构句法树作为输...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。