藏语句法和语义角色联合标注方法技术

技术编号:9434563 阅读:118 留言:0更新日期:2013-12-12 00:36
本发明专利技术涉及将少数民族文字处理成汉语的方法,尤其涉及一种藏语句法和语义角色联合标注方法。其包括下列步骤:a)单复句区分;b)语义角色标记;c)谓词识别;d)动词语义分类;e)句法结构标注;f)编辑修订语义角色标注结果。本发明专利技术提取藏语句法和语义特征,一方面,可以直接利用藏语的语法标记,标注句子中所表达的施事、受事、时间、地点、方式等语义角色信息;另一方面,针对谓词的语义角色标注结果,可以反作用于句法解析过程,减少句法标记不能唯一确定的影响,从而提高句处理系统的性能。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及将少数民族文字处理成汉语的方法,尤其涉及一种。其包括下列步骤:a)单复句区分;b)语义角色标记;c)谓词识别;d)动词语义分类;e)句法结构标注;f)编辑修订语义角色标注结果。本专利技术提取藏语句法和语义特征,一方面,可以直接利用藏语的语法标记,标注句子中所表达的施事、受事、时间、地点、方式等语义角色信息;另一方面,针对谓词的语义角色标注结果,可以反作用于句法解析过程,减少句法标记不能唯一确定的影响,从而提高句处理系统的性能。【专利说明】
本专利技术涉及将少数民族文字处理成汉语的方法,尤其涉及一种。
技术介绍
藏文信息处理领域研究内容百花齐放,在字、词和短语处理方面陆续取得了突破,句处理阶段的攻关已经开始。语义分析是计算语言学领域最具挑战性的课题之一,也是制约语言信息技术大规模应用的主要瓶颈。语义分析就是根据句子结构和句中实词的词义,推导出句子的实际语义,这是句处理的主要目标。语义角色标注的任务,就是找出句子中谓词的相应语义角色成分,如:施事、受事、时间、地点、方式等,这些成分的标注对于理解一个句子的语义起着重要作用。句法分析是根据给定语法,推导出句子的语法结构,一是确定句子所包含的谱系结构,一是确定句子的组成成分。句法分析结果的表达形式是句法树。一般的语义角色标注方法,是在给定句法树的情况下,研究如何应用于各种特征作用于机器学习算法。传统的语义角色标注研究,一般是在句法处理基础上进行的。但是目前,很难获得藏语深层句法分析的结果。现有的藏文句法分析系统在通用领域的表现也不尽如人意。
技术实现思路
针对现有技术上存在的不足,本专利技术提供一种。为了实现上述目的,本专利技术是通过如下的技术方案来实现:一种,其包括下列步骤:a)单复句区分:将长句划分为若干短句;b)语义角色标记:格标记,包括语法角色成分、名物化或非谓动词组块标记,去除非标注内容;c)谓词识别:针对谓词特征,确定谓词所属的语义结构类别是形容词谓语句或动词谓语句;d)动词语义分类:针对动词后缀标记特征,确定动词语义结构类型;e)句法结构标注:针对动词语义结构类型,利用浅层语义分析,筛选、识别语义角色,再次对语义结构类型分类;f)编辑修订语义角色标注结果。上述的,其步骤b)标记在句子里充当施事、受事、涉事、领属、对象、目的、处所、材料、来源或工具的语法角色成分,去除语气词、指示代词、不定指示词、疑问代词、复数后缀或敬语语素,不考虑时态信息。上述的,其步骤b)中的名物化标记包括做事者或方式、方法、情形或手工、手艺、材料、事物或动作、有关事物或习惯、规则或态度、情况或心灵、精神或数量、标准、地方或时候或空闲或更迭、轮流或某方面。上述的,其步骤b)中的所述语法角色为ArgO-5, ArgO表示动作的施事,Argl表示动作的影响,Arg2_5根据谓词确定为不同的语义含义。上述的,其步骤b)中的所述语法角色成分包括施事主语、领有主语、受事宾语、对象宾语、结果宾语、处所宾语、动词谓语和形容词谓语。上述的,其步骤c)中所述谓词包括动词、助动词、动词后缀或语气词。上述的,其步骤c)中所述谓词包括通格或共同格、受格、施格、领有格、位格、与格、对象格、从属格、工具格、从格、结果格或使役格。上述的,其步骤d)中动词包括及物动词、不及物动词、自主动词、不自主动词、情态助动词、性状动词、动作动词、心理动词、感知动词、变化动词、趋向动词、述说动词、关系动词、领有动词、存在动词、互动动词、使役动词。有益效果:本专利技术提取藏语句法和语义特征,一方面,可以直接利用藏语的语法标记,标注句子中所表达的施事、受事、时间、地点、方式等语义角色信息;另一方面,针对谓词的语义角色标注结果,可以反作用于句法解析过程,减少句法标记不能唯一确定的影响,从而提高句处理系统的性能。【具体实施方式】为使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合【具体实施方式】,进一步阐述本专利技术。本专利技术其包括下列步骤:a)单复句区分:将长句划分为若干短句;b)语义角色标记:格标记,包括语法角色成分、名物化或非谓动词组块标记,去除非标注内容;根据藏语的格标记和语义角色标注需要,明确藏文的语义角色。核心的语义角色为ArgO-5, ArgO表示动作的施事(施事格),Argl表示动作的影响(结果格),Arg2_5根据谓语动词不同会有不同的语义含义,增加部分附加语义角色,如ArgM-LOC (位格)。标记在句子里充当施事、受事、涉事、领属、对象、目的、处所、材料、来源或工具的语法角色成分,去除语气词、指示代词、不定指示词、疑问代词、复数后缀或敬语语素,不考虑时态信息。藏语具有丰富的格标记,与语义角色标注有关的有三十多种,如:施格、宾格、受益格、同类比较格、占有格、目的格等。有的格对应于一种语义角色(如施格);有的格标记可能对应于多个语义角色,或者一个语义角色对应多种格标记,如Argl (结果格、受益格)等。c)谓词识别:针对谓词特征,确定谓词所属的语义结构类别是形容词谓语句或动词谓语句;谓词词性主要区分形容词谓语句和动词谓语句,形容词谓语句根据句式特征识另IJ,动词谓语句:与谓语动词相关的句法标记,如时、体后缀,语气词,助动词等。d)动词语义分类:针对动词后缀标记特征,确定动词语义结构类型;基于动词后缀语义信息的句式分析。e)句法结构标注:针对动词语义结构类型,利用浅层语义分析,筛选、识别语义角色,再次对语义结构类型分类;f)编辑修订语乂角色标注结果.本专利技术中的标注内容包括:1.句法成份标记【权利要求】1.一种,其特征在于,包括下列步骤: a)单复句区分:将长句划分为若干短句; b)语义角色标记:格标记,包括语法角色成分、名物化或非谓动词组块标记,去除非标注内容; c)谓词识别:针对谓词特征,确定谓词所属的语义结构类别是形容词谓语句或动词谓语句; d)动词语义分类:针对动词后缀标记特征,确定动词语义结构类型; e)句法结构标注:针对动词语义结构类型,利用浅层语义分析,筛选、识别语义角色,再次对语义结构类型分类; f)编辑修订语义角色标注结果。2.根据权利要求1所述的,其特征在于,步骤b)标记在句子里充当施事、受事、涉事、领属、对象、目的、处所、材料、来源或工具的语法角色成分,去除语气词、指示代词、不定指示词、疑问代词、复数后缀或敬语语素,不考虑时态信息。3.根据权利要求1所述的,其特征在于,步骤b)中的名物化标记包括做事者或方式、方法、情形或手工、手艺、材料、事物或动作、有关事物或习惯、规则或态度、情况或心灵、精神或数量、标准、地方或时候或空闲或更迭、轮流或某方面。4.根据权利要求1所述的,其特征在于,步骤b)中的所述语法角色为ArgO-5, ArgO表示动作的施事,Argl表示动作的影响,Arg2_5根据谓词确定为不同的语义含义。5.根据权利要求1所述的,其特征在于,步骤b)中的所述语法角色成分包括施事主语、领有主语、受事宾语、对象宾语、结果宾语、处所宾语、动词谓语和形容词谓语。6.根据权利要求1所述的,其特征在于,步骤c)中所述谓词包括动词、助动词、动词后缀或语气词。7.根据权利要求1所述的,其特征在于,步骤c)中所述谓词包括通格或共同格、受格、施格、领有格、位格本文档来自技高网...

【技术保护点】
一种藏语句法和语义角色联合标注方法,其特征在于,包括下列步骤:a)单复句区分:将长句划分为若干短句;b)语义角色标记:格标记,包括语法角色成分、名物化或非谓动词组块标记,去除非标注内容;c)谓词识别:针对谓词特征,确定谓词所属的语义结构类别是形容词谓语句或动词谓语句;d)动词语义分类:针对动词后缀标记特征,确定动词语义结构类型;e)句法结构标注:针对动词语义结构类型,利用浅层语义分析,筛选、识别语义角色,再次对语义结构类型分类;f)编辑修订语义角色标注结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:邱莉榕
申请(专利权)人:中央民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1