一种音节粒度的藏语句法组块识别方法及装置制造方法及图纸

技术编号:13059692 阅读:68 留言:0更新日期:2016-03-24 00:00
本发明专利技术涉及一种音节粒度的藏语句法组块识别方法及装置,属于计算机应用技术中的机器翻译技术领域。本发明专利技术首先通过对原始藏语语料进行预处理,删除其中非藏语语言文本,然后利用预先训练好的句法标记识别模型M1进行识别得到句法标记类型,接下来对句法标记类型为黏着形式的文本进行还原得到不含黏着形式的标准语料;最后对标准语料采用预先训练好的句法组块识别模型M2直接对功能组块进行组块识别。对比现有技术,本发明专利技术能够不经过分词和词性标注直接对功能组块进行识别,减少了预处理所需的时间空间花费同时避免了因分词与词性标注的不准确而造成的对功能组块识别效果降低。

【技术实现步骤摘要】

本专利技术属于计算机应用
,涉及应用于机器翻译等领域中的一种基于音节 粒度的藏语句法组块识别方法及装置。
技术介绍
组块自动识别是自然语言处理领域的研究热点。组块分析作为一种预处理手段, 可以大大降低基于短语的句法分析处理的复杂性,为进一步句法分析以及语义分析等提供 基础支持,使句法分析在某种程度上得以简化,因此已应用于机器翻译、问答系统等诸多实 用系统。 藏语句法组块识别研究的目的是正确标注出构成藏语句子的句法组块的边界和 类型。现有组块识别研究,都是在对语料进行分词和词性标注的基础上再进行句法组块的 识别,但目前藏语分词和词性标注效果仍达不到实际需求,由于分词和词性标注的错误率 较高,大大降低了后续阶段识别藏语组块的准确性。本专利技术通过深入语言分析发现,由于藏 语自身固有特点,藏语中实际存在的一些句法标记,蕴含着对组块类型识别的有效语义信 息,如果直接对句法标记进行识别,可以达到组块识别的目的。
技术实现思路
本专利技术的目的是为了解决藏语智能信息处理中句法组块的识别问题,提出一种基 于音节粒度的藏语句法组块识别方法,本方法能够直接以音节为粒度单位,对藏语句法组 块进行识别,避免了已有的常规方法中必须先完成藏语分词和词性标注弊端,减少了分词 和词性标注预处理所需的时间空间花费,同时也有效解决了因分词与词性标注准确性低而 直接导致的后续句法组块识别性能降低的问题。 -种音节粒度的藏语句法组块识别方法,包括以下具体步骤: 步骤一:对输入语料进行文本预处理得到规范化句子语料S ; 步骤二:对S采用预先训练好的句法标记识别模型I进行识别得到句法标记类 型; 步骤三:对步骤二得到的句法标记类型为黏着形式的文本进行还原得到不含黏着 形式的标准语料; 步骤四:对步骤三得到的标准语料采用预先训练好的句法组块识别模型M2进行组 块识别得到类型识别结果。 本专利技术一个具体实施例中,步骤一所述文本预处理的具体步骤包括: 1.创建和收集语料库数据,语料库数据来源包括但不限于:教材、科学杂志、期 刊,报纸和网站藏语文本; 2.对上述语料库数据进行预处理,删除无意义数据;所述无意义数据指的是藏语 语料中掺杂的其他语言的文本; 3.进一步对上述文本进行句子切分,将语料切分为以句子单位的文本序列。 本专利技术一个具体实施例中,所述藏语句法标记识别模型训练的具体步骤包括: 1.对语料逐句进行句法标记标注,创建语料库的音节句法标注体系; 2.将标注后语料通过特定的特征模板带入到CRFs,训练出句法标记CRFs识别模 型。 本专利技术一个具体实例中,所述黏着形式还原的具体步骤包括: 1.根据句法标记类型,将其中结果为黏着形式的音节按照不同的规则对黏着形式 进行音节切分,还原为单音节文本; 2.切分后,在拆分出的音节之间补完成对原料的还原工作。 本专利技术一个具体实施例中,所述句法组块识别模型训练的具体步骤包括: 1.对每一句进行组块类型标注,创建语料库的组块标注体系,即对每一句中的每 一个音节划分入不同的组块类型内; 2.将上述语料通过特定的特征模板带入到CRFs,训练出组块类型CRFs识别模型。 -种音节粒度的藏语句法组块识别装置,包括依次连接的文本预处理模块、句法 标记识别模块、黏着形式还原模块和组块类型识别模块; 文本预处理模块用于对输入语料文本进行处理,以及句子切分得到可用于句法组 块识别的句子; 句法标记识别模块用于对文本预处理模块输出的句子进行句法识别得到句法标 记; 黏着形式还原模块用于根据句法标记识别模块输出的句法标记对原始句子中的 黏着形式进行还原得到带有句法标记的非黏写形式句子; 组块类型识别模块用于根据黏着形式还原模块输出的句子进行句法组块类型识 别得到识别结果并输出。 有益效果 对原始藏语文本不经分词和词性标注环节,而是以音节为单位利用藏语的自身特 点直接进行组块类型识别,提出出了一种新的藏语组块识别方法,可以为进一步的藏语句 法分析、语义分析等深度智能处理提供基础支持。【附图说明】 为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需附图 作简要地介绍。附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出 创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中: 图1是本专利技术实施例一种音节粒度的藏语句法组块识别方法流程示意图。 图2是本专利技术实施例一种音节粒度的藏语句法组块识别装置结构示意图。【具体实施方式】 下面将对本专利技术实施例中的技术方案进行清除、完整地描述,显然,所描述的实施 例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通 技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范 围。 本专利技术一种音节粒度的藏语句法组块识别方法,如图1所示,包括以下步骤: -、文本预处理:即获取藏语原始文本,并对其进行分句处理。 本实施例中采用人工录入和网络爬虫爬取网络文本的方式创建和收集语料库数 据,然后删除其中无意义的数据,最后利用规则的方法将得到的原始文本利用分句标识"f 切割成以单句为单位的文本,具体切割语句例子如表1所示: 表1藏语文本预处理(句子切割)示例 二、句法标记识别(一)句法标记识别模型训练 本实施例中需要对S采用预先训练好的句法标记识别模型吣进行识别从而得到 句法标记类型,因此需要通过训练语料首先训练出句法标记识别模型I,由于:藏语以音节 为单位,音节之间用"隔开,由不同的音节搭配组成词语进一步通过不同词语搭配构成句 子,这一点与汉语很类似,汉语也是以音节为单位进一步组成完整的句子。但现代藏语书 写上有一种特殊的书写习惯,即黏着形式,它会将两个至三个音节黏着在一起,中间不会以 "分割。藏语的句法标记比较丰富,这里所说的句法标记是指在现代藏语中,一些形式标 记(包括格标记和助词标记)把句子分割成功能不同的句法组块,如表示时间、地点的状语 的组块之后可能有处所格标记,主语组块之后可能有施事格标记,对象宾语组块之后可能 有对象格标记等,这些标记是基于音节粒度的组块识别的基础。但是有一部分格和助词标 记由于文字书写原因导致两个音节缩写为一个音节即本段开头所述的黏着形式,为了能充 分利用格及助词标记,我们不但需要独立音节的格及助词标记,也需要把那些构成黏着音 节中的格及助词标记分离出来,这些标记共同构成句法功能组块边界的识别特征。因此,此 处的训练句法标记识别模型I就是通过机器学习的方式进行训练,本实施例中以条件随机 场(CRFs)识别模型为例说明训练过程: 首先对步骤一得到的文本进行句法标记人工标注,标注类型共分为6种类型,SS、 VV、RR、CC、M、N。所述SS表示音节+(施格/工具格标记)黏着形式的音节,所述VV 表示音节+8(-vi)(属格标记)黏着形式的音节,所述RR表示音节+s(-r> (与格/位格标 记)黏着形式的音节,所述CC表示音节(句终词)黏着形式的音节,所述Μ表示非黏 着形式独立音节的格标记和助词标记,所述Ν表示非句法标记的音节,即除SS、VV、RR、CC、 Μ以外的音节均用Ν标注。 黏着形式标记,具体实例如表2所示。 表2黏着形式标记示例 其次,基于步骤一得到的文本以及人工标注结果本文档来自技高网...

【技术保护点】
一种音节粒度的藏语句法组块识别方法,其特征在于,包括以下步骤:步骤一:对输入语料进行文本预处理得到规范化句子语料S;步骤二:对S采用预先训练好的句法标记识别模型M1进行识别得到句法标记类型;步骤三:对步骤二得到的句法标记类型为黏着形式的文本进行还原得到不含黏着形式的标准语料;步骤四:对步骤三得到的标准语料采用预先训练好的句法组块识别模型M2进行组块识别得到组块类型识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:史树敏王天航黄河燕龙从军
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1