一种音节粒度的藏语句法组块识别方法及装置制造方法及图纸

技术编号：13059692 阅读：68 留言：0更新日期：2016-03-24 00:00

本发明专利技术涉及一种音节粒度的藏语句法组块识别方法及装置，属于计算机应用技术中的机器翻译技术领域。本发明专利技术首先通过对原始藏语语料进行预处理，删除其中非藏语语言文本，然后利用预先训练好的句法标记识别模型M1进行识别得到句法标记类型，接下来对句法标记类型为黏着形式的文本进行还原得到不含黏着形式的标准语料；最后对标准语料采用预先训练好的句法组块识别模型M2直接对功能组块进行组块识别。对比现有技术，本发明专利技术能够不经过分词和词性标注直接对功能组块进行识别，减少了预处理所需的时间空间花费同时避免了因分词与词性标注的不准确而造成的对功能组块识别效果降低。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机应用
，涉及应用于机器翻译等领域中的一种基于音节粒度的藏语句法组块识别方法及装置。
技术介绍
组块自动识别是自然语言处理领域的研究热点。组块分析作为一种预处理手段，可以大大降低基于短语的句法分析处理的复杂性，为进一步句法分析以及语义分析等提供基础支持，使句法分析在某种程度上得以简化，因此已应用于机器翻译、问答系统等诸多实用系统。藏语句法组块识别研究的目的是正确标注出构成藏语句子的句法组块的边界和类型。现有组块识别研究，都是在对语料进行分词和词性标注的基础上再进行句法组块的识别，但目前藏语分词和词性标注效果仍达不到实际需求，由于分词和词性标注的错误率较高，大大降低了后续阶段识别藏语组块的准确性。本专利技术通过深入语言分析发现，由于藏语自身固有特点，藏语中实际存在的一些句法标记，蕴含着对组块类型识别的有效语义信息，如果直接对句法标记进行识别，可以达到组块识别的目的。
技术实现思路
本专利技术的目的是为了解决藏语智能信息处理中句法组块的识别问题，提出一种基于音节粒度的藏语句法组块识别方法，本方法能够直接以音节为粒度单位，对藏语句法组块进行识别，避免了已有的常规方法中必须先完成藏语分词和词性标注弊端，减少了分词和词性标注预处理所需的时间空间花费，同时也有效解决了因分词与词性标注准确性低而直接导致的后续句法组块识别性能降低的问题。 -种音节粒度的藏语句法组块识别方法，包括以下具体步骤：步骤一：对输入语料进行文本预处理得到规范化句子语料S ; 步骤二：对S采用预先训练好的句法标记识别模型I进行识别...

【技术保护点】
一种音节粒度的藏语句法组块识别方法，其特征在于，包括以下步骤：步骤一：对输入语料进行文本预处理得到规范化句子语料S；步骤二：对S采用预先训练好的句法标记识别模型M1进行识别得到句法标记类型；步骤三：对步骤二得到的句法标记类型为黏着形式的文本进行还原得到不含黏着形式的标准语料；步骤四：对步骤三得到的标准语料采用预先训练好的句法组块识别模型M2进行组块识别得到组块类型识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：史树敏，王天航，黄河燕，龙从军，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人