当前位置: 首页 > 专利查询>内蒙古大学专利>正文

一种蒙古文自动校正方法技术

技术编号:14455615 阅读:87 留言:0更新日期:2017-01-19 04:19
本发明专利技术公开了一种蒙古文自动校正方法,属于语言校正技术领域,首先对输入的蒙古文文本进行预处理、中间码转换,并对中间码进行词干词缀切分判断该词是否是集内词;然后对集内词进行基于词典和规则的方法进行校正,对未登录词不做处理原样输出;对转换后的同形多音词采用语言模型选择最优转换结果输出,对转换后的同形单音词直接输出;最后将集内词和未登录词的校正结果合并,即得到校正完成的文本。采用中间码将文本中所有显现形式相同但编码不同的蒙古文单词进行统一表示,采用基于词典和规则的方法对集内词进行校正,解决了现有技术中人工统计错误输入方式容易出错,且存在很大局限性的问题。

【技术实现步骤摘要】

本专利技术属于语言校正
,涉及一种蒙古文自动校正方法
技术介绍
蒙古文是蒙古族人民的主要语言,是我国内蒙古自治区的主体文字。由于蒙古文的书写方式与汉文和西文有着很大的不同,它被认为是最难信息化的文字之一。它包含35个字母,单词中字母上、中、下位置的不同将导致写法也不相同,并且有些字母在单词中存在相同的显现形式。由于相当一部分用户录入蒙古文时只在乎显现形式正确与否,而不关心蒙古文单词的正确拼写方式,胡乱使用相同显现形式代替正确的字母,现有的蒙古文文本资源中,存在大量的显现形式相同,但编码不正确的蒙古文单词。这严重制约着蒙古文信息处理研究的发展。因此亟需对这种文本进行自动校正,使之变成准确的、可用于信息处理的语料。对于蒙古文文本语料中的显现形式相同但编码不同的错误蒙古文单词学者们提出了很多校正方法。“基于音节统计语言模型蒙古文词汇分析校正器的设计与实现,赵军,民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集,2007年”和“基于统计翻译框架的蒙古文自动拼写校对方法,苏传捷,中文信息学报,2013年6月”都采用语言模型研究了蒙古文校正问题,“基于不确定有限自动机的蒙古文校对算法,斯·劳格劳,中文信息学报,2009年6月”提出了基于有限自动机的蒙古文校正方法;“基于规则的蒙古文自动校对方法研究,江布勒,内蒙古大学硕士论文2014年”利用基于规则的方法对蒙古文校正问题进行了一系列的研究,并取得了一定的成果,主要内容分为三个方面:(1)用人工校对的方式认真统计人们的错误输入方式,对其进行分类统计,研究找出常犯的错误及错误的规律,对研究校对方法提供依据和理论支持。(2)用总结出的常犯错误和掌握的规律研究出用规则校对这类文本的方法。(3)用关键技术实现了研究出的校对方法,构建了一个实验性的基于规则校对蒙古文的方法的平台。基于规则的方法对蒙古文校正的方法相对简单,理论依据和模型研究不足。在统计错误和挖掘可用于校对的规则方面不够深入,只是简单的设计了校对的初步方法。统计错误规则的方法本身有较大的局限性。首先,基于规则的方法很难归纳统计出所有的错误规则。再而,不能够解决校对中存在的一些关键问题,如同形异音词的校对问题。
技术实现思路
为实现上述目的,本专利技术提供一种蒙古文自动校正方法,采用中间码将文本中所有显现形式相同但编码不同的蒙古文单词进行统一表示,采用基于词典和规则的方法对集内词进行校正,解决了现有技术中人工统计错误输入方式容易出错,且存在很大局限性的问题。本专利技术所采用的技术方案是,一种蒙古文自动校正方法,首先对输入的蒙古文文本进行预处理、中间码转换、词干词缀切分,然后对集内词进行基于词典和规则的方法进行校正,对未登录词不做处理原样输出;针对转换后的同形多音词采用语言模型选择最优转换结果输出,对转换后的同形单音词直接输出;最后将集内词和未登录词的校正结果合并,即得到校正完成的文本。本专利技术的特征还在于,进一步的,预处理包括对蒙古文文本分句和符号处理;蒙古文文本分句采用基于规则的分句方法;符号处理包括蒙古文控制符、标点符号和其它特殊符号的处理;错误使用的单独的蒙古文控制符做直接删除处理,其余所有符号均在文本中相应位置标注并存储;其中标点符号中的结尾符号和回车换行符保留在文本中,其它标点符号和特殊符号均从文本中删除;最后根据符号的位置标注信息将文本中的符号和校正完成的文本进行合并。进一步的,中间码转换是根据蒙古文中字母在词中的位置和前后字符的关系,采用中间码将编码不同但显现形式相同的字母进行统一表示;先将蒙古文单词转换成拉丁形式,然后在中间码转换和校正规则中逐一进行遍历,根据相应的替换规则对蒙古文单词的拉丁形式进行中间码转换。进一步的,中间码转换和校正规则采用正则表达式进行表示,其中,“_'\`&\\*\\^”表示蒙古文控制字符,“:ANY:”表示任何蒙古文字母,“:VOW:”表示所有元音,“:CSNT:”表示所有辅音,“G”、“U”、“V”、“A”、“I”表示定义的中间码。进一步的,对于单词中间码进行词干词缀切分,并从词干库中遍历该中间码词干,判定是否是集内词;对于集内词采用基于词典和规则的校正方法,具体按照以下步骤进行:建立附有相应中间码的蒙古文词干库和后缀库,蒙古文词干和后缀由蒙古文拉丁形式表示,具体的结构如下:动词词干库结构={ID,动词词干拉丁形式,中间码形式,词性,阴阳性本文档来自技高网
...

【技术保护点】
一种蒙古文自动校正方法,其特征在于,首先对输入的蒙古文文本进行预处理、中间码转换、词干词缀切分,然后对集内词进行基于词典和规则的方法进行校正,对未登录词不做处理原样输出;针对转换后的同形多音词采用语言模型选择最优转换结果输出,对转换后的同形单音词直接输出;最后将集内词和未登录词的校正结果合并,即得到校正完成的文本。

【技术特征摘要】
1.一种蒙古文自动校正方法,其特征在于,首先对输入的蒙古文文本进行预处理、中间码转换、词干词缀切分,然后对集内词进行基于词典和规则的方法进行校正,对未登录词不做处理原样输出;针对转换后的同形多音词采用语言模型选择最优转换结果输出,对转换后的同形单音词直接输出;最后将集内词和未登录词的校正结果合并,即得到校正完成的文本。2.根据权利要求1所述的一种蒙古文自动校正方法,其特征在于,所述预处理包括对蒙古文文本分句和符号处理;蒙古文文本分句采用基于规则的分句方法;符号处理包括蒙古文控制符、标点符号和其它特殊符号的处理;错误使用的单独的蒙古文控制符做直接删除处理,其余所有符号均在文本中相应位置标注并存储;其中标点符号中的结尾符号和回车换行符保留在文本中,其它标点符号和特殊符号均从文本中删除;最后根据符号的位置标注信息,将文本中的符号和校正完成的文本进行合并。3.根据权利要求1所述的一种蒙古文自动校正方法,其特征在于,所述中间码转换...

【专利技术属性】
技术研发人员:飞龙路敏高光来
申请(专利权)人:内蒙古大学
类型:发明
国别省市:内蒙古;15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1