【技术实现步骤摘要】
本专利技术属于语言校正
,涉及一种蒙古文自动校正方法。
技术介绍
蒙古文是蒙古族人民的主要语言,是我国内蒙古自治区的主体文字。由于蒙古文的书写方式与汉文和西文有着很大的不同,它被认为是最难信息化的文字之一。它包含35个字母,单词中字母上、中、下位置的不同将导致写法也不相同,并且有些字母在单词中存在相同的显现形式。由于相当一部分用户录入蒙古文时只在乎显现形式正确与否,而不关心蒙古文单词的正确拼写方式,胡乱使用相同显现形式代替正确的字母,现有的蒙古文文本资源中,存在大量的显现形式相同,但编码不正确的蒙古文单词。这严重制约着蒙古文信息处理研究的发展。因此亟需对这种文本进行自动校正,使之变成准确的、可用于信息处理的语料。对于蒙古文文本语料中的显现形式相同但编码不同的错误蒙古文单词学者们提出了很多校正方法。“基于音节统计语言模型蒙古文词汇分析校正器的设计与实现,赵军,民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集,2007年”和“基于统计翻译框架的蒙古文自动拼写校对方法,苏传捷,中文信息学报,2013年6月”都采用语言模型研究了蒙古文校正问题,“基于不确定有限自动机的蒙古文校对算法,斯·劳格劳,中文信息学报,2009年6月”提出了基于有限自动机的蒙古文校正方法;“基于规则的蒙古文自动校对方法研究,江布勒,内蒙古大学硕士论文2014年”利用基于规则的方法对蒙古文校正问题进行了一系列的研究,并取得了一定的成果,主要内容分为三个方面:(1)用人工校对的方式认真统计人们的错误输入方式,对其进行分类统计,研究找出常犯的错误及错误的规律,对研究 ...
【技术保护点】
一种蒙古文自动校正方法,其特征在于,首先对输入的蒙古文文本进行预处理、中间码转换、词干词缀切分,然后对集内词进行基于词典和规则的方法进行校正,对未登录词不做处理原样输出;针对转换后的同形多音词采用语言模型选择最优转换结果输出,对转换后的同形单音词直接输出;最后将集内词和未登录词的校正结果合并,即得到校正完成的文本。
【技术特征摘要】
1.一种蒙古文自动校正方法,其特征在于,首先对输入的蒙古文文本进行预处理、中间码转换、词干词缀切分,然后对集内词进行基于词典和规则的方法进行校正,对未登录词不做处理原样输出;针对转换后的同形多音词采用语言模型选择最优转换结果输出,对转换后的同形单音词直接输出;最后将集内词和未登录词的校正结果合并,即得到校正完成的文本。2.根据权利要求1所述的一种蒙古文自动校正方法,其特征在于,所述预处理包括对蒙古文文本分句和符号处理;蒙古文文本分句采用基于规则的分句方法;符号处理包括蒙古文控制符、标点符号和其它特殊符号的处理;错误使用的单独的蒙古文控制符做直接删除处理,其余所有符号均在文本中相应位置标注并存储;其中标点符号中的结尾符号和回车换行符保留在文本中,其它标点符号和特殊符号均从文本中删除;最后根据符号的位置标注信息,将文本中的符号和校正完成的文本进行合并。3.根据权利要求1所述的一种蒙古文自动校正方法,其特征在于,所述中间码转换...
【专利技术属性】
技术研发人员:飞龙,路敏,高光来,
申请(专利权)人:内蒙古大学,
类型:发明
国别省市:内蒙古;15
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。