一种蒙古文编码转换方法和装置制造方法及图纸

技术编号:10991901 阅读:148 留言:0更新日期:2015-02-04 10:45
本发明专利技术涉及一种蒙古文编码转换方法和装置,所述方法包括:提取当前行的待处理行数据;对待处理行数据进行分词数据处理,得到蒙古文单词序列,依次处理序列中的蒙古文单词,得到每个蒙古文单词包括的一个或多个字母的字符信息、位置属性信息和一个或多个字母的编码数据;其中,位置属性信息至少包括:标识所述字母在该蒙古文单词中的位置的信息;在预设的位置信息查找规则表中,依次匹配每一字母的字符信息、位置属性信息与规则表中替换字符的字符信息、位置属性信息,确定一个或多个命中规则;依次根据所述命中规则,对当前蒙古文单词中的字母进行匹配,确定最优命中规则;将所述字母的编码数据转换为所述最优命中规则中的替换字符的编码数据。

【技术实现步骤摘要】
-种蒙古文编码转换方法和装置
本专利技术涉及数字信息处理
,尤其涉及一种蒙古文编码转换方法和装置。
技术介绍
蒙古语言文字是中国蒙古族自治地方的通用文字之一,是一个在全世界有数千万 人使用的语言。近几年在国家各部口和地方政府的大力支持下,蒙古文信息处理事业得到 了长足的发展,产生了多种蒙古文文字处理系统、排版系统、办公软件和其它应用软件。但 是由于蒙古文国际标准编码制定和出台较晚,很多蒙古文应用系统和软件使用了不同的编 码方案。目前,多数蒙古文网站和资料依然采用非国际标准编码方案进行编码和存储。随着 蒙古文信息处理技术的快速发展,人们逐渐意识到了蒙古文编码差异所造成的问题。首先 由于不同编码方案之间互不兼容、互不识别,技术上的重复开发问题严重,造成了人力、物 力及财力上的极大浪费;其次采用非国际标准编码方案建立的各种文件和资源越来越多, 由于编码方案不同,从而不能很好地共享和利用该些资源。因此将非国际标准编码蒙古文 转换为统一的国际标准编码已成为当前蒙古文信息处理中亟待解决的问题。 目前业内提出的编码转换的解决方法是基于规则、词典和统计相结合的方法,采 用W最小字素编码为中介的编码转换方法,把智能编码、方正编码、蒙科立编码和赛音编码 等编码先转换为最小字素编码,再由最小字素编码转换为国际标准编码。比如内蒙古大学 计算机学院巩政等人提出的形码-〉最小字素编码-〉智能编码-〉国际标准编码的转换方 法,内蒙古大学计算机学院张遵等人提出的形码-〉最小字素编码-〉国际标准编码的转换 方法等。采用最小字素编码作为中介的编码转换方法,虽然转换成功率比较高,但是运行速 度慢,数据处理量大,无法满足快速编码转换的要求。
技术实现思路
本专利技术的目的是提供一种能够克服上述缺陷的蒙古文编码转换方法和装置。 在第一方面,本专利技术提供了蒙古文编码转换方法,所述方法包括: 提取当前行的待处理行数据; 对所述待处理行数据进行分词数据处理,得到蒙古文单词序列; [000引依次处理所述蒙古文单词序列中的蒙古文单词,得到每个所述蒙古文单词中包括 的一个或多个字母的字符信息、位置属性信息和一个或多个字母的编码数据;其中,所述位 置属性信息至少包括:标识所述字母在当前所述蒙古文单词中的位置的信息; 在预设的位置信息查找规则表中,依次匹配每一所述字母的字符信息、位置属性 信息与所述规则表中替换字符的字符信息、位置属性信息,确定一个或多个命中规则;所述 命中规则包括若干期望条件,所述期望条件包括语法约束和相邻位置字母约束; 依次根据所述命中规则,对当前蒙古文单词中的字母进行匹配,确定最优命中规 则; 将所述字母的编码数据转换为所述最优命中规则中的替换字符的编码数据。 优选的,当所述规则表中替换字符的位置属性信息没有限定时,所述字母的位置 属性信息与所述规则表中替换字符的位置属性信息相匹配。 优选的,当由所述待处理行数据中不包括蒙古文单词,或当前行中全部蒙古文单 词的字母转换完毕时,所述方法还包括: 提取所述当前行的下一行的待处理行数据。 优选的,所述字母的字符信息包括;词性、阴阳性、前后字符元辅音、音节数中的一 种或多种。 优选的,所述位置属性信息包括;独立体、词首、词中、词尾。 第二方面,本专利技术实施例提供了一种蒙古文编码转换装置,包括: 行数据提取单元,用于提取当前行的待处理行数据; 处理单元,用于对所述待处理行数据进行分词数据处理,得到蒙古文单词序列;依 次处理所述蒙古文单词序列中的蒙古文单词,得到每个所述蒙古文单词中包括的一个或多 个字母的字符信息、位置属性信息和一个或多个字母的编码数据;其中,所述位置属性信息 至少包括;标识所述字母在当前所述蒙古文单词中的位置的信息; 匹配单元,用于在预设的位置信息查找规则表中,依次匹配每一所述字母的字符 信息、位置属性信息与所述规则表中替换字符的字符信息、位置属性信息,确定一个或多个 命中规则;所述命中规则包括若干期望条件,所述期望条件包括语法约束和相邻位置字母 约束; 确定单元,依次根据所述命中规则,对当前蒙古文单词中的字母进行匹配,确定最 优命中规则; 执行单元,将所述字母的编码数据转换为所述最优命中规则中的替换字符的编码 数据。 优选的,当所述规则表中替换字符的位置属性信息没有限定时,所述字母的位置 属性信息与所述规则表中替换字符的位置属性信息相匹配。 优选的,当由所述待处理行数据中不包括蒙古文单词,或当前行中全部蒙古文单 词的字母转换完毕时,所述行数据提取单元还用于,提取所述当前行的下一行的待处理行 数据。 优选的,所述字母的字符信息包括;词性、阴阳性、前后字符元辅音、音节数中的一 种或多种。 优选的,所述位置属性信息包括;独立体、词首、词中、词尾。 在本专利技术提供的一种蒙古文编码转换方法,运行速度快,占用系统内存小,支持单 文件转换和目录转换,适用于蒙古文的拉下编码、方正编码、蒙科立编码、明安图编码、赛音 编码W及国际标准编码之间的转换。 【附图说明】 图1为本专利技术实施例提供的一种蒙古文编码转换方法流程图; 图2为本专利技术实施例提供的一种蒙科立编码到国际标准编码的转码处理流程图; 图3为本专利技术实施例提供的一种国际标准编码到蒙科立编码的转码处理流程图; 图4为本专利技术实施例提供的蒙古文编码转换装置的示意图之一; 图5为本专利技术实施例提供的蒙古文编码转换装置的示意图之二。 【具体实施方式】 下面结合附图和实施例对本专利技术进行详细说明。 为更好地理解本专利技术的技术方案,首先对蒙古文的编码方案进行简要介绍。 现有的蒙古文编码方案可分为名义字符编码方案、准名义字符编码方案和显现字 符编码方案。名义字符编码方案就是蒙古文编码国际标准的编码方式,只对名义字符进行 编码。该编码必须通过化enType字体技术的支持才能实现蒙古文所有字符的变形显现。准 名义字符编码方案是跟蒙古文编码国际标准的编码方式相近的编码方式,W蒙古文编码国 际标准的字母序列对显现字符进行编码,显现字符占码位的编码方式。准名义字符区分形 同音不同字母,一种显现形式有多种编码。在操作系统中不用化enType字体技术也能正确 显现蒙古文。包括蒙科立编码、明安图编码和拉下编码。显现字符编码方案是对蒙古文字 母的所有显现形式进行编码的方式,不依据蒙古文编码国际标准的字母序列进行排列,显 现字符不区分形同音不同,一种显现形式只有一种编码。在操作系统中不用化enType字体 技术也能正确显现蒙古文。包括方正编码和赛音编码。 在国际标准编码中将蒙古文编码分为名义字符和变形显现字符两个部分, 而只对其中的名义字符予W编码,对变形显现形式不予编码。所谓名义字符就是 在每一个字母的各个变体中最具代表性的一个形式,W它来代表该字母,对它进行编码。它 可用于蒙古文的书面形式W及附加符号的传输、交换、处理、存储、输八及显现。变形显 现字符就是蒙古文的每一个字母的多个变体中,除去做名义字符的其余变体,是用来当 作显现,输出。经过六年多的研究和讨论,2000年IS0/IEC发布了蒙古文编码国际标本文档来自技高网
...
一种蒙古文编码转换方法和装置

【技术保护点】
一种蒙古文编码转换方法,其特征在于,所述方法包括:提取当前行的待处理行数据;对所述待处理行数据进行分词数据处理,得到蒙古文单词序列;依次处理所述蒙古文单词序列中的蒙古文单词,得到每个所述蒙古文单词中包括的一个或多个字母的字符信息、位置属性信息和一个或多个字母的编码数据;其中,所述位置属性信息至少包括:标识所述字母在当前所述蒙古文单词中的位置的信息;在预设的位置信息查找规则表中,依次匹配每一所述字母的字符信息、位置属性信息与所述规则表中替换字符的字符信息、位置属性信息,确定一个或多个命中规则;所述命中规则包括若干期望条件,所述期望条件包括语法约束和相邻位置字母约束;依次根据所述命中规则,对当前蒙古文单词中的字母进行匹配,确定最优命中规则;将所述字母的编码数据转换为所述最优命中规则中的替换字符的编码数据。

【技术特征摘要】
1. 一种蒙古文编码转换方法,其特征在于,所述方法包括: 提取当前行的待处理行数据; 对所述待处理行数据进行分词数据处理,得到蒙古文单词序列; 依次处理所述蒙古文单词序列中的蒙古文单词,得到每个所述蒙古文单词中包括的一 个或多个字母的字符信息、位置属性信息和一个或多个字母的编码数据;其中,所述位置属 性信息至少包括:标识所述字母在当前所述蒙古文单词中的位置的信息; 在预设的位置信息查找规则表中,依次匹配每一所述字母的字符信息、位置属性信息 与所述规则表中替换字符的字符信息、位置属性信息,确定一个或多个命中规则;所述命中 规则包括若干期望条件,所述期望条件包括语法约束和相邻位置字母约束; 依次根据所述命中规则,对当前蒙古文单词中的字母进行匹配,确定最优命中规则; 将所述字母的编码数据转换为所述最优命中规则中的替换字符的编码数据。2. 根据权利要求1所述的方法,其特征在于,当所述规则表中替换字符的位置属性信 息没有限定时,所述字母的位置属性信息与所述规则表中替换字符的位置属性信息相匹 配。3. 根据权利要求1所述的方法,其特征在于,当由所述待处理行数据中不包括蒙古文 单词,或当前行中全部蒙古文单词的字母转换完毕时,所述方法还包括: 提取所述当前行的下一行的待处理行数据。4. 根据权利要求1所述的方法,其特征在于,所述字母的字符信息包括:词性、阴阳性、 前后字符元辅音、音节数中的一种或多种。5. 根据权利要求1所述的方法,其特征在于,所述位置属性信息包括:独立体、词首、词 中、词尾。6. -种蒙古文编码转换装置,其特征在于,...

【专利技术属性】
技术研发人员:赵小兵田寄远包乌格德勒张阳
申请(专利权)人:中央民族大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1