当前位置: 首页 > 专利查询>内蒙古大学专利>正文

蒙古文国际标准编码到形码转换方法、装置及计算机终端制造方法及图纸

技术编号:27976608 阅读:45 留言:0更新日期:2021-04-06 14:11
本发明专利技术公开了一种蒙古文国际标准编码到形码转换方法、装置及计算机终端。该方法先枚举出每个蒙古文字母的所有可能的Unicode编码序列,再将按照位置属性“独”、“首”、“中”、“末”分为四份,并且每份中按照Unicode串长度的倒序进行排序,而后获取待转换蒙古文Unicode串,初始化转换结果序列,然后对各份进行遍历并分别判断,并且在遍历过程中利用转换结果序列进行存放,从而实现将蒙古文国际标准编码转换到形码,即能够实现多对多的关系转化,也可以对没有固定转换关系的转换,还可以对不是定长的编码进行转换,从而可以生成作为中间码的字形编码,便于蒙古文印刷体识别和手写识别,方便蒙古文Unicode编码表示和存储。

【技术实现步骤摘要】
蒙古文国际标准编码到形码转换方法、装置及计算机终端
本专利技术涉及信息处理
的一种转换方法,尤其涉及一种蒙古文国际标准编码到形码转换方法,还涉及一种蒙古文国际标准编码到形码转换装置,还涉及一种计算机终端。
技术介绍
蒙古文信息处理的研究工作最先是在文字排版方面展开的,由于文字排版系统对文字而言比较关注的是文字的“形”,一个单词只要能够出现正确的形状即可。因此基于形码的蒙古文编码方案也应运而生。不同的研究单位在制定各自的形码方案时有的采用一个字符只定义一个编码,但可以表示多个不同发音的字母;有的采用一个字符定义多个编码,相同字形编码不同,可表示不同发音的字母;有的采用将多个字母中都会出现的部分结构,重新定义为一个“字符”或从文字书写的习惯和美观角度出发,将字母中的部分笔画进行了重组,并为每一个“字符”定义一个编码。1993年国际标准化组织和Unicode技术委员会在ISO/IEC10646国际标准字符集中发布了蒙古文国际标准编码。在该标准中,把从U+1800开始的一个“平面”作为蒙古文字符集编码码位。蒙古文字符实际占有码位区间是U+本文档来自技高网...

【技术保护点】
1.一种蒙古文国际标准编码到形码转换方法,其特征在于,其包括以下步骤:/n(1)枚举出生成每个蒙古文字母的所有可能Unicode编码序列,并记录各格式“Unicode串=字母ID”且记作UL;/n(2)将UL按照位置属性分为四份,并分别记作UL_A、UL_S、UL_M、UL_E,且每份中按照Unicode串长度的倒序进行排序;其中,定义UL_X(i).uni为UL第i行“=”前的Unicode串,UL_X(i).scode为UL第i行“=”后的字母ID,X为字母A、S、M、E中的一种;/n(3)将待转换蒙古文Unicode串记作mgl,初始化转换结果序列glist=[];/n(4)遍历UL_A...

【技术特征摘要】
1.一种蒙古文国际标准编码到形码转换方法,其特征在于,其包括以下步骤:
(1)枚举出生成每个蒙古文字母的所有可能Unicode编码序列,并记录各格式“Unicode串=字母ID”且记作UL;
(2)将UL按照位置属性分为四份,并分别记作UL_A、UL_S、UL_M、UL_E,且每份中按照Unicode串长度的倒序进行排序;其中,定义UL_X(i).uni为UL第i行“=”前的Unicode串,UL_X(i).scode为UL第i行“=”后的字母ID,X为字母A、S、M、E中的一种;
(3)将待转换蒙古文Unicode串记作mgl,初始化转换结果序列glist=[];
(4)遍历UL_A并判断mgl是否存在于UL_A中,如果存在且行号为i时,则glist=[UL_A(i).scode]并结束遍历UL_A,否则继续遍历UL_A;
(5)遍历UL_S,判断UL_S(i).uni是否与mgl开头匹配,如果有匹配行时则glist=[UL_A(i).scode]且mgl=mgl-UL_A(i).uni,并继续遍历UL_S,否则中止遍历UL_S;
(6)遍历UL_E,判断mgl是否存在于UL_E中,如果存在且行号为i时,则glist=glist+[UL_A(i).scode]并结束遍历UL_E,否则继续遍历UL_E;
(7)遍历UL_M,判断UL_M(i).uni是否与mgl开头匹配,如果有匹配行时则glist=glist+[UL_A(i).scode]且mgl=mgl-UL_A(i).uni,并当mgl==空则结束遍历UL_M,否则继续遍历UL_M,如果没有匹配行则中止遍历UL_M。


2.如权利要求1所述的蒙古文国际标准编码到形码转换方法,其特征在于,所述位置属性包括“独”、“首”、“中”、“末”;其中,位置属性“独”用于表示没有连接符的独立词,位置属性“首”用于表示存在所述连接符且所述连接符必须出现在词开头的串,位置属性“中”用于表示存在所述连接符且所述连接符必须出现在词中间的串,位置属性“末”用于表示存在所述连接符且所述连接符必须出现在词结尾处的串。


3.如权利要求1所述的蒙古文国际标准编码到形码转换方法,其特征在于,所述蒙古文字母的数量为382;其中,所述蒙古文字母按照先行后列的顺序依此按三位数字给每个字母编码。


4.如权利要求3所述的蒙古文国际标准编码到形码转换方法,其特征在于,蒙古文字母“001”的所有可能Unicode编码序列为:
1833180B1823180B=001
18331826180C=001
1833180B1823200D=001
1833180B1824200D=001
1833180B1825180B200D=001
1833180B1826180B200D=001
200D18321823180B=001
200D18321824180B=001
200D18331823180B=001
200D18331824180B=001
200D18321823200D=001
200D18321824200D=001
200D18321825200D=001
200D18321826200D=001
200D18331823200D=001
200D18331824200D=001
200D18331825200D=001
200D18331826200D=001
202F18331824200D=001
202F18331826200D=001
其中,“200D”表示连接符。


5.如权利要求1所述的蒙古文国际标准编码到形码转换方法,其特征在于,在步骤(5)中,中止遍历UL_S后发出错误代码1;在步骤(7)中,中止遍历UL_M后发出错误代码2。


6.一种蒙古文国际标准编码到形码转换方法,其特征在于,其包括以下步骤:
(1)定义蒙古文字母集合,所述蒙古文字母集合包括多个蒙古文字母;其中,每个蒙古文字母按照先行后列的顺序依此按三位数字给每个蒙古文字母编码,获得每个蒙古文字母的字母ID;
(2)枚举出生成每个蒙古文字母的所有可能Unicode编码序列,且定义每个蒙古文字母的格式“Unicode串=字母ID”且为无序列表;
(3)按照位置属性“独”、“首”、“中”、“末”将所述无序列表分为独性部分、首性部分、中性部分以及末性部分,且每份中按照Unicode串长度的倒序进行排序;其中,位置属性“独”用于表示没有连接符的独立词,位置属性“首”用于表示存在所述连接符且所述连接符必须出现在词开头的串,位置属性“中”用于表示存在所述连接符且所述连接符必须出现在词中间的串,位置属性“末”用于表示存在所述连接符且所述连接符必须出现在词结尾处的串;
(4)获取待转换蒙古文Unicode串,初始化转换结果序列;
(5)遍历所述独性部分,并判断所述待转换蒙古文Unicode串是否存在于所述独性部分中,如果存在则将相应行“=”后的字母ID存于所述转换结果序列中,否则继续遍历所述独性部分;
(6)遍历所述首性部分,并判断所述首性部分的各行的Unicode串是否与所述待转换蒙古文Unicode串开头匹配,如果有匹配行时则相应行“=”后的字母ID存于所述转换结果序列中并从所述待转换蒙古文Unicode串中删...

【专利技术属性】
技术研发人员:范道尔吉武慧娟
申请(专利权)人:内蒙古大学
类型:发明
国别省市:内蒙古;15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1