当前位置: 首页 > 专利查询>苏苏雅拉图专利>正文

蒙古文整词输入法制造技术

技术编号:2889904 阅读:526 留言:1更新日期:2012-04-11 18:40
本发明专利技术为一种蒙古文整词输入法,属于计算机文字编码领域。该输入法根据蒙古文音节的矩阵组合原理,采取矩阵音节节位编码方法。使其既符合蒙古文故有的拼读和书写规则,同时又解决了现有几种蒙古文输入方法存在的各种不足,达到了既易学且快速又少错误率。实现了蒙古文键盘输入的看打听打想打三种不同方式的统一。并通过真正的音码和词库技术实现了拼音文字的整词输入,从而为拼音文字的计算机编码技术跃上一个新的台阶提出了新方法,开辟了新途径。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术为一种蒙古文整词输入法,属于计算机文字编码领域。迄今为止,国内外所使用的蒙古文计算机输入方法可归结为两种。一种叫做“蒙古文字形结构混合输入法”。如“华光”电子排版系统所使用的蒙古文输入采取的就是这一方法。之所以称其为字形结构混合输入法是由于该输入方法采用的码元以及编码单位本身在语言学上是一个多维混合概念。其中有字素单位,音位单位,音节单位,字母变体形式,半音字母字形,以及其它一些字形组合结构。因此在编码规则上尚缺乏逻辑的一致性。字形结构混合输入法的码元以及编码单位设计基本来源于蒙古文的铅字印刷字形结构、因而无异于蒙古文打字机键位字形结构。另一种叫做“蒙古文读音输入法”。如“方正”电子排版系统所使用的蒙古文输入采取的就是这一方法。经研究以上两种输入方法存在如下技术问题一、键位庞大、换档频繁、平均击键次数过多。如“蒙古文字形结构混合输入法”码元设计占用四十七键、而这四十七个键位均有换档。其中除标点符号外仅字形结构之间换档就有三十七键。外加每次换档的三十七次shift键,蒙古文字形结构混合输入法的全部实际键位共是一百二十一键。“蒙古文读音输入法”占用键位字符为三十二键、其中六个字符有换档。这样加上每次的六个shift键、“蒙古文读音输入法”的全部实际键位是四十四键。所述两种输入法的上述编码设计由于输入界面过宽和输入操作繁琐、平均击键次数过多、输入意识非单一等原因、从理论上说、首先未能真正实现“易学性”标准、其次是平均输入速度过慢。二、由于拆字(词)过多、过散、过细致使错误输入机会过高过频。从而大大增加了人工校对劳动强度。三、由于未考虑蒙古文词汇故有的拼读规则和书写规则、上述各种输入方法既不适用于蒙古文计算机文字输入的想打方式,又不适用于蒙古文计算机文字输入的听打方式。而仅仅适用于蒙古文计算机文字输入的看打方式一种。四、由于采取形码使蒙古文各种同形形式无法予以区别,结果在蒙古文里造成了大量同形词的繁殖、不仅给词汇统计工作带来了极大的不便,而且也影响了蒙古语标准音的推广与普及。同时也脱离了以中小学为主而向全社会所进行的正音正字(词)以及相关的标准化规范化工作。五、由于不带词库、数据库、知识库而不能很好地适应于信息处理技术发展趋势、即依靠建立机器词典、词库、数据库、知识库来提高对自然语言信息处理的能力、以及计算机硬件不断向具备大容量高速度发展和软件技术及工具日新月异的趋势。所述各种输入方法之所以存在以上不足之根本原因归根结底就是对蒙古文这一较特殊的拼音文字尚缺乏深入认识、未能把握住蒙古文词汇故有的拼读和书写规则,更重要的是语言编码设计思想仍然停留在对拼音文字只能做字母编码处理这一落后阶段中。为了克服现有蒙古文输入方法存在的以上不足,使蒙古文的计算机输入更为科学合理,本专利技术特提出了一种蒙古文整词输入法。根据我们的研究,蒙古文虽说是一种拼音文字,但它决不同于一般意义上的拼音文字,而是一种矩阵组合文字。蒙古文的矩阵组合不仅体现在其最基本的成音系统(即读音),而且还体现在其拼读和书写单位中。认识并掌握了蒙古文的这一根本性质,借助数学的矩阵原理,以及图论和网络理论就能非常圆满地解决蒙古文的计算机输入。根据蒙古文成音系统的矩阵组合原理,蒙古文最基本的成音单位是一个完整的音节、而拼读和书写单位亦是一个完整的音节,无论在拼读一个整词或是书写一个整词,均以若干个完整的音节组成一个个整词(相当于汉语的一个整字或一字词)。这就是蒙古文的拼读规则和书写规则。“蒙古文整词输入法”的编码规则就是依据蒙古文的这一拼读和书写规则为其编码规则的。“蒙古文整词输入法”的码元设计和编码单位设计完全遵循蒙古文成音系统的矩阵组合原理、以蒙古文的音位为其码元;以蒙古文的音节节位为其基本编码单位。此中元音音位为该矩阵的“行”、由七个点构成。而辅音音位为该矩阵的“列”,由二十个点构成(其中16个为基本辅音,4个为非基本辅音)。由此形成了如下行列式 该行列式就是“蒙古文整词输入法”的码元。蒙古文整词输入法码元代码及键位对应如下表 作为码元未超出键位上二十六个拉丁字母。由于蒙古文整词输入法采取的是音码、所以遵循了如下码元设计原则同汉语的拼音读音一致,做到望键即能联想到蒙古文读音的目的。根据以上规律蒙古文基本音节节位是m×n个数aij,(i=1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,n;j=1,2,3,4,5,6,7,m)排成的一个n行,m列(或m×n)矩阵。在数学上以aij为元素的m×n矩阵可记作Amn,或A,或(aij)mn或(aij)。(aij)叫做这个矩阵的第i行第j列的元素。根据蒙古文字母系统上述矩阵公式,蒙古文基本音节派生节位是一百四十(20n×7m)个,加上派生源的七个元音音节节位,蒙古文的基本音节节位共为一百四十七个。其派生形式如下<p>表1 注CELMET是三维网状多孔件,由Sumitomo Electric Industries Ltd.制造;#7是型号,表示每单位长度(1英寸)微孔数为50-70。在蒙古文里,元音有独立构成音节的功能,而辅音和半音字母却无独立构成音节的功能。其中处于“列”上的二十个辅音必须同“行”上的七个元音矩阵组合后方能构成音节。而半音字母在书写或拼读中始终随上面的音节构成一组二级组合音节。在蒙古文里,无论是拼读一个词或书写一个词均要严格遵循这一规则。因此就蒙古文基本音节的矩阵组合而言,有如下内在规定“行”决定“列”,“列”服从“行”。就半音字母而言,矩阵组合后的音节节位决定半音字母,半音字母则服从于音节节位。我们的编码规则完全反映了蒙古文这一矩阵组合规律。根据蒙古文这一矩阵组合规律我们对其具体词的音节矩阵组合建立了各种算法。三、蒙古文个别高频附加成份的编码规则这里所说的高频附加成份主要指六个格助词和 等等。此中有的相当于英语的各种复数有的相当于日语的《か》;有的相当于日语的《は》或《が》。根据我们的初步统计,仅上述六个格助词在统计语料中约占20%多。可见其使用频率之高。我们根据上述附加成份的使用频率,语法性质,以及动态的音便特性等作了特殊定位编码处理、如如下键位对应表<p>表7 </tables>注CELMET是三维网状多孔件,由Sumitomo Electric Industries Ltd.制造;#7是型号,表示每单位长度(1英寸)微孔数为50-70。根据我们在各种语料中的初步统计,在常用词范围内平均每输入十五个词左右才遇到一组重码,而且由于语体的不同具有不同的表现。如在小说等艺术语体中遇到的重码较为频繁,而在科技、公文、新闻等语体中遇到的重码率较低。其中最低重码词为两个,最高重码词也不过二十个词。重码最高的音节依次是二音节、三音节、一音节、四音节。五音节以后很少出现重码。重码率较高的词主要集中在如下几种词集中a音节开头词集最多;xa音节开头词集次之;随后依次是 音节开头词集, 音节开头词集, 音节开头词集, 音节开头词集。根据我们以上分析统计除xa音节外蒙古文的重码词主要出现在元音开头的词集中。当一个词无半音字母参与,均由矩阵组合音节节位同音的音节构成时出现重码的可能性相对较小,而当一个词本文档来自技高网...

【技术保护点】
本专利技术为一种蒙古文整词输入法,属于计算机文字编码领域,它的码元设计和编码单位设计完全遵循蒙古文成音系统的矩阵组合原理,以蒙古文的音位为其码元,以蒙古文的音节节位为其基本编码单位;此中元音音位为该矩阵的“行”,由七个点构成;而辅音音位为该矩阵的“列”,由二十个点构成;其特征在于: a.在蒙古文里凡以“行”开头的音节,即a,e,i,*,*,o,u等七个元音开头的音节,均以音节开头字母的读音为其代码,以空格键结束; b.在蒙古文里以“列”开头的音节有二十个,依次为n,b,p,x,g,m,l,s,∫,t,d,t∫,j,y,r,w,f,k,*,dz,凡以这二十个辅音开头的词,均以其第一音节的矩阵组合音节节位为代码,而随后的所有音节无论是由几个性质的音构成,均以每个音节开头的辅音音位读音为代码,以空格键结束。

【技术特征摘要】

【专利技术属性】
技术研发人员:苏苏雅拉图
申请(专利权)人:苏苏雅拉图
类型:发明
国别省市:15[中国|内蒙]

相关技术
    暂无相关专利
网友询问留言 已有1条评论
  • 来自[山西省太原市联通] 2015年04月09日 12:47
    中文输入法,又称为汉字输入法,是指为了将汉字输入计算机或手机等电子设备而采用的编码方法,是中文信息处理的重要技术。中文输入法从1980年代发展起来的,经历几个阶段:单字输入、词语输入、整句输入。汉字输入法编码可分为几类:音码、形码、音形码、形音码、无理码等。广泛使用中文输入法有拼音输入法、五笔字型输入法、二笔输入法、郑码输入法等,在台湾流行的输入法有注音输入法、呒虾米输入法和仓颉输入法等。流行的输入法软件平台,在Windows系统有搜狗拼音输入法、搜狗五笔输入法、百度输入法、谷歌拼音输入法、QQ拼音输入法、QQ五笔输入法、极点中文汉字输入平台;Linux平台有IBus、Fcitx;MacOSX系统除自带输入法软件外还有百度输入法、搜狗输入法、QQ输入法;手机系统一般内置中文输入法,此外还有百度手机输入法、搜狗手机输入法等。
    0
1