当前位置: 首页 > 专利查询>汤建民专利>正文

电脑汉字输入五韵五笔码制造技术

技术编号:2892930 阅读:611 留言:1更新日期:2012-04-11 18:40
本方案汉语拼音字母对应键盘英文字母,把35个韵母汉语拼音划分为:“a*”、“e*”、“o*”、“i*”和“u*”五大类;采用了“五笔字型”的字母区位码;并以《辞海》“笔画查字表说明”作为汉字五种笔画的划分依据。方案有三大特点:一、浅显简洁,字词一体。二、字、词编码的兼容性极强,能够实现中文输入技术向“以词为主,以字为辅”方向发展。三、字、词编码信息能用拼音头字母表单(或表音且在一定程度上表形)。(*该技术在2010年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】目前,我国使用的汉字编码方法常见的主要有区位码、电报码、拼音码(及多种拼音代码法)、首尾字根码、五笔字型码等。其中区位码、电报码因无规律可循,难度极大,实用价值不高,操作使用此二种编码的人极少;拼音码使用较为普遍,优点是能够确切表音,识拼音就能识操作,但因重码太多和难以实现“字词兼容”而无法达到快速输入,这是它的致命弱点;首尾码因为字根无确定性和字根排列无规律,并且重码太多,将被淘汰;五笔字型是拼型法的最高成就者,用130个字根对汉字进行拆拼和使用“末笔字型识别码”的方法解决了汉语字、词、句的拼型编码输入问题,并实现重码少,达到了高速输入的目的,同时科学地划分了键盘区位码,键盘区位码的确立,为今后的汉字数字编码的研究提供了有力的杠杆,但也并不是十全十美、毫无不足,致少要熟记130个字根和学会字型识别方法(虽然并不十分困难),需经过一个阶段的训练或实际操作使用方可熟练掌握。此外,编码信息还不能确切表型。能不能创造一种极为简捷、使用十分方便、输入快速的编码方法呢?“五韵五笔汉字码编码方案”就是一种尝试。从八八年底开始,作者带着十足的好奇心和只有万分之一成功的希望,试图解决这个问题。在对现行的各种汉字编码方法作深入的研究探讨的同时,提出过数以百计的假设的猜想,于不同的角度设计过十几种方案,最后选择独立设计的《汉字音型快速码编码方案》作为主攻方向。“愚者千虑,必有一得”,经过二年的艰苦努力得以完成,定名为《五韵五笔汉字码编码方案》。细加分析此方案不但解决了汉字的简易编码,而且解决了汉语的字、双音词、成语和三音词的编码的难题。实现了用拼音(五韵母分类法)和汉字的五种笔划以最简单的方法去解决汉语的编码问题,使汉语的单字、双音词编码信息能在一定的程度上表音且表形,三音节和四音节的词(词组)之编码信息实现以各音节拼音头字母表音;并达到字、词兼容,重码较少,输入方便;依照此方案的编码规则,略懂汉语拼音、会写汉字的人,人人都能学会使用、学会对汉语的编码,无需半点死记硬背,使汉语编码达到了“大众化”的浅显程度。本方案汉语拼音字母对应键盘英文字母,把35个韵母汉语拼音划分为“a*”、“e*”、“o*”、“i*”和“u*”五大类作为韵母代码;采用了“五笔字型”的字母区位码;并以《辞海》的“笔划查字表说明”作为汉字五种笔划的划分依据,汉字首二笔笔划及笔顺的确定亦以《辞海》的“笔划查字表”作为规范,尾二笔划的确定依照一般的书写习惯,同时考虑有利于识别为原则(例如,“钱”字末二笔划取“乙丿”)。6763个常用汉字采用的编码方法及其输入操作的实际作用过程用23个拼音声母(含Y、w)首先区分,次用5个韵母代码(“a*”、“e*”、“o*”“i*”和“u*”)去区分,再用25个汉字的首二笔笔划码去区分,最后用25个汉字的尾二笔笔划码去确认。(见编码规则)这样,汉语单字的编码最大容量约为24的3次方*5=7万多(个),给6763个单字编码的重码可能性是9%,不重码汉字的可能性占91%。双音词的编码方法第一音节拼音头字母+第二音节头字母+第一音节汉字的首二笔笔划码+第二音节汉字的首二笔笔划码。这样,双音节的词编码容量为24的四次方=33万多(个),若给3万3千个双音节的汉语词汇编码,其重码的可能性只占10%,并且达到绝大部分不与单字编码重码-因单字第二码只用(韵母代码)只有5个,而双音词的第二码是用(第二音节汉字的拼音头字母)有20多个,大大降低了单字与词汇编码重码的概率。三音词的编码方法第一音节汉字拼音头字母+第二音节汉字拼音头字母+第三音节汉字拼音头字母+三音词键代码。其编码的容量为23的三次方=1万多(个),因为使了三音词键码而绝不与其他单字、双音、四音节的词重码。四音节的词汇编码方法依次取四个音节的拼音头4个字母。其编码的容量为23的四次方=28万个。(单字、双音词和四音节的编码容量小于33万,不含三音词的编码容量)。四音节的词汇编码方法可扩展到语句的编码,见编码规则。如上所述,方案把35个韵母划分为五大类,并用五个代码键代替韵母的方法,对于汉语单字的最大编码容量而言并不很大(仅有7万多个)重码的可能性占9%,汉语单字编码的重码问题还没有得到根本解决,但已经达到了为数不多的程度。事实上,汉字编码重码问题,在汉字的“定量、定型、定音”的改革工作完成之前,汉字编码重码问题是难以十全十美、白玉无瑕地得到解决的,只能做到尽量避免重码。从另一方面来分析,采用了5个韵母代码,单字的可编码容量虽然不很大(7万个)却让出了极大的四键编码的容量给二、四音节的汉语词汇作编码空间(33万-7万个),大幅度地降低了单字与大量的二、四音节的汉语词汇重码的概率。这对大量编码存入占汉语词汇90%以上的双音节、四音节词汇供了极大的有利条件。五韵码的另一个好处是大大简化了汉字输入拼写。此外,汉语的三音节词汇编码因为第四码采用了“三音词键”,而绝对不与其他音节的词汇重码。由此可见,方案已在理论论上解决了汉语的字、词、句编码的问题,从理论的高度去分析验证是可行的、成功的。(同时,对字、词实行过抽样验证)具体的字、词编码的问题当你打开《汉语成语词典》,某成语依次取各字拼音字母的头字母,就是该成语的编码;当你打开《现代汉语小词典》,某双音词依次取2个单字拼音的头字母,再依次取2个单字首二笔笔划码,就是该双音词的编码;当你打开《新华字典》,某个单字先取拼音的头字母,次取这个字的韵母代码,再依次取这个单字的首二笔笔划码和尾二笔笔划码,就是该汉字编码。如果你是一位熟悉拼音的人,《五韵五笔汉字码编码方案表》就是你的汉语编码“小辞海”。熟悉计算机或电子打字机键盘的人,读过一、二遍此编码方案表及其说明和“编码规则”后,就能够熟记5个韵母代码所对应的字母,并熟悉汉字的首、尾二笔笔划代码的区位,同时学会对汉语字、词编码和掌握输入操作。综上所述,本方案有三大特点一、浅显简洁。除键盘的26个字母外,只有5个汉语拼音韵母代码和汉字的横(一)、竖(丨)、撇(丿)、捺(丶)、折(乙)等五个笔划有规律地组成的25个“笔划代码”。二、字、词编码的兼容性强。单字的编码占用的编码容量适中,词汇占有编码的容量大;能够实现中文输入技术从过去的“以字为主,以词为辅”向“以词为主,以字为辅”方向发展。三、字、词编码信息能用拼音头字母表音(或表音且在一定程度上表形),表音方式与社会习惯相同。现行的编码方案各有其优点,亦必然会有其不足。“尺有所短,寸有所长”,《五韵五笔汉字码方案》亦然。“这是祖国的春天,人民的春天,科学的春天”。八十年代汉字编码百花争艳,祝愿祖国能在九十年代迎来汉语编码技术的成熟。 三、说明一、汉语拼音字母的编码采用“五笔字型”区位码。汉语拼音的23个声母(包括Y、W)与键盘的英文字母一一对应,zh、ch、sh分别与z、c、s合拼,排列在各个键位的左上角。“a*”、“e*”、“o*”三类韵母独立为音节时,汉字的编码定义为“A+a*+首二笔码+尾二笔码”等。二、韵母编码将35个韵母区分为“a*”、“e*”、“o*”“i*”和“u*”五大类,作为韵母代码,对应排列在键盘A、E、O、I、U键的右上角。①、“a*”代替(a、ai、ao、an、ang)等5个韵母;②、“e*”代替(e、ei、en、本文档来自技高网...

【技术保护点】
将35个汉语拼音韵母区分为:“a*”、“e*”、“o*”、“i*”和“u*”五大类,作为韵母代码,对应排列在键盘A、E、O、I、U键的右上角,与确定汉字的首二笔画和尾二笔画的编码:一一、一丨、一丿、一丶、一乙;丨一、丨丨、丨丿、丨丶、丨乙;丿一、丿丨、丿丿、丿丶、丿乙;丶一、丶丨、丶丿、、、、丶乙;乙一、乙丨、乙丿、乙、乙乙。依次编入11、12、13、14、15;21、22、23、24、25;31、32、33;34;35;41、42、43、44、45;51、52、53、54、55区位(对应G、F、D、S、A、;H、J、K、L、M;T、R、E、W、Q;Y、U、I、O、P、;N、B、V、C、X键)去区分汉字为主要技术特征。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:汤建民
申请(专利权)人:汤建民
类型:发明
国别省市:37[中国|山东]

网友询问留言 已有1条评论
  • 来自[北京市电信互联网数据中心] 2014年12月30日 13:38
    四舍五入是一种精确度的计数保留法与其他方法本质相同但特殊之处在于采用四舍五入能使被保留部分的与实际值差值不超过最后一位数量级的二分之一假如0~9等概率出现的话对大量的被保留数据这种保留法的误差总和是最小的这大概也是我们使用这种方法为基本保留法的原因吧
    0
1