当前位置: 首页 > 专利查询>郁祖昌专利>正文

一种计算机汉字无重码快捷输入法制造技术

技术编号:2832517 阅读:568 留言:0更新日期:2012-04-11 18:40
一种汉字无重码快捷输入法及其中文键盘,适用于CJK超大字符集七万表意汉字。本发明专利技术首创“多列简码、多路输入”高效录入方式和“声形形序、形形形序”三实一虚制编码,利用“序码”的去重码标识功能,不但使所有汉字均能以并列简码形式通过本发明专利技术“多通道并列输入中文键盘”快捷录入,而且简便有效的根除了所有单字重码和字词混列重码。高频先见、常用字优先的多字库分级编码、声形码和纯形码互为补充的双重检索、简繁体独立编码的输入界面、声形归码好学易用的“快捷码字根集”、以表义字元为界分区取码等简明准确的取码规则,以及30万条海量智能词库的口语化录入方式等编码新技术的组合应用,将中文录入效率和操作便利性提高到了极致。

【技术实现步骤摘要】

本专利技术涉及一种计算机汉字输入法,特别是一种适用于所有CJK国际表意汉字的无 重码快捷输入法及其中文键盘。技术背景汉字输入法是一种利用键盘符号进行排序/检序的中文电脑检索方法,与査字典 原理相通。由于计算机字库中的汉字以十六进制内码排列,与汉字音形义特征没有关联, 不具备打字操作的实用性,故需要由输入法提供一种实用的检序方法,通过对汉字音、 形、义特征的提取和归简,完成从平面图形到线性数码编序的抽象变换,实现中文电脑 打字。而汉字经过编码变换,事实上已成为一种新型的计算机数码文字。几十年来,随着信息交换量和应用领域的激增,计算机汉字库已由初期的6千多字 增加到IS0/IEC-10646 Unicode3. 1版CJK Ext-A, Ext-B的70195个国际表意汉字(下 称CJK表意汉字),汉字编码任务也随之而扩大了 10倍。汉字输入法作为我国特有 的群众性科研项目,素有万马(码)奔腾之称,但由于缺乏坚实的研究基础和正确的 理论指导,大多只是在字根集定义的层面上折腾,没有根本性的突破方案。泱泱十五亿 华人世界,迄今没有一款公认科学易用的输入法成为国家标准输入法,也没有适用的高 效率中文键盘。国家权威部门只对2万字的GH(字符集颁布了 500多个编码部件,而对 于7万余字的CJK超大字符集,并没有适用的编码标准;对于严重制约录入效率的重码 问题,也没有有效的解决方案。而不具备编码惟一性、科学规范性和好学易用性的输入 法,就不成其为完善的汉字输入法。为此,笔者在CN00112137.5号专利申请中提出了一种双重简码、双路输入的 编码方案,通过增加一个与空格键并列操作的快捷键,在形形声形编码的基础上, 第一次实现了 2万多GBK字符的无重码快捷输入。其缺点是声码对于3000余个常 用字以外的生僻字并不实用,其字根集和编码规则更无法实现对七万多CJK表意汉字的 无重码快捷编码输入;只增加一个输入键的双路输入,于规避重码、提高录入效率 的效果有限。另外一份题为一种便于快速选取重码的汉字输入法的专利申请(申请 号200510037057)提出,用SDFGHJKL 8个字母作为重码录入键,但该方法的目的并 不在于减少或消除重码,而仅仅是为了改善重码字的录入方便性。而用S、 D输入第 2、 3位重码候选字,较之用数字键2、 3选录,并无明显改进,且S先于D的录入方式, 有悖于字母排序常规。上述二份专利申请还因为单字与词组编码制式相同,与现有输入法同样存在大量极为有害的字、词重码,词组容量被限制在三、五万条之内,严重影响 了录入效率。一个好的输入法应当是各种编码要素的优化集合,必须从编码规则、字根集设计、 键盘布局、录入方式等方面通盘考虑,择优组合,才能解决问题。从根本意义上说,只 有字根集设计合理,取码规则好学易用,码长短、字码惟一对应,字词编码独立,词库 容量足够大,并且适于所有国际表意汉字的无重码快捷输入法,才是中文编码输入方法 的最终解决。
技术实现思路
本专利技术的任务是,通过一系列编码新技穷的组合应用,特别是基于以序码为末位标识码、以多列简码、多路输入为主体编录模式,以及相应的多通道并列输入中 文键盘,提供一种适用于所有CJK国际表意汉字的无重码快捷输入法。专利技术人经多年研究发现尽管所有的输入法都以消除重码、方便汉字输入为编码宗 旨,但几乎没有一款能如愿以偿。原因在于常规输入法编码由汉字本身的音义形特征 所决定,四码皆实,不具备规避重码的可编辑性。虽重码率高达35%以上却没有任 何回旋余地,只能任其重码严重影响汉字录入效率。而增加编码码符或码位并不能根本 解决问题。如某知名输入法,将编码增加到五位乃至六位,动用了 3亿条编码源,在 CJK超大字符集中仍有4(m以上的重码!其次,现有输入法都将英文Qwerty键盘作为标准输入键盘,而该种键盘对于中文输入无论字母布局或键盘输入方式,都是极不相宜的。 中文字词数量浩繁、重码极多,需频繁使用数字键选录,但最常用的数字键2、 3却 处于很不易操作的键盘左上角,好比把出入口设到了楼顶上,以致人们宁可多打几码也 不愿数字键选录;而最便于双手大拇指操作的底楼却只有一只空格键独守空闺, 用一只空格键单路输入单列简码,只能产生600来个一、二级简码,远不能满足数 千个GB常用字的快捷录入之需,也无法用简码方式规避重码、减少取码难度。对此,本专利技术的解决办法是采用三实一虚编码制,多列简码、多路输入的编 录方法。即先将汉字按使用频度编排成多字并列简码(一字只多取三位字母码编码, 即三实),再以同组简码字的排列序位作为末位标识码(即序码, 一般为非字母 编码,即一虚)以去除重码;其后通过本专利技术的多通道并列输入中文键盘,进行多 列简码字的快捷多路输入;在当屏列示的前提下,实现了所有GB18030标准汉字基 于常用字(声形码)优先的无重码简码录入,所有CJK表意汉字基于纯形码编码的无重码 快捷录入,由此圆满完成了本专利技术的任务。本专利技术所称的多列简码是指编码相同的一组并列简码字,它们既具有少拆一码 或几码的简码特征和输入便利性,又能通过序码标识,消除重码。经以多列简码编 排方式,将简码字数量扩大了N倍(N:序码数,可以有36个以上的并列简码),又利用序 码标识简单有效的去除了重码,并足以实现所有汉字的无重码简码输入。故而本专利技术具 有普适性,原则上适用于所有汉字输入法的无重码编码和快捷简码输入。本专利技术所称的序码是指按同一组编码的简码(或同码)字的排列序号作为末位 标识码的编码方法。由于序码与字义特征无关,无需识记、也没有任何的编码难度,实 属虚码。序码的使用,不但少拆一码,减轻了拆码工作量和取码难度,将简码适用 范围扩展至全部七万多个CJK表意汉字;而且避实于虚,简单有效的去除了所有重码, 大大便利了录入操作;序码可使用非字母键符,有利于字、词编码的相互隔离,并从根 本上消除字、词混列重码,使词库容量无限量扩增到30万条以上, 一举解决了当今汉 字编码中诸多老大难问题。如不加序码、直接以数字键输入,虽也可行,但随机产生的 数字序位,不具备编码确定性和惟一性,不能从形式上改变汉字的重码状况,也不利于 码表编辑和转换(会打乱原有词序),重码翻页找字忒麻烦,选录时要多打一键,尤其是 使用最多的数字键[2]和[3]位处键盘左上角,操作不方便,形同虚设。与本专利技术多列 简码多路输入的编码理念本质不同。本专利技术所称的多路输入主要是指在现有键盘[空格键]右侧增加N个并列输入 键,形成N个候选字并列输入通道,由此完成对多个多列简码字特别是对2500多个GB常用字的快捷输入。在此之前,虽也有输入法软件把符号键[;][']或[,[.]等定义 为第2、 3候选字输入键的,但这些符号键位置也很偏,不能与空格键形成并列输入关 系,故并不适用。按目前的中文输入方式,并列候选字默认每屏十个,由l-O十个数字键选录,本已 具备了 多路输入功能。只是由于最常用的数选键1-3位置太偏,不能与空格键形成 并列输入状态,而未得到利用。本专利技术把这些被冷落的数选键安置到空格键旁边, 或将冗余的右[WIN键]和[属性]键直接定义为第2、 3候选字输入键,则情况就完全不同 了。这时相当于在底楼增设了一排3个输入通道,可以有3个并列简码本文档来自技高网
...

【技术保护点】
一种汉字无重码快捷输入法及其中文键盘,特别是一种适用于所有CJK国际表意汉字的无重码快捷输入法,其特征在于:采用“三实一虚”编码制,以“序码”为末位标识码、以“多列简码、多路输入”为主体编录模式,以及相应的多通道并列输入中文键盘,通过一系列编码新技窍的组合应用,在当屏列示的前提下,实现所有GB18030标准汉字基于常用字(声形码)优先的无重码简码录入,所有CJK表意汉字基于纯形码编码的无重码快捷录入;可以通过以下相辅相成的技术方案及其组合加以实现,其特征是1.1字根集:适用于所有七万多CJK表意汉字无重码编码的《快捷码字根集》,它由基本字根、归类字根、笔画码和二义字根四部分组成,并按音似或形似的特征与键符字母对应归码:如下表所示:***附表说明:表中并列于归码字母后面的为一级简码字,可根据需要调整;□为含折笔的笔画组码集合;“ㄑ”代表所有折笔笔画,如:“亅乛乚ㄋ”等等;粗体字为二义字根;1.1.1基本字根:由130余个字典规范部件和自定义字根如“我也丑了見○”等组成,除少数象形字根如“八业羊(V),○(0),十木(I)”等按形似特点归码外,其余均按拼音或英文谐音归码;1.1.2归类字根:包括与基本字根同名的偏旁部首,特殊定义的类同字根以及类归的笔画组码(如:“ㄑ”代表折笔笔画“乛乚”)等;1.1.3笔画码:由五种单笔画及其两两组合的十五种笔画组码构成,并按音似或形似特征归码为:[一]→H,[丨]→I,[丶]→D,[丿]→P,[ㄑ]→Z;同组笔画不分先后,折笔“亅乚ㄋ”单独归码Z,结构关系固定的双笔字元“冫厶亠冂勹凵刂丩”等不宜拆散;含折笔的笔画组以集合形式表示;1.1.4二义字根:双字元字根“殳攴見用隹”在双字根字中分拆成二码,在多元字中不分拆:字根“羽”在字右部时不分拆,在字下部时分拆成二码;1.1.5等同字根:字根“门韦页乌鸟贝长车马亚”简繁体等同适用;1.1.6乖戾字元:对于CJK超大字符集中不符合汉字书写规范的乖戾字元如“○**********”等,除“○”归码O,其余都按“难”的谐音归码N;1.2编码制式:1.2.1编码方案:词组编码采用四位制字母编码;单字编码先将汉字按使用频度编排成多字并列简码,再以同组简码字的排列序位即“序码”进行去重码标识;即对于GB2312常用字采取“声形形序(声码+形1+形2+序码)”编码,对于余外的生僻字采取“形形形序(形1+形2+形3+序码)”编码;1.2.2序...

【技术特征摘要】
1. 一种汉字无重码快捷输入法及其中文键盘,特别是一种适用于所有CJK国际表 意汉字的无重码快捷输入法,其特征在于采用三实一虚编码制,以序码为 末位标识码、以多列简码、多路输入为主体编录模式,以及相应的多通道并列输 入中文键盘,通过一系列编码新技窍的组合应用,在当屏列示的前提下,实现所有GB18030标准汉字基于常用字(声形码)优先的无重码简码录入,所有CJK表意汉字基于 纯形码编码的无重码快捷录入;可以通过以下相辅相成的技术方案及其组合加以实现, 其特征是1. 1字根集适用于所有七万多CJK表意汉字无重码编码的《快捷码字根集》, 它由基本字根、归类字根、笔画码和二义字根四部分组成,并按音似或形似的特征与 键符字母对应归码如下表所示<table>table see original document page 2</column></row><table>附表说明表中并列于归码字母后面的为一级简码字,可根据需要调整;口为含折笔的笔画组码集合;〈代表所有折笔笔画,如j ]L13等等;粗体字为二义字根;1.1.1基本字根由130余个字典规范部件和自定义字根如我也丑了見O等 组成,除少数象形字根如八业羊(V), O(O),十木(I)等按形似特点归码外,其 余均按拼音或英文谐音归码;1.1.2归类字根包括与基本字根同名的偏旁部首,特殊定义的类同字根以及类 归的笔画组码(如〈代表折笔笔画1L飞)等;1.1.3笔画码由五种单笔画及其两两组合的十五种笔画组码构成,并按音似或 形似特征归码为[一]—H,[门一I, [、] —D, [J] —P, [〈] —Z;同组笔画不 分先后,折笔J LV'单独归码Z,结构关系固定的双笔字元厶^门勺U IJ4 等不宜拆散;含折笔的笔画组以集合形式表示;1.1.4二义字根双字元字根殳支見用隹在双字根字中分拆成二码,在多元字中不分拆;字根羽在字右部时不分拆,在字下部时分拆成二码;1.1.5等同字根字根门韦页乌鸟贝长车马亚简繁体等同适用;1.1.6乖戾字元对于CJK超大字符集中不符合汉字书写规范的乖戾字元如OW上dLSqr^Cyi旌線等,除〇归码O,其余都按难的谐音归码N;1.2编码制式1.2.1编码方案词组编码采用四位制字母编码;单字编码先将汉字按使用频度 编排成多字并列简码,再以同组简码字的排列序位即序码进行去重码标识;即对 于GB2312常用字采取声形形序(声码+形i+形2+序码)编码,对于余外的生僻字采取形形形序(形l+形2+形3+序码)编码;1.2.2序码按同组编码字的排列序号作为末位标识码;序码可使用任意键盘符 号,最好是非字母键符',./;[\]',超出十列的并列简码字用字母码标识;每组编 码最多可有36个同码字;1. 2. 3编码字库按照GB2312、 GBK、 GB18030和CJK超大字符集的顺序,根 据高频先见,常用字优先原则,依次组装成积木式编码词库,以GBK/GB18030 作为标准字库,并通过中文输入法平台软件加载30万多条140余万字超级大词库;对 于CJK国际表意汉字,采用纯形码单字编码,并独立安装于相关中文操作系统,作为 古文等特殊文档的査遗补漏之用;1.2.4编码版本根据不同操作界面和汉语使用区域分设GBK、 GB18030、 CJK 三级输入平台,并设简、繁体两种版本,简体版快捷码输入法以简体字(声形码) 优先,繁体字和生僻字(纯形码)从后,繁体版则反之;1. 3编码规贝U:1.3.1取码规则1)、独体字按书写顺序依次取首次末三码;合体字以汉字表义 字元结构间隙为界,按上下、左右或内外的组合类型,区划为字头+字身两部,字 头部取一个首形码(形l),字身取首、末二码(形2、形3),字身只能取到一码时,返取 字头部一个末形码作补码(形3); 2)、双字根字只取2码、不取补码;3)、双笔画字按 单笔画分解取码4)、对称结构组合字先取居中的字元(形l),次取左上、右下角的字 根(形2、形3); 5)、与前后字元都能组合成字的双向字元,归入字身部取码;6)、形 码有字根时取字根码,无字根时取笔画码;1.3.2编码细则1)、在不拆散相邻成字字元前提下,当前字根能取大不取小, 能取离不取交;2)、十大木夫以及在轴对称字中居中的字元优先取码;3)、合体字 中竖笔串字元不分割,横笔串起的字元可分割;4)、品字形合体字取三角部位字根归 码,品字形重叠字元视为单字元;5)、闭合字元末码取外,开放字元末码取内,收笔 右上角的、不取返码;6)、嵌套字元先外...

【专利技术属性】
技术研发人员:郁祖昌
申请(专利权)人:郁祖昌
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1