当前位置: 首页 > 专利查询>汕头大学专利>正文

一种汉字数字编码输入法制造技术

技术编号:2885913 阅读:220 留言:0更新日期:2012-04-11 18:40
一种基于笔画分类的汉字数字编码输入法,用1~8代表横、竖、撇、点、捺、横折、竖折、其它笔画,取每个汉字前三笔画和末二笔画作代码形成一种汉字的简易编码方案;此外,增加几个常用部件,也用5~8以及9作代码,可有效降低重码率;并采用容错码以利于有不规范笔画习惯的人群;还定义了词组编码,更提高输入速度。本方案规则简单、易学、易记、歧义少、反应快,所以使用相当方便有效。可在移动电话、计算机等场合使用。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术属于汉字信息处理、特别是汉字编码输入法
本专利技术适用于利用移动电话、小型军用通信设备或计算机上的数字键盘来输入汉字信息。近年来,尤其在中国,提出了很多种汉字数字编码输入法,其中少数获得了应用。例如,有的只用五种笔画,规则很简单,很容易使用,受到人们的青睐。但其击键次数太多,或重码率太高,仍不理想。理想的使用键数应为8~10个,码长4~5位。这样,就产生了很多种分类的编码方案。但所有这些都还存在着一些不利于使用的缺点。例如,有的根据汉字部件来设定数字代码,可是汉字部件本身十分复杂,五花八门的部件使非专业化人员很难记住,对汉字的拆分也不自然,影响输入效率;有的根据汉字笔画来设定数字代码,可是汉字笔画也五花八门,10个数字不够用有些就几种笔画共用1个数字,也不容易记住。另外为了解决重码率高的问题,又来修修补补添加了不少附加的规则,这些对一般使用者来说掌握的难度较大,输入也就慢了。为了解决易学、易记的问题,中国专利申请第95110568.X号提出了“汉字九笔画编码的编排方法”的方案,但由于该方案把折笔分为“左钩”、“右钩”与“其它折”,在对字编码时,会造成使用者的反应速度慢;另外其笔画、部件在键位上的安排不均匀,如把笔画“提”占一个键位,几个部件只能在第一码使用,则第2~5码在有折和提的键位上使用率很低,造成重码过高;还有就是增加一个本来应该编码在第3位的“区分码”,但该码却安排在最后来取,影响到取码规则的连续性和简明性,相应影响了击键输入速度;而其笔画的编排次序与目前普遍流行的“五笔画”输入法次序不一致,影响到日后许多使用者的适应性。总之,汉字数字编码输入法,既要规则简单明确不出现模棱两可的情况,又要重码数能被接受,不影响输入效率,才易于被采纳使用。本专利技术创造的目的就是提出一种规则少,易学、易记、易用的汉字数字编码输入方案,同时它在使用中重码又能少到不影响输入速度,易受使用者采纳使用。本专利技术是这样实现的一种汉字数字编码输入法,其特征在于首先,将汉字的所有笔画按特征分为8类,并分别用1至8作为其代码,即用1代表“横”(一),用2代表“竖”(丨),用3代表“撇”(丿),用4代表“点”(丶),用5代表“捺”(),用6代表“横折”(泛指所用4代表“点”(丶),用5代表“捺”(),用6代表“横折”(泛指所有起笔为横而随后又折弯的,不论其向什么方向折弯,以及怎么折弯,都归入“横折”这一类,如乛、 ㄋ、乙、等),用7代表“竖折”(泛指所有起笔为竖而随后又折弯的,不论其向什么方向折弯,以及怎么折弯,都归入“竖折”这一类,如亅、乚、ㄣ、等),用8代表所有其它笔画(如く、∠、 等)。这样分类的结果,所有的笔画都有很明确的归类,歧义少、输入编码时反应快;另一优点是与目前普遍流行使用的“五笔画”输入法的次序(很多字典也是这个次序)兼容(前4种笔画次序一致),很容易记住。然后,按照汉字的笔顺次序,取每个汉字的前3笔画的代码,以及末2笔画的代码,编排在一起作为该汉字的编码。当汉字的笔画数目不够5码时,有几码就取几码。此方案称“简易编码方案”。最后,利用移动电话机或计算机的数字键盘上的1至8数字键,分别代表上述笔画代码,进行击键输入。按简易编码方案输入汉字,没有什么困难,通常都很顺利,唯一不理想的是少部分字其重码率偏高。例如,按照国标一级常用字3755个统计,其中78.5%的字,其重码率≤10个,即输入编码后只须在屏幕上直接选字即可;另有14%与5.2%的字也只须翻页一、二次即可;只剩2.3%的字须翻页四次才能找到。为了进一步降低重码率,本专利技术以兼容并存的方式,将构成汉字的高频部件“氵、艹、扌、木”分别并入上述代码5、6、7、8,将构成汉字的高频部件“口”及“日、目、田”用9作为其代码。即5既代表“捺”(),又代表“氵”;6既代表“横折”,又代表“艹”;7既代表“竖折”,又代表“扌”;8既代表其它笔画又代表“木”;9既代表“口”,也代表“日、目、田”。其取码规则类同上即按照汉字的笔顺次序,取每个汉字的前3码及末2码,编排在一起作为该汉字的编码;当不足5码时,有几码就取几码。取码时,若遇上述部件,则用部件代码;否则,仍用笔画代码。此方案称为“高效编码方案”。加进上述高频部件代码以后,增加的记忆不多,却大大地降低了重码率。例如,按照国标一级常用字统计,其中99%的字重码率≤10,不必翻页即可选字;其余那1%的字也只需翻页一次即能找到。可见这是相当理想的。即使扩大到连同国标二级非常用字在内的6763字来统计,也有95%的字重码率≤10,而99%的字重码率≤20。我们还应注意这样一个事实,由于重码提示一级常用字显示在前,二级非常用字显示在后,后者的使用频度是极低的,因此对约5%的字须翻页一至二次也不必在意。世界华人的现状,他们的笔画、笔顺习惯,并非完全符合标准,而且早已养成了习惯,甚至因受到楷、行、草书的影响而各有不同,包括已出版的中文字典之间也有差异。为此,本汉字输入方案在按标准笔画、笔顺编码的同时,将那些虽不符合标准但已为许多人所习惯了的笔画笔顺,也制成汉字编码,这称为“容错码”。在显示屏上,这类非标准编码的汉字用特殊的颜色加以区别提示,同时在特定的位置显示该字的标准编码。这样,对一个字来说,就可能有几种编码。用户可任意使用一种来输入一个字即既可用高效编码,也可用容错码、简易编码。区别只是重码提示时,前者显示在前,重码少,因而不受后者影响;后者显示在后,可能重码多,击键次数多。在用户选中一个非高效/标准编码的字时,通过计算机“嘟”一声的警示和提示该字的高效/标准编码,可指导用户逐渐向高效/标准编码过渡。本方案仍适合对GBK大字符集二万余汉字及对词组(包括词和短语)进行编码。对词组的编码仍由5码组成。其取码规则如下(1)对2字词组,依次取首字前2笔画或高频部件代码加上后字前3笔画或高频部件代码组成;(2)对3字词组,依次取首字首笔画或高频部件代码加上后2字每字的前2笔画或高频部件代码组成;(3)对4字词组,依次取前3字的各字首笔画或高频部件代码加上末字的前2笔画或高频部件代码组成;(4)对5字以上的多字词组(包括自造词和短语),依次取前4字及末字的各字首笔画或高频部件代码组成。由于对词组的编码其各键分布要比字均匀得多,所以编码空间有效利用率也大得多。相应的,其重码率也不会太高。从上面的介绍可以看出,本汉字输入法在输入汉字过程中,只用到“1”~“9”九个数字键,且很少会出现模棱两可的歧义笔画和部件;其次,在取码过程中,对笔画的分类反应速度快,且按笔顺次序取码反应速度也快;本输入方案的附加规则少,容易学,容易记;还有,有了“容错码”,不再有难字。最后,本输入方案的重码适当,尤其在加入了少数几个高频部件以后,完全符合高效输入的要求。因此,本专利技术具备推广应用的条件。实施例一、编码例(1)钦其前3笔画是“撇”(丿)、“横”(一)、“横”(一),而末2笔画是“撇”(丿)与“捺”(),那么整个编码应是31135。(2)订其前3笔画是“点”、“横折”、“横”,而剩下只有一笔“竖折”,共4码,整个编码应是4617。(3)大学这是2字词组,按取码规则应取首字的前2笔画“横”(一)、“撇”(丿)及后字的前3笔画“本文档来自技高网...

【技术保护点】
一种汉字数字编码输入法,其特征在于:(1)将汉字的所有笔画按特征分为8类,并分别用1至8作为其代码,即用1代表“横”(一),用2代表“竖”(丨),用3代表“撇”(丿),用4代表“点”(丶),用5代表“捺”(*),用6代表“横折”(泛指所 有起笔为横而随后又折弯的,不论其向什么方向折弯,以及怎么折弯,都归入“横折”这一类,如*、*、*、ㄋ、乙、┐等),用7代表“竖折”(泛指所有起笔为竖而随后又折弯的,不论其向什么方向折弯,以及怎么折弯,都归入“竖折”这一类,如*、*、ㄣ、└等),用8代表所有其它笔画(如ㄑ、ㄥ、*、*等);(2)按照汉字的标准笔画顺序,取每个汉字的前3笔画的代码,以及末2笔画的代码,编排在一起作为该汉字的代码,当汉字的笔画数目不够5码,有几码就几码;(3)利用计算机或数字移动电话机的数字 键盘上的1至8数字键位,分别代表上述笔画代码,进行击键输入。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈钦梧
申请(专利权)人:汕头大学
类型:发明
国别省市:44[中国|广东]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1