当前位置: 首页 > 专利查询>王小宁专利>正文

计算机形码类字四码词六码键盘中文输入编码制造技术

技术编号:2890524 阅读:294 留言:0更新日期:2012-04-11 18:40
一种形码类计算机中文输入编码,可以用五笔四版编码的字根分组及键位位置,去掉难学难用的末笔字型识别码,采用简码区分,智能选择使用码率低于五笔四版,仅对55个同码字后加识别码就完全消除了常用字同码。词码采用新的规则和六码码长,可与四码码长的字码混合输入,不用转换。词码编码空间比五笔四版大26倍以上,收词多而全,同码率很低。词码容易识别和记忆,可以实现词为主输入。输入速度提高50%以上,必将取代五笔四版编码。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种计算机形码类键盘中文输入编码。日前全国计算机键盘输入编码使用最多的是非专利技术的五笔字型四版(下称五笔四版)编码。这种编码有明显的缺点。首先,五笔四版为了减少同码字,给多达2970个汉字(占标准汉字总数的47%)后加一码末笔字型识别码。这种识别码难学难用,是五笔四版编码掌握的最大难点。然而即便是付出了如此大的代价,也没能消除常用字的同码。在使用频率高的前3500字中仍有多达60个左右的同码字。这显然是严重的失大于得。其次,五笔四版虽设计有词码,但实际使用很少。五笔四版码长为四码,词码利用字码的编余空挡,词码编码空间太小。(很多编码都有此问题)为了避免字词同码,词词同码,五笔四版的基本词库仅收词三千左右。相当一部分常用词未被收入。例如,词中出现频率最高的“我们”一词就未收入。如果词库收词增多,就会出现大量同码。收词超过一万个,同码多得无法使用。词码规则为二字词由词首字前二码和词后字前二码组成。而前二码相同的字有多个,这就造成了词码很难识别和记忆。要想记住成千上万个常用词的编码,不下一番苦功夫是做不到的。这些都使五笔四版在使用时基本上都是单字输入。由此专利技术人之一的王永民认为词为主中文输入是不可能的。针对这一严重缺点,本专利技术人1993年提出了申请号为9311489.6的《包含五笔字型的五码词为主,字为辅复合码计算机输入编码》的专利技术专利申请。这个专利技术在国内首先提出了新的词码规则,并将码长由通常的四码加长到五码。但此专利技术仍有缺点,码长五码,编码空间虽有成倍增长,但仍嫌太小。本专利技术的目的是提供一种新的计算机形码类键盘中文输入编码。它可以降低编码的学习使用难度。可以实现字码、词码不同码长的混合输入。可以造成比一般编码大26倍以上的词码编码空间,做到字词不同码。可以收入所有常用词和大量各类词,即使收入10万个词,同码率也很低。词码好识别好记忆,记住字码也就记住了词码。输入效率比一般编码提高50%以上,真正实现了词为主,字为辅的中文输入。本专利技术是这样实现的它使用标准计算机键盘,将优选汉字字根(含笔画)分组定义在不同键位的字母键上,对符号键进行中文标点符号的重新定义以适应中文输入的需要,从而构成中文键盘。它的编码规则为对汉字进行字根(含笔画)拆分,依一、二、三、末字根的次序编码。字编码的最长码长为四码,不足四码加空格键。对编码中的二码字,以重复第二码的办法变为三码字。例如“红”字,编码为“XA”,重复第二码变为“XAA”。这样做的目的是为了让出宝贵的二码位置给二级简码使用。本专利技术不使用末笔字型识别码或末笔识别码。对于字根字,编码有两种可以相互替代的规则。一种是首码为该字所在键位字母,此后依一、二、末字根(含笔画)编码。例如“辛”字,它在“U”键上,编码为“UUF”。还有一种是字根字中的键名字,首码为所在键位字母,后三码为重复该字母三次。例如“金”字,编码为“QQQQ”。其他字根字首码为所在键位字母,此后依一、二、末笔画(不是字根)的次序编码。例如同样是“辛”字,编码变为“UYGH”。这两种规则,利用字根编码的较为简便合理,利用键名字和笔画的差一些。在本专利技术的实施例中,采用五笔四版的字根分组,键位位置和汉字编码规则,为了使原使用者更易接受,仍沿用上述第二种字根字编码规则。本专利技术的实施例中,中文键盘的字母键部分采用五笔四版的优选字根、分组及键位位置,符号键部分采用本专利技术人的专利技术《一种在符号键上定义汉字的通用性计算机中文键盘》(专利技术专利申请号95118378.8)本专利技术可以采用五笔四版,也可采用其他形码类编码的优选字根,分组及键位位置。可以采用95118378.8号专利技术专利申请,也可以不采取这个专利技术。因此上述两个
技术实现思路
并没有作为本专利技术的必要技术特征,而仅作为附属权利要求提出。本专利技术的实施例采用五笔四版的相应部分,是因为它是全国使用最多,影响最大的编码。这是为了能使几百万使用五笔的人转而应用我的专利技术而采取的技术性措施。应该指出五笔四版的优选字根,分组及键位位置并不科学合理,有的甚至毫无道理。95118378.8号专利技术专利申请是将最常用的10-20个汉字直接定义在中文键盘的符号键上,以实现这些使用频率高达19%的汉字的一击输入和二击输入。这种中文键盘可以一举提高输入效率15%以上。被直接定义在符号键上的汉字被称为特码字。在任何中文输入编码中都不允许太多的同码存在。编码同码有三种情况,应区别对待。(1)非常用字与非常用字同码。这种同码出现的频率是非常小的,人工选择即可对付。(2)非常用字与常用字同码。对这种同码采取高频先见和人工选择相结合的办法处理即可。这两种同码影响都很小。(3)常用字与常用字同码。(我采用的常用字概念为出现频率为十万分之五以上,共有1685个汉字)对于这种同码字是应该认真对待的。由五笔四版优选字根,分组及键位位置不合理,选成此种同码字较多,共205个字。本专利技术的解决办法是第一、规定应尽量采用特码和简码。这就是特简码区分法。例如“吧”和“吗”为两字同码,编码都是“KCC”但“吧”为二级简码,可用“KC”进行输入,因此这两字就不同码了。特码,简码可由计算机窗口提示,不用专门去记。本专利技术对简码按科学合理的要求进行了部分重新规定。经过特简区分法。同码字由205个减到了95个。第二、规定应尽量用词组进行中文输入。两字同码使以这两字组词时词首字编码相同。但是词后字完全相同的可能性很小。例如“香”和“利”是同码字。有“香气”一词,没有“利气”一词。有“利用”一词,没有“香用”一词。因此尽量使用词输入,可以避免字同码。同码字出现的可能性将降低70%。第三、由于常用字同码仅有42、组95个字,因此在计算机中加入智能选择是比较容易的。智能选择的计算机程序可分析同码字中的被区分字与其前字和后字能否组成常用词来判断所要区分的汉字是同码中哪个字。例如“矿”和“丈”字同码。“矿”的出现频率为0.044%,而“丈”字是0.007%。丈的常用词有四个“丈夫”、“丈量”、“丈母娘”、“丈人”。其出现频率共为0.004%。智能选择判断内容为只要该同码字后是“夫”、“量”、“母”、“人”四字就可判断为是“丈”字,否则为“矿”字。这一智能选择的正确率为94%。也就是说,加入了智能选择以后,人工选择的可能性降低了94%,仅为原来的6%。这说明只要在计算机程序中加入42条(同码字有42组)类似上面的计算机判断程序,就可以大幅度降低同码字人工选择的可能性。完全可使同码字人工选择的可能性低于同码率相当低的五笔四版。第四、对常用字中三码的同码字后补组词联想识别码以区分同码字。用不着对所有95个同码字都补此码。一组同码字,可使其一字编码不变,只对其他字编码后加一位识别码就可以区分同码了。因此,只要对55个字后加此码就行了。组词联想识别码是指该字为词首字组词频率最高的词的词后字首码。例如“香”字,其组词频率最高的词为“香味”,其识别码为“K”。“香”的编码由原来的“TJJ”变为“TJJK”。这样做可以消除所有常用字中的同码问题。记不住没有关系,可以由计算机窗口提示。本专利技术词码规则与其他编码完全不同。码长规定最长六码。字码、词码不等长一样可以不用转换,混合输入。输入后的编码由计算机自动辨别。本专利技术规定在编码串前五位中没有词码标识本文档来自技高网
...

【技术保护点】
一种计算机形码类键盘中文输入编码,它使用标准计算机键盘,将优选汉字字根分组定义在不同键位的字母键上,对符号键进行中文标点符号的重新定义以适应中文输入的需要,从而构成中文键盘;它的编码规则为:对汉字进行字根折分,对一般汉字依一、二、三、未字根的次序编码;字编码的最长码长为四码,不足四码加空格键;字码设有一、二、三级简码;其字根字采用首码为该字根字所在键位字母的规则编码,其特征在于:其二码字,重复第二码变为三码字;词编码的最长码长为六码,不足六码加空格键,编码由词首字简全码加词码标识码加词后字全码的全部或前部分编码组成。

【技术特征摘要】

【专利技术属性】
技术研发人员:王小宁
申请(专利权)人:王小宁
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1