当前位置: 首页 > 专利查询>韩恒瑞专利>正文

汉字的四笔层次形码及形音的数字编码输入方法技术

技术编号:2835282 阅读:390 留言:0更新日期:2012-04-11 18:40
本发明专利技术是汉字的四笔层次形码及形音的数字编码输入方法,主体是4笔形码和数码。形码将编码部件归纳为51组,以5∶5∶9∶7将26个键分为点横撇竖4类,每键最多3组。用层次法对70244个国标汉字进行编码,重码极少。GB2312汉字用3码更为快捷,借助符号键就可实现3键无重码输入。数码专为手机输入GB2312汉字设计。字形数码采用3个层次部件码和1个九宫结构码,重码不超过7个,即5键就能输入任1个字。以声韵双拼为基础的拼音数码,将双拼中的5个韵母系列按板块顺次排列,形成双拼输入;再将双拼字母映射转化为4个数字码,就成了可同时作有、无音调双重输入的编码,平均单字输入在5键左右,非常简明快捷。

【技术实现步骤摘要】

本专利技术是一种。是一种用于计算机、手机汉字输入,以及信息交换、信息处理用的综合编码输入方法。其核心是针对汉字的两维图形特征和造字特点,尽量利用编码资源,融合了笔划、部件、双拼、首尾码等输入方法,进行了系统、全面的整合,形成了以层次3码为核心,键盘资源利用配置合理的四笔编码输入架构体系。对GB2312中的6763个汉字,是采用3个编码的最佳选择,比五笔等输入方法整整少了1键;对GB18030的27533个汉字,则是增加1个层次,采用4个编码,也是恰到好处,和目前流行的4码体系相比无疑是一种质的突破。人人都会跑步,能创造纪录并非易事。编码人人会编,要得到大众的认可,更难上加难。我一直在追求速度,在我的97、99版编码方法中,都是采用了30多个编码符,目的就在于此。现在是用26个字母,实现了对国标2312的3键输入,是基于本人对汉字编码的执着和永不满足的进取,经历了一个漫长的,10多年的逐步精炼、众多反复、优化、简化的形成过程。终于将形、音、数整合到一起,形成了1个完整的编码体系。本专利技术在易学、码长、速度等3个方面都全面地创造了新的纪录。我体验特别深刻的是,编码的易学性比速度更重要,现在社会上流行的拼音、汉王笔输入,就是以准入门坎低而易于被广大民众接受。所以我把部件的归类和笔划紧紧地联系起来,彻底地降低了门坎,解决了易学性的问题。在我的形码输入中,无须单独去记忆部件的多少,只要按部件的首、次笔划或整体特征,就能对号入座。其特点是1、部件的归类是主要的,例如,大,如果是编码部件,应该用什么代码,在哪儿能找到它。大字横起笔,代码肯定在第2行的9个字母之中;横后有撇,那就是第2个字母s。实际记忆量非常少。2、以3为中心,找到了码长和速度的最佳切入点。3是和自然对数的底最近的整数,排列和变化是恰到好处。3、充分发挥了符号键的示根和释放重码的功能。方法是输入某代码键后,表明已进入汉字的输入状态,此时的符号键已不能起到输入符号的作用;便令之作为字根的窗口显示,并通过对应的符号键输入该字根字。也可作简码的代码,从而实现单字3键无重码的输入。这种于教于学于输为一体的方式,定会受到社会的欢迎。下面就6项权利要求作简要说明。分别是1.编码体系共性特征。2.简体形码。3.简体数码。4.简体音码。5简体音数码。6.大字符集形码。一、汉字的造字特点、键盘资源的编码体系架构设计1.先介绍一下韩码的编码资源架构设置,如下表。韩码总体构架配置一览表 (表1) 2、汉字的特点和层次编码。在国标基本字符集中,大多数常用字都是两根、3根字,例如″包″是双根字,饱、泡、炮、疱、胞、抱、苞这一系列字都是由包加不同的边旁组成的3根字,读音似包,加上边旁就有了不同的意思,有明显的层次特点。所以用3码长,1个从意,两个从音是形码的理想编码选择。26个字母的3次方等于17576,相当于6763个字的2.6倍,相当于27533个字的63.8%,所以相应的3、4码长是最少的选择。对大字符集则采用层次4码,即在3码的基础上增加1个层次编码。3、要实现最少的3键输入的关键是,字根的代码分布是不是能做到均匀,象5笔字形码那样只用了25个代码,而且用平均的方式分配很不平均的5个版块。我关注的焦点是怎么才能够让编码分布尽量地均匀?首先想到的是4笔,因为5笔中的折笔所占汉字的比例比较少,所占资源却不少,而横起笔类最多。如果把折笔融入4笔之中,相互融合,就能带来更多的灵活性,便能克服这一矛盾,便能更合理地利用有限的编码空间。4、本专利技术几乎是充分完美地找到了对26个代码的4笔5∶5∶9∶7的比例分类,正好完整地分为3行,不仅好记,而且从编码后分别对6763个、27533个汉字的编码数据库代码统计,即相当于各输入一遍的26个字母键次数据统计,实际比例和所占资源的比例,惊人的吻合,误差甚微。5、语言文字是难以分割的两个部分,在汉字的输入实践中,拼音输入和形码有互补作用,汉语拼音只有417个音节,编码要容易得多,尽管重码率很高,仍然为大众所喜爱,特别是在某些场合,往往有以音找字的实际需要,所以我将它们集成在一起,并衍生出数码的输入。特别是音数编码必须在相对稳定的拼音码表的基础上进行,而且其韵母在26键上的定位,除aoeIu5个字母以外,几乎没有过多的联系,所以本人大胆地采用按板块顺序排列的方法,即按第1行排列u7 o3两个系列10个键位,第2行a5 e 4两个系列9个键位,第3行只有I,占7个键位,其中只有u和I有少量交叉。请注意这里我一直在用键位这个词,而忽略字母本身,这在作韵母数码输入时,界定特别简明,简化了思维层次,非常便于记忆。而我在拼音权利要求也仅此而已。二、关于简体形码的说明对于汉字编码来讲,最适用的就是形码,就好象用什么钥匙开什么锁一样。但是简化字是例外,这是因为为了简化,打破了造字的常规,以最少的笔划,笔形来区别常用字,很难用整齐划一的方法进行高效的编码,所以形成了瓶颈,成为最难啃的骨头。本简体形码针对实际情况,在立足于部件编码的基础上,充分利用符号的剩余资源,1是作字根部件的代码显示,2是作简码、重码直接输入,实现了3键无重码的硕果。具体有如下几点需特别说明一下1、编码部件或多或少,最终要落实到26个代码上,所以部件恰当的分类是关键。在简体形码中体现在对部件的约50个具体的归类。再分配到26个代码键上,平均每键只有两个记忆单元。其中以横笔的9个代码的分类比较复杂一点,代码J、L中都以横折的起笔为主,其区别从系列部件示例中就能看出,其中前者是直角左钩,后者是非直角、右钩的差别。如尸、巳、已、己从J,了、廴、乙从L。可见部件的多少并不重要,只要记住分类特征就可以了。这说明实际需要的记忆量甚少。这些笔划、特征都相近的字,有了简码直接输入分流,重码当然会少。2、利用了符号键的剩余可用资源,即在不影响现有符号键功能的情况下的资源,具体讲就是进入输入状态(击过第1代码键后)时,符号键设定为示根、简码、重码区键、词选择键使用。这可谓是完美的设定,从而保证了极低的重码率。3、在2312中有40个边旁,在输字过程中很少用到,本体系设定1个专用符(`)及后续符号显示,格式是代码+(`)+指定符,几乎不占代码资原。4、由于简体形码设定3码长,结构码只能用于前两个代码所存在的相互关系。有4种情况,1、独体字的首尾码、或拆分码;2、左右两部件码;3、上下两部件码;4、交包两部件码。结构码分别用4行中的1行符号代替。当某1类过量时,为减少重码,相互允许兼容,以提高输入速度。5、本法是采用层次编码的方法,主体是两个编码和3个编码。由于设定码长为3个,3码以上字的输入,就得有所选择,这就是层次编码的方法,恰恰符合汉字自身的造字特点,具体举例如下。i.层次编码的取舍与书写次序无关。例如,″弩″字,发音从奴,是一种和弓相似的器物。枷和架,都从木,木是首选的编码,与书写次序无关。ii.汉字的造字特点有明显的层次性。如,″母″可以看成是1个独体字,也可看成是组字部件,可单独直接用1根1符输入。编码是母加横人头成每,每加攵成敏,敏加糸成繁,繁加艹头成蘩,分别由1、2、3、4、5,即5个部件组成了5个层次的汉字,母、每、敏、繁、蘩。iii.在取码时,对组成部件数多于码长的字,就存在取本文档来自技高网...

【技术保护点】
一种汉字的集成四笔划融合层次码的编码(输入)方法,是一种用于汉字信息交换、信息处理的,集形(含GB2312、GB18030)、音(GB2312)、数(GB2312)为一体的综合编码方法。这是在本人专利号分别为97106282.x和991144058的基础上,依据国家对编码专利技术的强制性标准和规范的要求,新近研究、设计、优化出的全新的综合编码体系。对GB2312采用的是层次3码的方式,对GB18030则增加了1个层次,采用了层次4码的方法,这是体系的主体,故叫汉字的集成四笔划融合层次码(简称韩码或四笔)的编码(输入)方法。四笔根据实际需要,在总体上设定了5个输入版块,其中对GB2312,形码有标准键盘输入和10个数字键输入两种,音码的主体是数字输入,兼有26字母的拼音输入,共4个输入版块;还有适用于GB18030的大字符集形码输入版块。在本编码体系中,四笔形码最为复杂,其核心输入架构又拓展到音码和数码,这就形成了一种综合的编码输入方法。其总体特征在于:(1)形码编码部件以点(捺)、竖、横、撇(提)4笔分类,将五笔中的折笔依起笔从点、竖、横、撇4笔之中,分别以通用键盘的26个英文字母为代码,按5、5、9、7的键盘自然顺序从左到右、从上至下依次排列。对编码库的分类统计表明,5、5、9、7配置的配置恰到好处。详见后续简(2)基础部件(2312简)代码分类设置表,和繁(6)增补部件(18030繁)代码分类设置表。(2)本法所述层次编码方法,是根据汉字的造字层次,采取逆向思维的方式,逐层取根码的编码方法,特点是编码部件可以是笔划、部首,独体字,也可以是多根字,具有明显的变通特征和省略,所以字根、部件总数难以界定。例如原字,单独输入时用3个明显的根部件输入,而由3个原、4个原组成的字,只把原看成1个编码部件,只取首部件(厂)的代码,把以后的白、小都视为省略,也没把‘原’计入编码部件之中。对层次不够分明的多部件组成的复杂汉字,是先找出突出的偏旁部首,然后看后续是取两个编码,还是3个编码。取两码时取剩余部分的首尾码,取3码时再找出突出部件码,由于最多只取4码,所以经两轮后只剩两码了。如蘩、繁、敏字等。(3)本法以3个代码为核心基础,对2312字符集,形码最多取3个编码部件,并转换成字母输入;数码转换成3个数字,再增加1个3部件所形成的3点式9类结构码输入。在18030的大字符集中有27533个汉字,取4码才能满足输入的需要。3根字...

【技术特征摘要】

【专利技术属性】
技术研发人员:韩恒瑞韩正扬
申请(专利权)人:韩恒瑞韩正扬
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1