当前位置: 首页 > 专利查询>吕宝申专利>正文

与西文兼容的中文吕氏编码输入系统技术方案

技术编号:2893260 阅读:221 留言:0更新日期:2012-04-11 18:40
与西文兼容的中文吕氏编码输入系统,属计算机信息处理领域,是一个用计算机处理中文信息,兼容西文信息的编码输入系统,其特征是:本发明专利技术根据汉字的字形特征提出了汉字的分体,分类方法、汉字、词、语相互兼容,并于西文完全兼容,在汉字、词、语的代码中,一般含有多种码元(包括该字、词、语的字类码元),码型规范,皆为四位,重码率低,重码数小,基本解决了中文信息输入方法的好用性与易学性之间的矛质。可广泛用作计算机,中文打字机,各种形式的电信通讯系统等方面的汉字输入系统。(*该技术在2009年保护过期,可自由使用*)

【技术实现步骤摘要】
与西文兼容的中文吕氏编码输入系统,属计算机信息处理领域,利用这一编码输入系统,能够高速地输入全部中文信息,并于西文完全兼容。中文的信息处理,尤其是汉字的输入问题,一直是计算机信息处理领域的“瓶颈”,它严重地影响了计算机在使用汉语的国家和地区的应用与普及,为较好的解决这一问题,人们进行了广泛的探索研究,据不完全统计目前已有近七百种汉字输入方案,但尚没有一种能够达到令人比较满意的程度,这些输入方案,可规纳为以下两类,第一类根据汉字的“音”,“形”或者“音”,“形”结合将汉字进行编码,直接利用目前标准的小键盘用字母或数字输入,这类输入方式,不须专用键盘,造价低,但由于目前的编码方案存在很多缺陷,未能得到普遍的接受,主要表现如下a.编码输入速度不高,b.编码规则未有理论支持,不系统,易学性差,c.对操作者的单项水平要求过高,d.汉字,词,语不能兼容或不能很好兼容,不能与西文兼容,e.代码长短不一,难于规范,第二类汉字非编码输入,它包括汉字的整字输入方法和将汉字分解成字根的直接输入方法,分别采用大键盘和中键盘输入方式,造价高,且整字输入方法,盘面字容量一般较小,输入速度较低;由于汉字极为复杂,采取字根输入法时,要求使用者具有很高的字根分解水平,难于熟练掌握应用,这类输入方法与西文的兼容尤为困难。本专利技术的目的寻求一种比较理想的中文输入方法,基本克服目前汉字输入方法的各种缺陷,提供一个具有理论支持,系统规范,易于学习掌握,高效的中文输入系统,在这一系统里,汉文字,词,语兼容;中西文兼容;并采取造价低的标准小键盘输入方式,较好地解决汉字输入的问题用事实证明具有悠久历史的汉文字,是一种完全适应现代信息社会,便于计算机处理的,最丰富,最简洁的文字。本专利技术的内容为一.研究汉字的基本特征,获得下述认识1.汉文字是一种由象形文字发展的具有二维结构的形意文字,表观上相当部分的简单字(如大,单,有等),在纵向上具有对称性或准对称性。2.一个汉字是一组笔形的有机组合,笔形间只可能有两种关系,即笔形间相互交叉或连接与不相连接,本专利技术称一组相互交叉或连接的笔形为连组。3.构成汉字的有些笔形或笔形组合(简记为笔形)极为常用,这些笔形相当简单(如、,一,丿等),一般附在其它笔形之上很难独立,本专利技术称这类笔形为附体。4.可根据汉字的字形特征,提取一些特征符,并根据汉字所包含的特征符对汉字分体,分类。5.汉字在现代拼音首字母的分布上极为不均,相当数量的汉字读音可以根据构成汉字的表音部分得出相近读音。二.汉字的分体,分类方法基于上述(内容一)对汉字的认识,根据汉字的字形特征,将汉字分为七种体,分别为独体,纵体,垒体,并体,靠体,庇体,围体,二十个类,分别为1,2,3,4,5,6,7,8,9,a,b,c,d,e,f,g,h,i,j,k,汉字的字形特征图如附图说明图1。对图1,字形特征图的说明“ ”指必要部分,“ ”指非必要部分,“厂”,“囗”是字形特征符,1.为准确地对汉字分体,分类,进一步对连组及附体研究如下汉字由连组及附体构成,连组即一组相连的笔形,下列笔形亦认为是一个连组 ,,附体指一些常用于构成汉字的简单笔形,附体一般附在字的上部,常用附体归集如下丶(丷,, ),一(亠, ),丿(爫),人(八,, ,入,丆),乂(十,又),,,在上述附体中,除“丶,丷,; ,一,人,八”外,处于非附体下时认为是连组,如“古”字的“十”为附体,“早”字的“十”为连组,非重复附体迭加后仍为附体,如“合”字可认为由一个附体和一个连组组成,其附体为“人”,“一”的迭加,两个相同的附体的迭加认为是一个连组,如“爻”认为是一个连组,在考察汉字的各笔形关系时,若不能确定笔形间有相互连接关系,即认为不相连接,2.汉字的体,结合图一,详述如下独体字汉字中最多含有一个连组,对应字形特征图(1),即图1,1或难于归入下述各体的字,如“大,内,分,鸟”等,纵体字汉字呈纵向串列,且在任一层面上最多只能含有一个连组,对应图1,2,如“各,草,帛”等,垒体字汉字呈纵向串列,且在至少一个层面上有两个以上连组,对应图1,3及图1,4,如“磊,菠,孬,梁,哭”等,并体字汉字呈横向并列,由两部分组成,且任一部分不为垒体字码或下面所说的总体围护及总体围护及总体庇护字码,对应图1,5,如“特,地,到,部,加,他,报”等,靠体字汉字呈横向并列,由两部分或者两个以上部分组成,当由两部分组成时,其中一部分为垒体字码,对应图1,6及图1,7,如“测,操,糊,礁,陛,准,珩”等,庇体字汉字含有庇体特征符(特征符见下文)且符合下面所说的汉字分体时量的规则,对应图1,8及图1,9,如“庇,这,玻,蔑,”等,围体字汉字含有围体特征符(特征符见下文),且符合下面所说的汉字分体时量的规则,对应图1,10及图1,11,如“容,国,风,同,间简,洞,阙”等, 汉字分体时量的规则当汉字含有庇体或围体特征符时,若特征符所庇护或围护的部分约占一半以上,则该汉字为庇体字或围体字,如“析,俯,掴,恫”等,若汉字的所有部分都在庇体或围体特征符之庇护或围护中,则称该字为总体庇护或总体围护,如“庆,同,这,遮”等,而“蔗,谠”不为总体庇护或总体围护,若汉字在分体时,依上述规定可划归多种体,依下述顺序优先;庇体围体,垒体,独体,3.汉字的分类,汉字在上述所说的体上分布很不均匀,要更准确地把握汉字的字形特征,需进一步对汉字分类,为了汉字的分类将一些常用部首及偏旁(简记为BP)归集如下 ,汉字的分类,结合字形特征图及汉字的体规定如下表 注1.在字形分类表中,字中含有某一BP,对纵体字,垒体字是指该BP单独占据字的最高或最低层面;对并体是指该BP单独占据字的左或右部分,2.在字形分类表中,当含有两个对应BP时,对并体字以右部的BP为准分类,三.汉字编码方法由于用单一信息难于准确地表示出汉字的全部特征,本专利技术的汉字编码方法为,汉字代码含有四位码元,包含字的四种特征信息,四位码元分别为字音码元,字类码元,字首码元,字尾码元,1.汉字读音码元的取法因汉字在读音首字母的分布上极为不均(内容1.5),规定读音码元取法如下读音码元由下列字符组成a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z。当汉字的现代汉语拼音的首字母不为c,j,l,s,y,z时,该字的拼音首字母即为其读音码元;否则,其读音码元的取法如下表。表2.汉字读音码元取法表 注1.顺序比较结果指汉字拼音的前若干个字母与比较字符串依(相应英文字母的排列)顺序进行比较的结果,2.可以用对应字母的大写字母,2.字类码元的取法字类码元由下列字符组成1,2,3,4,5,67,8,9,a,b,c,d,e,f,g,h,i,j,k,汉字的分类号即是该汉字的字类码元,当分类号为字母时,可以用对应的大写字母,3.字首码元及字尾码元的取法这两个码元由下列字符组成0,12,3,4,5,6,7,8,9,其取法类似新四角号码查字法中的取角码方法因相当部分的汉字存在对称性(内容1.1),而字首码元及字尾码元根据汉字的字首及字尾的笔形提取,它基本包含了汉字的笔形特征,这两个码元的取法如下表表3.字首码元及字尾码元取法表 注应尽量使取码的笔形多包含本文档来自技高网...

【技术保护点】
与西文兼容的中文吕氏编码输入系统,属计算机信息处理领域,它包括本专利技术对汉字的研究认识以及建立在这一认识基础上的汉字;词,语的编码方法及其系统,其特征是:根据汉字的字形特征对汉字分体,分类,汉字,词,语的代码一般含有多种特征信息码元(一般包括字类码元)在本系统中,汉字,词,语与西文完全兼容。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕宝申
申请(专利权)人:吕宝申
类型:发明
国别省市:37[中国|山东]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1