当前位置: 首页 > 专利查询>钟林专利>正文

汉字数码制造技术

技术编号:2883889 阅读:275 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种用数字作为符号来表示汉字的方法,属于汉字信息处理领域,其特征是将汉字分解为字母,并根据汉字字母的笔画形状位置特征,将汉字字母转换成字母数码,再由字母数码按一定规则组合成汉字数码。该方法具有编码规则规范、记忆量小、简单易学等特点,可用于汉字检索、汉字输入、汉字数码操作和汉字数码控制等方面。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术是一种汉字及词语的编码方法,属于汉字信息处理
现有的汉字编码对汉字的分解有三种方法一、将汉字分解为笔画;二、将汉字分解为部件;三、将汉字分解为笔画和为数不多的部件。方法一的制约因素是汉字平均笔画数较多和各种笔画分布极不均匀;方法二的制约因素是汉字部件种类较多、汉字构成部件较少及部件转化为符号困难;方法三虽然较前两种方法优越,但仍未摆脱上述因素的制约,同样存在编码规则不规范、随意性强、记忆点多等缺陷。本专利专利技术人通过研究汉字的结构规律,发现了汉字字母。这一汉字字母集具有以下特性一、字母集能拼出大汉字集的全部汉字;二、字母集只需很少的记忆量;三、字母集有利于识字教育;四、字母集为优化汉字编码提供了条件。在此基础上,本专利专利技术人专利技术了将汉字字母转化为数码的方法,从而构建成了汉字字母符号系统。这一字母符号集具有以下特性一、符号集只用十个数字就能表示出全部汉字字母;二、符号集利用数字的有序性实现了字母的有序性。上述专利技术虽然实现了汉字的字母化和数字化,但仍存在以下两个问题一、汉字分解为字母不具有唯一性;二、汉字的字母及数码序列长度分布极不均匀,短至一位,长至一二十位。为解决上述问题,本专利专利技术人将字母的固定组合定义为字块,提出了字块笔画构成字母的方法,从而保证了汉字分解为字母的唯一性。根据构成汉字的字块数目,将汉字分为独体字和合体字,再将合体字分为字首和字身,并从中提取出能代表汉字主要特征的数码,从而将汉字数码及二三字词组控制在六位数字以内,并保证了重码率不因数码的缩短而明显地上升。本专利专利技术人还提出了加码和减码方法,彻底解决了汉字编码的重码问题,并实现了汉字和词语混合编码不重码。经过对国家标准《信息交换用汉字编码字符集基本集》(GB2312-80)6763个汉字、《汉字键盘输入通用词语集》(GB/T 15732-1995)43540个词语、《信息处理用现代汉语常用词表》36410个词语以及《现代汉语词典》中大部分词语的不重码编码统计,编码数字在汉字及词语数码首位和其他各位的分布是比较均匀的,最长数码不超过八位,其中有近98%的汉字及词语数码长度不超过六位(与上述汉字及词语集相应的英语词语,不超过六个字母的不到30%左右,最长的达十几个)。因此本汉字编码在各种汉字编码方案中居于领先水平。本汉字数码方案具体说明如下本方案的基本思路是词语由汉字组成,汉字由字块组成,字块由字母组成,字母由笔画组成。从笔画的形状位置特征入手,通过一种简单的形数转换方法,将字母转换成字母数码,再由字母数码组合成汉字数码和词语数码。本方案提出了汉字分解与组合的方法、字母转换为数码的方法和汉字及词语与数码相互转换的方法。一、汉字字母汉字字母主要由一个笔画或两个笔画构成,如字母“丶、匚、刂、亻、勹、廴、冫、讠”。首尾连接的笔画整体构成字母,其笔画数不受限制,如字母“人、几、弓、已、尸、凸、凹”。(一)笔画构成汉字字母的笔画有横笔(一)、竖笔(丨)、撇笔(丿)、捺笔()、点笔(丶)、提笔( )和折笔(乙 ㄋ……)。(二)笔形指笔画的形状。1、笔形笔画按方向归类为横、竖、撇、捺四种笔形,按长短分为长笔形和短笔形。(1)横笔形较长的横笔是长横,较短的横笔和提笔是短横。(2)竖笔形较长的竖笔是长竖,较短的竖笔是短竖。(3)撇笔形较长的撇笔是长撇,较短的撇笔是短撇。(4)捺笔形较长的捺笔是长捺,较短的捺笔和点笔是短捺。钩笔是横、竖、撇、捺四种笔画的附加笔形。横笔附加钩笔构成横钩( ),定义为短横;竖笔附加钩笔构成竖钩(),定义为短竖;撇笔附加钩笔构成撇钩( ),定义为短撇;捺笔附加钩笔构成捺钩( ),定义为短捺。折笔不是笔形,它是由上述笔形组合成的,如“乙”是由横笔、捺笔和钩笔构成。2、特殊笔形由若干笔画构成的形如“又、口、尸、巳、凸、凹”的封口图形,定义为口笔形。横长竖短的口笔形是长口,如汉字“昌、色、户、每、贯”中的口笔形;横短竖长的囗笔形是短口,如汉字“梅、如、辟、抱”中的口笔形,“又”定义为短口。3、笔形数用数字来表示上述各种笔形,即0表示短横,1表示短竖,2表示短撇,3表示短捺,4表示长横,5表示长竖,6表示长撇,7表示长捺,8表示短口,9表示长口。(三)笔位指连续书写的两个笔形之间的位置关系。1、笔位种类(1)单笔指单独的笔形,如一、丿。(2)相接指笔形与笔形之间在其端点处连接在一起,如厂、乙。(3)相离指笔形与笔形之间存在着间隔,如二、八。(4)相连指一笔形端点与另一笔形中部连接在一起,如卜、亠。(5)相交指笔形与笔形之间在其中部交叉,如十。2、笔位数用数字来表示上述各种笔位,即0表示单笔,1表示相接,2表示相离,3表示相连,4表示相交。(四)字母数码规则1、笔画、相接笔画、两笔笔形笔画构成的字母数码是字母笔形数与字母笔位数之和。其中字母笔形数是取字母最后一个笔形的笔形数。除口笔形外,其它字母数码都需转化为八进制数字0~7。例如横笔(一)数码4=笔形数4(长横)+笔位数0(单笔)口笔(凹)数码9=笔形数9(长口)+笔位数0(单笔)折笔(乙)数码4=笔形数3(短捺)+笔位数1(相接)字母(弓)数码2=笔形数1(短竖)+笔位数1(相接)字母(二)数码6=笔形数4(长横)+笔位数2(相离)字母(八)数码1=笔形数7(长捺)+笔位数2(相离)字母(亻)数码0=笔形数5(长竖)+笔位数3(相连)字母(亠)数码7=笔形数4(长横)+笔位数3(相连)字母(十)数码1=笔形数5(长竖)+笔位数4(相交)2、含折笔的不相接笔画构成的字母数码是字母的首笔笔画数码。例如字母(儿)数码6=首笔画数码是6(长撇)字母(讠)数码3=首笔画数码是3(短捺)字母(刂)数码1=首笔画数码是1(短竖)字母(力)数码2=首笔画数码是2(短竖折)字母(廴)数码7=首笔画数码是7(长撇折)二、汉字字块(一)字块构成1、由单独的笔画(单独的短笔形除外)构成。例如汉字“云”中的单独横笔是字块汉字“亿”中的单独折笔是字块汉字“红”中的单独提笔是字块2、由不分离笔画构成(含单独的短笔形)。例如汉字“傅”中的分别是字块汉字“迹”中的分别是字块汉字“掴”中的分别是字块3、由上下分离或左右分离的笔画构成。例如汉字“江”中的上下分离笔画是字块汉字“热”中的左右分离笔画是字块汉字“圳”中的左右分离笔画是字块(二)字块分解首先将相接笔画组合成字母,再将连续书写的两个笔画组合成字母,余下的笔画单独成为字母,最后按笔顺关系排列成字母序列。例如字块只能分解为字母(丿)(口)(一)字块只能分解为字母(亠)(十)(一)字块只能分解为字母(口)(一)(十)(三)字块数码将上述字母序列中的字母代换成字母数码,就构成字块数码。例如字块的数码是694,其中(丿)→6(口)→9(一)→4字块的数码是314,其中(亠)→3(十)→1(一)→4字块的数码是901,其中(口)→9(一)→0(十)→1三、汉字数码汉字分为独体字和合体字。独体字由一个字块构成,合体字由字首和字身构成。(一)合体字构成合体字是左右结构的,左部是字首,右部是字身;是上下结构的,上部是字首,右部是字身;是包围结构的,包围部分是字首,被包围部分是字身。例如“途”(包围结构)的字首是‘辶’,字身是‘余’“恩”(上本文档来自技高网...

【技术保护点】
本专利技术提出了一种将汉字数字化的方法。其特征是将汉字分解为字块,将字块分解为字母,并用数字来表示字母的笔画形状位置特征,从而将汉字字母转换为字母数码,再由字母数码组成汉字数码或词语数码,还可以采用加码和减码的方法使汉字数码和词语数码都不重码。

【技术特征摘要】

【专利技术属性】
技术研发人员:钟林
申请(专利权)人:钟林
类型:发明
国别省市:90[中国|成都]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1