当前位置: 首页 > 专利查询>李挺进专利>正文

汉字抽剥字形编码制造技术

技术编号:2893150 阅读:409 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种汉字抽剥字形码方法,用于电子计算机处理汉字信息和汉字的检索排序。其主要特征是:用44个可读的汉字字母和5个位型或它们的代码进行汉字编码。每个字母有大写、小写和变写三种形态。字母以其读音声母(拉丁字母)作代码。5个位型是“离”、“合”、“纵”、“横”、“围”。本法覆盖全部汉字,规则统一,常用字码长2-3位。(*该技术在2009年保护过期,可自由使用*)

【技术实现步骤摘要】
专利说明 本专利技术涉及一种汉字字形编码方法,用于电子计算机中文处理以及汉字检索等领域。 电子计算机汉字输入编码和汉字检索编码方法(以下称编码)可归类为字音编码,字形编码和音形结合编码三大类型,以汉字字形为编码对象的字形编码是比较理想的一类,因为汉字的本质是拼形而非拼音,字形编码适合汉字使用者地视觉习惯和记忆心理,编码与字音无关,对读不出或读不准确音的字能照常编码,这对于多同音字和地方音的汉语是极为重要的。 现有的字形编码方案中,较有影响的诸如“四角号码查字法”,陈爱文“汉字表形符号编码”,王永民“五笔汉字输入法”,钱伟长“汉字宏观字形编码”,团国兴“汉字简易选字输入法”(CN85100919),支秉彝“见字识码”,台湾胡立人“三角编码”等各有所长,但都在某些方面存在明显缺陷,这些缺陷主要有 1.基本构件(字根)划分过分牵强或抽象,缺乏一致的,必然的逻辑联系,繁多的字根令人望而生畏; 2.字根代码与字根之间缺乏关联规律,或规律复杂,很难辨别; 3.没有一贯的和简易的编码规则; 4.重码字组多,每组重码字数多,重码字处理方法不简便; 5.编码顺序受传统笔画笔顺过多制约,有相当数量的例外字笔顺难以判别,给编码带来困难; 6.字根不可读,难以记忆和交流。 本专利技术的任务是提供一种汉字字形编码方法,以汉字字母(或其代码)为单位对汉字进行编码,这种字码既能用于电子计算机的中文信息处理,又能用于汉字的一般检索,还可用来表达汉字结构。同现有的技术相比,本专利技术有如下主要优点 1.字码单义,重码字组,字数都较少; 2.规则一贯制,逻辑性强,记忆量极少,只需掌握44个汉字字母和字母间结合的5种位型,便能见字识码; 3.覆盖全部汉字,对生僻字亦不需特殊对待; 4.字码位数少,常用字字码都是2-3位; 5.字母可读,字母与其相近的汉字有密切的关联,字母及其大,中,异3种形态等概念均属首创,使人易记易辨,举一反三; 6.字母用与其读音对应的拉丁字母作代码(包括2个位型代码),这种简单关系使人见到字母便知代码,使中文处理真正堪与西文媲美; 7.重码处理方法简单自然; 8.本法对汉字的简化有参考作用。 下面将结合图表对本专利技术完成上述任务的方法作详细说明。 几个概念 汉字的基本笔画称为字元(简称元)。字元(或部件)间的位置关系称为位型,由若干字元按一定部位组成的二维序列,称为部件,字元间的交接位置称为连离点。 由表1知,字元有“横”,“竖”,“撇”,“捺”等4种。 由表2知,字元间部位有“交”,“围”,“连”,“粘”,“离”等5种位型,而部件间有“纵”,“横”,“围”等3种位型。 由1个字元同3个或3个以上字元“交”所组成的部件,称有筋部件,这个单元或连同与它相“连”的其它元组成的部件,称为筋。由2个以上元“连”而形成的可以对其它部件构成两面以上包围的部件,称为皮(如“尸”,“口”),皮连同被包部件构成有皮部件。 有筋贯穿的字称有筋字,有皮在最外层的字称有皮字。例 有筋字册,事,申,夷,车,电 有皮字区,国,凶,司,用,且 选取汉字中使用频繁的部件作为基本部件或字根,按形似予以分组,定义每个组为一个汉字字母,每个字母包含1-3个字根(简称件),称为该字母的大写,小写和异写件,每个字母以与其大写件相同或相近的简单汉字的音为它的读音。表3,列出了本法定义的44组字母及其代码。 任何单个汉字(简称字)均由一定数量的件按一定位型组成的二维序列字的分类见表6。字母件本身也由一些含元较少的其它件组成。 由1个,2个,3个或3个以上件组成的汉字(或字母件)分别称为单件,双件,三件或多件字(或字母件)。只有一个字元的件称为单元件,由两个字元组成的部件称为双元件。 字的最左(对横列字),上(对合字或纵叠字)位置上的字元,称为主码基元,与主码基元相邻的元称主邻元;最右(对横列字),下(对合字或纵叠字)方位置上的字元,称为辅码基元,包含主(辅)码基元的件称主(辅)件;与辅件相邻的元(件)称辅邻元(件),被辅件包围的元(件)称辅包元(件)。单件字只有主码基元,双件字没有邻基元。主码基元,辅码基元和辅邻或包元通称基元,与基元相邻的元称为基邻元。 用表3中的字母各件作编码单元的字码,称为汉字抽剥编码,简称抽剥汉码。 表4,为拉丁字母代码表,字母与其代码间有如是规律代码即与字母读音声母对应的拉丁字母,例 字母“大”-读音“Da”-声母“D”-代码“D” 应注意到声母“Zh”,“Ch”,“Sh”是与拉丁字母“V”,“U”,“I”相对应的。 用字件,位型符和重码符的代码作编码单位的字码,称为汉字抽剥拉丁字母码,简称抽剥拉丁码。 抽剥汉码和抽剥拉丁码统称汉字抽剥码,若几个字的主码,辅码和第一补码相同,则称这些字为一个重码字组,重码字组中字的个数称为重码字组的重码字数。 编码方法 编码单位有二种1)汉字字母件(见表3);2)字母代码,即“A”-“Z”26个拉丁字母(见表4)。 码长一般字3位,单件字2位,重码字(重码字组中的不常用者)4-5位。 编码顺序先主件,次邻件,末邻件。即在字码中首位(主码位),次位(辅码位)和末位(补码位)分别是主件,辅件和邻件。 双件字用件间位型符作补码,单件字无辅码,用构成该件的主,辅件件间位型符作补码。 重码字在通常的补码(第一补码)后再加1-2位重码符作第2,3补码。 构件原则1)基元必须包含在件中。2)构成字的件,只能以元的连离点为界来区分,即一个元不能分成多元与它元构成不同的件。3)如一基元与其邻元可能构成一个以上的件,则应取含元较多的件为码;若这些件含元数目又相同,则主码优先取含靠左方字元较多的件,辅码取靠右方字元较多的件。补码取左辅邻件,如无左辅邻件,则取上辅邻件,若无辅邻件,则取辅包件。 编码规则 1)双元取基凡双元部件,以其基元单元件为码,犹如从双元抽去一个单元一样。 2)抽剥处理对包含有筋部件或有皮部件的字,只对被穿插的部件和皮内部件编码,犹如编码时先行对字进行“抽筋剥皮”,抽筋后的部件如包括一个以上件,未取的件可被其它基元组合构件。 3)筋皮候补二件以上有筋字或有皮字编码,要用筋或皮作补码;双件有筋字和双件有皮字要用皮或筋作辅码。 上述规则,统称汉字的抽剥处理,本专利技术之名称即源于此。 4)位型补码用件间位型符作补码。 编码举例(见表6) 表1汉字字元 序号名称件符同类笔画特征 1 横 一 横向直划 2 竖 丨 纵向直划 3 撇 丿 左低直,弧划 4 捺 右低直,弧划和点划 表2汉字部位 表3汉字字母表 表4拉丁字母代码 ABCDEFGHI .白寸大儿丰工一山 >> 艹 个 示 弓 十 JKLMNOPQR 几口了木女○皮区日 金 力 门 \ / 七 皿 STUVWXYZ 三土虫辶王心月子 田长兀又足 注1)表中“>>”为重码符; 2)表中字件为该组字母的大写; 3)“V”,“本文档来自技高网...

【技术保护点】
一种汉字字形编码方法,其特征是:a.44个可读的汉字字母,每个字母有大、小、异写3件,这些字母是:****大写,白,寸,艹,大,*,耳,儿,丰,工,个,弓小写,*,*,廾,*,*,*,*,*,*,*,*异写,*,扌,*, *,*,卩,*,*,*,*,*读音,bai,cun,cao,da,dou,er,er,feng,gong,ge,gong*大写,一,丨,示,山,十,几,金,口,了,力,门小写,*,*,*,*,*,*,*,*,*,*,宀异写, *,*,*,*,*,*,*,*,*,*,*,读音,heng,shu,shi,shan,shi,ji,jin,kou,liao,li,men*大写,木,皿,女,*,丿,皮,区,七,日,三,土小写,木,*,*,丶,丿,*,匚,*,曰 ,氵,*异写,木,冖,*,*,*,*,*,七,日,*,士读音,men,min,nu,na,pie,pi,qu,qi,ri,san,tu*大写,田,长虫,辶,王,兀,心,月,又,足,子小写,田,*,*,讠,*,*,*,*,*, *,*异写*,*,*,廴,壬,*,*,月,*,*,*读音,tian,chang,chong,zhi,wang,wu,xin,yue,you,zu,zi------b.3个汉字字型,它们是:------位型,特征, 符号,代码,字例横,两字母左右“离”或“合”,*,0,八、林、从纵,两字母上下“离”或“合”,*,A,二、吕、全围,部件被一个字母包围○,0,这、国、用------。...

【技术特征摘要】

【专利技术属性】
技术研发人员:李挺进
申请(专利权)人:李挺进
类型:发明
国别省市:43[中国|湖南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1