当前位置: 首页 > 专利查询>胡敬禹专利>正文

一种汉字形符输入系统技术方案

技术编号:2885376 阅读:199 留言:0更新日期:2012-04-11 18:40
本发明专利技术为汉字提供查字法、排序法、造字法、输入法。根据汉字结体构形原理,找到了汉字的拼形符号(字元),实现了汉字的形符键盘。汉字可转换成字元集合,串:十(二(口口)丨)。字元可以作为输入码元,科(干*二十)学(川ㄇ┐十)。字元可以标识在键面上,与字母建立对应关系,A:干,B:丑,C:匚,D:*,E:E,F:F,G:*,H:H,I:*,J:┘,K:*,L:丨,M:*,N:川,O:口,P:丰,Q:日,R:艹,S:卅,T:T,U:一,V:二,W:三,X:十,Y:田,Z:王。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术属于中文信息处理领域,为汉字提供了一种查字法、排序法、造字法,为计算机提供了一种汉字输入方法。现有的技术资料见于中国专利申请《一种图形文字的输入方法及其键盘》,申请号95110690.2,它提出了采用字元作为汉字的输入码元;与本专利技术有关的汉字结构理论研究可参考本人所撰《汉字的字元结构》,该文详细论述了汉字形体结构的基本单元是字元,并深入探讨了汉字的结构层次,给出了汉字各级构件明确的定义和分类,建立起笔划、部件、块件、块组、单字等层层具有字元特征的汉字构件系统,实现了汉字各级构件确定和归类的系统性、客观性,本专利技术在此基础上对前一申请进行改进,与本专利技术相关的内容可参考该文,必须指出本专利技术不受该文限制。众多的国内外汉字研究者对汉字字形进行分析后,获得的构件数就有惊人的差异105、128、160、166、177、205、250、255、256、297、300、320、344、370、496、500、504、512、588、686,等等。而本专利技术在GB2310-80的6763字中初步找到的部件只有320种左右,为什么会有这么大的差异呢?原因是多方面的,一个主要的原因还是,在不同的选取准则下,有的不仅挑选了一些部件,还选取了组合块件,甚至块件组合,有的则是先硬性确定了一些“优选”构件,对其它构件进行了人为处理,因此在编码界广泛存在“人工部件”和“自然部件”的提法。本专利技术希望构件的多少与记忆的难易间不存在对立的关系,最好能实现音码那样“无编码”的形码方案。本专利技术的目的在于通过对汉字进行科学分析,根据包括简、繁两体汉字以及日本、南朝鲜汉字在内的全体汉字的结体构形原理,提供一组源自汉字本身的形符作为基础代号,使得汉字能直观方便地由平面图形转换成一串有序的、线性的形符集合,为汉字信息处理提供一种容易操作的方法。本专利技术的优点在于它找到了汉字的拼形符号,可以实现汉字的形符键盘,所有构件遵循相同的结构原理且与形符相对应,记忆量少、操作简便。本专利技术通过如下方法实现字元是汉字的形符,结构简单、形体规范、数目较少、容易识记,对应着汉字的组成构件,可以作为汉字的输入码元,根据汉字的形体特征可以建立汉字的字元属性字典,可以提取字元信息编成汉字的字元代码,而且字元可以和键位建立对应关系,还可以用来标识键盘,采用这样的字元键盘通过敲击字元代码来输入汉字。字元由汉字“田”蜕变而来,反映了汉字“田”上各直线段在不同取舍情形下的64种状态,基本结构有 以及这19种结构单元的各种方位图。经过整理,字元分为3类,共55种(1)零维字元一丨; 为了按照首尾一贯、既科学又方便的原则来分解所有的汉字,本专利技术选取部件作为汉字分解的基本构件。汉字中只有一个部件的“单质”并不多,大多是若干部件拼合而成的“混合物”。要从“混合物”中将“单质”离析出来,首先要了解“混合物”的组成。单个的组合块件就是最简单的“混合物”,更复杂的汉字可以先分解成若干个块件,然后逐个将部件离析出来。由此可见部件离析是对汉字很自然的分解,与一般形码的部件拆分是不同的概念。一般情况下,汉字的分解只需遵循一个准则按照各部件首笔的先后顺序离析。例如 根据部件的定义,将汉字的全部部件列举出来是完全没有必要的,而且将来新造的汉字难免出现新的部件,但是为了便于使用,本专利技术还是针对GB2310-80中6763个汉字的部件根据其零阶字元进行了归类,可以参看附表,其它未列出的部件可以按照相同的方法分析。部件根据其字元特征可细分为两类(1)元形部件 这类部件与字元字符相近,可直接根据其形状取相应的字元代码,同元异形部件可据此进行归类。例如 (2)衍生部件 这类部件与衍生字符相近,具有多层次的字元特征。同元衍生部件具有相同的零阶字元,可据此进行归类。例如 可以用字元式(字元盒子)来描述部件的结构,下面举几个例子。 部件的字元式实际上是部件的一种编码,汉字全部部件的字元式集合构成汉字的字元属性字典。汉字按照各部件首笔的先后离析出部件后,依次输入各部件字元式的全部或部分元素即可输入相应的汉字(括号可以省略)。例如中十(口丨)或十口丨或十口或十丨 或口丨冲二十(口丨)或二十口丨或二十口或二十丨 或二口丨 一般情况下,汉字按照各部件首笔的先后离析成部件的组合后,依次输入各部件的零阶字元即可输入相应的汉字。例如 据本专利技术统计,国标GB2310-80中一级字平均每字4.05个部件,前1000高频字平均每字3.26个部件。部件编码的平均码长较短,一般不多于四码,因此对于不少于四个部件的汉字,可选取各部件的零阶字元,通常只取一、二、三、末部件的零阶字元,对于少于四个部件的单字,除了选取各部件的零阶字元外,可以考虑追加衍生部件的取代字元,也可以考虑追加单字的字型字元作为辅助码元。 为提高输入效律,词语也可以采用字元编码输入计算机,各类词的码长均不超过四码,可采用如下方法a.双字词的编码=第一字一二码+第二字一二码 b.三字词的编码=第一字一二码+第二字一码+第三字一码例冲击力=冲(二十)击(土)力(十)可行性=可(丁口)行(一)性(川)c.四字以上词的编码=第一字一码+第二字一码+第三字一码+末字一码例无中生有=无(干) 中(十) 生(土) 有(十)中华人民共和国=中(十) 华(丁)人 国(口)d.双字词三字词中单部件字可以只取一码,也可以追加辅助码元补足码长。例漂浮=漂(三工)浮(三十)画册=画(一田)册(十)画册=画(一田) 画册=画(一田)册(十冂)画册=画(一田)册(十一)中国人=中(十口)国(口) 中国人=中(十丨)国(口) 字元“十”所对应的构件较多,其中有5类衍生构件的字元式至少有一个一阶字元是一维字元,根据这种情况可分别用一级衍生字符“卄卅 丰井”对应相应的构件并作为码元,这些码元也可以选作汉字的形符。例如件亻(T)牛 件亻(T)牛 件亻(T)牛 汉字有了自己的一套形符,因此我们可以设计输入汉字的中文键盘,在键面上标识形符,通过输入汉字的形符代码来输入汉字。借助普通西文小键盘输入汉字,通常要建立汉字与拉丁字母所构成的字符串之间的对应关系,这种对应关系要求直观、自然、简单,字元输入法可以达到这种要求。首先,字元编码本身就是一种字符串,字元完全可以象字母一样标识在键面上;其次,字元与字母之间还可以建立一种对应关系,字元多达55个,字母只有26个。这种对应关系不可能是一一对应,更不可能是唯一的。本专利技术下面提供一种方案,对于熟知英文键面的人来说,使用中文字元键盘输入字元编码和敲打字母基本上是一回事。字元与字母建立如下对应关系 字母“IRPS”没有对应的字元,可以安排它们与码元“ 丰丰”相对应。本专利技术下面还提供另一种较好的方案,字母和形符建立如下对应关系 这种方案将零维字元都安排在一个键上,因为零维部件都是直线段,大写字母“I”也是直线段,小写字母“i”还有一个点。在同一键盘上兼容汉字形符和拉丁字母的输入,这才是真正的中西文键盘,用这样的键盘输入汉字可以兼容汉语拼音,有两种基本方法一种方法是形音输入法形符代码+音符代码例如千=干+QIAN另一种方法是音形输入法音符代码+形符代码例如千=QIAN+干汉字部件明细表 权利要求1.一种汉字形符输入方法,其特征在于采用汉字的形符作为汉本文档来自技高网...

【技术保护点】
一种汉字形符输入方法,其特征在于采用汉字的形符作为汉字的输入码元,形符对应着汉字的组成构件,形符可以和键位建立对应关系,通过输入形符代码来输入汉字。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡敬禹
申请(专利权)人:胡敬禹
类型:发明
国别省市:43[中国|湖南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1