当前位置: 首页 > 专利查询>练新专利>正文

通用多功能汉字编码方法及处理系统技术方案

技术编号:2886323 阅读:221 留言:0更新日期:2012-04-11 18:40
通用多功能汉字编码方法及处理系统,一种四位数字汉字编码方法及处理系统,解决汉字的检字、简繁体输入、电脑电话机输入、拼形等采用不同的编码造成人力物力的极大浪费,并且与汉字识字教育不一致引起汉字教育和使用的混乱的问题。按汉字结构切分汉字,按单元(笔形)走向取角,取占角、靠边、两端的笔形为角,分块均衡取码。编码简单、规范、高效、通用,能够满足汉字检索、输入和深入发展汉字处理技术的需要。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种通用多功能汉字编码方法及装置,通用于计算机、电话等设备的汉字输入、检索、排序、汉字拼形字库、汉字文本通讯等各汉字信息处理领域。汉字编码源于汉字的检字法。广泛使用的检字法包括音序检字法、偏旁部首检字法、笔画检字法、四角号码检字法等。五笔字型和仓颉码则分别广泛用于简体和繁体汉字的计算机输入。电话机等只有数字键的设备主要采用笔画编码,辅以拼音(注音)输入。随着汉字处理技术的深入发展,泛字符集汉字的输入和处理也已日益迫切,仓颉码提供了一种汉字拼形解决方法。而汉字的识字教育中一般是合体字教偏旁部首、独体字教笔画顺序。这里的偏旁部首不受键盘的限制,不需要作取舍和归并,能充分反映汉字的结构特征,这使字根部件甚至部首检字法都难以与它取得一致。汉字的检字、简繁体输入、电脑电话机输入、拼形与汉字识字教育等采用不同的编码不但造成了人力物力的极大浪费,而且已经引起了汉字教育和使用的混乱。字根编码采用字母编码,字根众多,难以记忆和使用,在数字键盘上还需额外的映射规则,也不符合汉字使用者单手写字的习惯,因此难以作为通用的汉字编码。采用数字编码的汉字号码输入法如王永民的“简易五笔画输入法”,李金凯的“长城笔形码输入法”,等采用0-9十个数字或其子集按照笔画顺序取码的方法,因特征单元过小,按照笔画顺序取码使各部分取码不均衡,无法反映笔画的空间位置,因此码长较长,且长短不一,重码率很高,无法反映汉字的结构特征。一些笔画编码采用了字首或字尾的概念,如;黄金富的“唯物码汉字输入法”,陈培基的“部首号码输入法”,廖明德(台湾)的“行列输入法”,戚桐欣(台湾)的“中易系统”中的“中文123式”,等,增强了编码规律性,但也增加了编码复杂性,同样无法作为通用的汉字编码。四角号码以编码顺序表示笔画的空间位置,编码方法简单,码长一致,是唯一一种国家推荐的编码检字方法。但四角号码“一个笔形前角用过,后角作0”失去了大量信息,全包围、半包围结构汉字中取码不均衡,都造成了大量的重码,虽然采取了“外围是‘门口門’的三类字,左右两下角取里面的笔形,但上、下、左、右还有附加笔形的不在此例”的措施,仍然不能令人满意;在处理角形不明显的汉字时,采取了“下角笔形偏在一角的,按实际位置取角,缺角作0,但“弓亏”等字作偏旁时,取2作整个字的左下角号码。”、“角形尽量取复笔;”、“点下带横折的,如“空户”等字的上角取点作3;”、“角形有两复笔和一复笔一单笔的,不论高低,一律取最左和最右的笔形;有两复笔可取的,在上角取较高的复笔,在下角取较低的复笔;”、“当中起笔的撇,下角有他笔的,取他笔作角,但左边起笔的撇,取撇笔作角。”等处理方法使取码方法复杂、难以掌握,却仍然无法明确每一个汉字的角。四角号码按“Z”字形顺序取角,割裂了汉字的结构,因此编码比较杂乱,难以反映汉字的结构特征,也无法作为通用的汉字编码。安子介先生的安氏数码法吸收了部首法和四角号码法的优点,但把部首由210个减少至170个,在反映汉字的结构特征方面前进了一大步。但限制部首的数量必须作出取舍,因此仍然与部首教育中的部首有差异,也无法涵盖所有汉字,只能通过设立五个“类属”加以弥补,使编码方法和编码过程复杂化。安氏数码法保留了四角号码的一些缺陷以及编码位数的增长等使它难以成为通用的汉字编码。因此,现有编码的复杂性、与识字教育的不一致、不同条件下的适应性等方面难以满足各方面的需求,都无法作为汉字的通用编码。本专利技术公开的就是一种通用多功能汉字编码及处理系统。本专利技术的目的是通过采用数字笔形编码,按汉字的结构分块,按单元块的走向顺序取角,结合取边、取端来实现的。编码过程可以由以下几步组成1.按汉字的结构组成方式对半切分,把汉字分为一到三个单元块。例如上下、左右、内外结构汉字分别切分为上下、左右、内外两个单元块;上中下、左中右结构汉字分别切分为上中下、左中右三个单元块;难于切分的汉字则不切分,整个汉字作为一个单元块。分块的方法类似于汉字识字教育中划分偏旁部首,按成字、匹配和字源的原则切分即各块尽可能成字或由于其他部件组字的能力,符合汉字的造字规律。优先按相离关系切分,只有相接的两个笔形的汉字不再切分。对于包围结构汉字,可优先按“H”型结构分为左右两个单元块。2.按先上后下、先左后右的顺序排列单元块,同一单元块按单元块或笔形的走向顺序取角。例如上下结构汉字按左上、右上、左下、右下顺序(“Z”形)取角,左右结构汉字按左上、左下、右上、右下顺序(“H”形)取角,其他结构汉字以此类推。只有一个单元块的汉字,按笔形走向顺序取角,如“州”按“H”形取角,“主”按“Z”取角。笔形走向不明确的,可优先按“Z”形取角。3.取角是取实际占角的笔形和靠外、靠两端的笔形。汉字是方块字,通常四角分明很容易取角,但也有一些汉字的角呈阶梯状,此时应优先取靠外的笔形、后取靠两端的笔形。其中两端是依据取角顺序确定的,例如“H”形取角时,左右各有上下两端“Z”形取角时,上下各有左右两端。4.取过笔形视为移去,多单元汉字占角单元各取两个笔形,不足则可以补以中间单元笔形,无中间单元则补“0”。一单元汉字不足四个笔形也补“0”。5.偏旁按其位置编码,空角补“0”。6.笔形编码可按四角号码的笔形编码,按下表取笔形编码则可取得更好的效果表(1)笔形编码表 注表中字例及编码仅供说明笔形编码参考,不作定义、解释编码规则的依据。本编码可与现有各种汉字编码类似的方式用于计算机、电话机等设备的汉字输入、汉字检索等领域。采用的键盘可以是大键盘数字键、数字小键盘或字母键虚拟数字键,也可以以语音、手写(图形)、双音多频信号等方式来输入、传递编码。用作输入法,可以不经选字直接四码输入GB2312字符集中的约3000字和GBK字符集中的约5000字,与常用的汉字数量相当,在计算机、电话机中一样可以盲打输入常用汉字。对于次常用字,GB2312中99.5%的汉字、GBK字符集中90%的汉字可以在十选的范围内输入。与仓颉码类似,本编码可用于建立拼形字库,最终实现所有泛字符集汉字的输入和处理。即本编码可高速输入常用的汉字,方便输入所有汉字。为同时在数字键盘上输入字母、数字、符号等,可以采用区位码的方式,也可以以多次按键的方式为字母、数字、符号编码。区位码的方式把字母及标点符号分布在全部或部分数字按键上,以其所在按键数字为区码,以其在该键上的序号为位码;有对应关系的字符安排在同一键的对应位置上;常用的字符安排在可双击按键输入的位置上。输入区位码即可输入字母、数字、符号。多次按键的方式;把字母及标点符号分布在全部或部分数字按键上,输入时先按所在键,再多次按特定键(如*键)来选定。用于字、辞典编制,四位数字编码与一般字、辞典的页码相似,可以代替页码,比拼音更直观。此外,与拼音配合,字符编码的前二码或后二码独立或分别与另一字符串的编码或指定编码进行比较,可以近似地找出具有相同形旁或声旁的汉字或按形旁或声旁排列汉字。在编制汉字校对字典时,提供相同形旁或声旁的汉字作候选字、词或按形旁或声旁排列候选字、词可以使汉字的校对更直观、更有实际意义。采用本编码进行文本通讯,设备间利用最简单的声音传送设备传输表示数字符号的信号(如双音多频信号)来传输汉字文本,不需要额外的接口就可以实现本文档来自技高网...

【技术保护点】
通用多功能汉字编码方法及处理系统,采用0-9十个数字或其子集作为编码码元,包括按一定规则对字符进行编码与下列步骤中的一个或多个的组合:1)把字符或映射字符的其它形式按字符编码进行排列,并存储在介质上,2)以物理键盘或模拟键盘、语音、 手写等方式输入编码来输入或辅助输入字符信息,3)以传输、存储编码的方式传输、存储字符,4)把字符串的编码与另一字符串的编码或指定编码进行比较,并按比较结果作出标记、修改、输出特定信息等操作,其特征在于:按汉字的结构组成方式对半切 分,把汉字分为一到三个单元块;按先上后下、先左后右的顺序排列单元块,同一单元块按单元块或笔形的走向顺序取角编码。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:练新
申请(专利权)人:练新
类型:发明
国别省市:35[中国|福建]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1