形素编码法及其输入健盘制造技术

技术编号:2893491 阅读:276 留言:0更新日期:2012-04-11 18:40
一种汉字的形素编码法及其输入键盘。从汉字的图形特点出发,归纳并制定了表示六种笔划汇合点(不汇合、拐弯、三叉、四叉、五叉、六叉)及其数量和分布的形素(字形要素)。利用形素设计键盘及编码具有键盘盘面简洁醒目、编码规则简易、自然、明确、记忆量小等优点。可以广泛应用于中文电脑、中文打字机、电脑电话、电话自动查号台、中文翻译机、检索等方面。(*该技术在2007年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及计算机中文信息处理的汉字编码方法及输入键盘,并涉及汉字检索方法。汉字编码可分音、形两类,而其中形码又可分为笔划类与部件类两种。前者可以以李金铠的专利(GB2100899A)为代表,将汉字分解为笔划序列进行编码,存在分解过程长的缺点。后者可以以陈爱文的专利(CN85105556A)为代表,将字形分解为部件序列进行编码,存在由于汉字部件众多带来的种种困难。四角号码编码法采用汉字四角出现的笔划及部件进行编码,由于不能顾及汉字的全体而存在重码多的困难。本专利技术的目的是提供一种编码符号少而又能充分、直接表达每个汉字特点的编码方法。这样的方法必然具有记忆量小、规则简单、重码少、击键次数少等优点。本专利技术的技术关键在于找到了独立于汉字笔划与部件之外的、能反映汉字图形特点的、表示笔划汇合点的种类、数量及分布的形素(字形要素)及从汉字中提取形素的方法。通常在操作员向计算机键入稿件的过程中包含了操作者对原稿的阅读过程。这是一个视觉识别过程,这一过程注意的是汉字图形特点,很少考虑笔划、部件的具体细节,其速度比书写时仔细考虑笔划部件细节要快得多。可见编码方法的着眼点应放在汉字的图形特点而不是笔划和部件的品种、数量、分布上。编码过程不应是书写过程的模拟。本专利技术认为笔划汇合点的情况是我们识别汉字图形特点的一个重要方面。如“上”字,它的特点在于两个笔划汇合点“├”与“丄”及其上下的分布。符合这一特点的图形 都认作“上”字。笔划长短的影响只对个别汉字的识别(如“土”与“士”“末”与“未”)起作用。笔划的倾角也只对个别字的识别有影响(如王与壬)。放弃这些影响较小的特征后,我们可将笔划汇合点分成六种拐弯 等;三叉入、亻、工、止、正等;四叉十、乂、艹、卅、井等;五叉大、才等;六叉木等;不汇二、三、八、川、六等;汇合点的分布可有上下、左右、包围三种 。汇合点的种类、方位、数量及其在汉字中的分布基本上决定了汉字特征,我们称它们为字形的要素,简称形素。汇合点的不同方位,如 当然也是一个要素,但为了减少符号品种和提高编码速度,我们放弃方位。只考虑种类、数量和分布。把种类与数量结合起来并用符号表示,得到表1所列形素。表1形素表*备用形素,分别表示“斜”、“对”三叉汇合点。其中“-、=、≡、 ”表示不汇合点,数量1……4以上。“ ”表示三叉汇合点,数量从1……4以上。“十…… ”表示四叉汇合点,数量从1……4以上。“ 、冂… ”为拐弯汇合点,数量从1……4以上。大及木为五叉和六叉,数量为1。当键位不够时,“木”可用“大、 ”或“十、 ”表示,“大”可用“十、 ”表示。“囗”表示闭合四拐弯。将这些形素,按DVORAK提出的键盘合理化原则安排到标准键盘的26个字母键位上就得到了形素键盘。附图说明图1是一种形素键盘的实例。其中省略了形素“木”,元音(A、E、I、O、U)键不安排形素。安排了一个形略键▲,用于输入形略语码(形略码)。此外删字键(DEL)在汉字状态下分为下档删前(删左)及上档删后(删右)。△键为拼音略码键,用于输入拼音略码。利用形素进行编码(即以形素为编码元)的具体方法随用途而异,可以有多种方案。利用全部或大部形素的方案称第一类方案。仅利用一部分形素的方案为第二类方案。第一类编码法实例1.单字编码法。用于向计算机逐字输入国家标准《信息交换用汉字编码字符基本集GB2312-80》,编码规则为一、沿相连的笔划连续出现的同类汇合点的个数合并计算并用一个形素代表。二、成组的不汇点合并计算,对称分布在两边的汇合点合并计算并用一个形素代表。三、汇合点不重复计入,即已在前一码中计算过的汇合点在后面的取码中不再考虑。四、偏旁“扌”用形素“ ”代表。五、点的两端及短撇的尖端与其它笔划相碰处不作为相连,点与短撇的中部与其它笔划相碰时认为是相连,作汇合点考虑。六、部件(在汉字中以相对固定的形式出现的构件)之间的相碰不作为相连。不作汇合点考虑。七、码位及次序是①“上中至左”取一码,②“左偏下”取一码,③“右偏上”取一码,④“右次上”取一码,⑤“下中至右”取一码。有②不再取④,无②才取④。八、取足4码不需另加结束键(也不加空格键),不足4码字按字形特点选形素 、◎之一作结束键。字形特点不明显时选 即可。提出上述规则的理由1.连续出现的同类汇合点数量合并计算可以增加信息量,并使各形素的使用频度均匀,提高编码效率。2.汇合点不重复计算的目的是避免降低信息量,减少编码的不确定性。3.由于含有偏旁“扌”的汉字很多而且总出现在编码的首码上,故选用一个不出现在首码的形素“ ”代表偏旁“扌”,使此偏旁一次击键输入。4.点、短撇以及汉字各部件之间无论在书写体还在印刷体中往往出现与其它部件相碰的情况,似连似不连、时连时不连。为了减少这种不确定因素,规定一律作不相连处理。5.取码次序必须照顾到各种结构汉字取码的方便与有效。规则中的次序包含着优先等级,如第①码“上中至左”以“上中”部的汇合点为优先,若无上中部的汇合点则取上左方的汇合点。又如第②码“左偏下”,以左为优先,同样“左”的情况下取较下方的汇合点。第②码不能取到“中下”方向去。如在“左偏下”方向无汇合点,此码就不取。第⑤码的“下中至右”以“下中”位置为优先,“下中”无汇合点再看“下右”方向有无汇合点。6.编码不采用空格键作结束键不仅减少击键次数,而且使本编码可与拼音码混合使用,互不混淆。在不足4码时用 /◎键作结束键可以补充字形信息。音、形两类编码各有特点,若能双轨使用,既发挥了拼音码速度快、便于口授和起草文稿的长处,又发挥了形码可以输入罕用字的优点。拼音码以词为基础,可直接用标准的键盘输入。每个词汇用空格键结束。因此计算机根据空格键及元音字母出现的规律可以判定输入的是何种码。当输入代码符合拼音音节特点并有空格键时为拼音码,当输入代码不符合拼音音节时及无空格键时为形素码。对“的”、“是”……等使用频率极高的几十个字,可规定简码,用一形码加 或◎)两键输入。重码的处理方法当计算机在输入码转为机内码(或信息交换码)的过程中发现存在重码时,以声光报警提醒操作者注意显示器上提示的重码字。当重码字在一个以上时,显示器下方以各重码字的使用频度为序,列出重码字并注明序号。操作者可键入相应序号选择其中一字。若不后随数字,计算机理解为选其第1字。表2给出了第一类单字编码的例子。2.形略语编码。用于向计算机输入常用或特定的词汇、短句以至短文的编码。其编码法为先击形词键▲表示后续4个形素是形略码,然后根据词汇或关键字的数目选取4个形素。对双字词,每个字取首、尾两个形素,共4个形素(不足时补以 /◎)。三字词,第一、二个字取首形素,第三字取首尾两个形素。四字词,每字取首形素。短句和短文先取4个关键字,然后再取其形素。例如“坚持四项基本原则”,取关键字“坚持四则”,其代码为“▲= 囗冂”。允许用户用▲键的上档定义新的形略码▲(上档)被定义的词句的全部单字编码▲对应的形略码▲(上档)。3.集外字编码法。用于向计算机输入国家标准《GB2312-80》基本集以外的汉字。集外字中所含的汉字部件可用其首尾形素及重码选择数字表出。常用部件的形素代码见表3。表中同时列出了可双轨使用的拼音码。汉字部件在汉字中的相互关系可用形素 、◎表出。此时 、本文档来自技高网...

【技术保护点】
一种形素编码方法,其特征在于采用了表示六种笔划汇合点(不汇合、拐弯、三叉、四叉、五叉、六叉)的种类、数量及分布的形素(字形要素)的全部或一部分作为编码元。

【技术特征摘要】

【专利技术属性】
技术研发人员:盛谏
申请(专利权)人:杭州自动化研究所
类型:发明
国别省市:33[中国|浙江]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1