一种汉字构件全拼组合输入法制造技术

技术编号:2825998 阅读:403 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种将汉字的构件和全拼相结合的汉字的计算机输入法,属于计算机的汉字输入法技术领域。一些汉字的读音虽然可能不被具有一般文字知识的人所知,但组成这些字的构件(也称偏旁、部首)的读音则通常是人们熟悉的,因此可以通过读音单位由整字到构件的转换,变未知读音为可知读音,以实现未识字的输入。既消除了一般音码输入存在的输入盲区,又克服了形码输入难学难记的障碍。构件全拼组合输入,大大限制了重码概率,可以有效提高音码输入的效率。

【技术实现步骤摘要】
技术领城本专利技术涉及一种将汉字的构件和全拼相结合的汉字的计算机输入法,属于计算机的汉字输入法

技术介绍
迄今通用的计算机汉字输入法的输入码编制方式数量众多,号称“万‘码’奔腾”。但是归纳一下,却不外乎两大类:一是字音编码,即基本根据单字的汉语拼音方式(一般去掉声调,或作些省变)编成输入码。由此形成的音码输入法,是将电脑键盘上的拉丁字母键按汉字字音的汉语拼音形式(省去声调)敲击组合来完成输入,最有代表性的是全拼输入法。二是字形编码,即将字形拆分成一些构形成分,将其与电脑键盘上的各个键位的名称(一般是字母)对应,通过这种构形成分的键盘名称组合来进行编码。由此形成的形码输入法,是通过敲击电脑键盘上对应各构形成分类型的不同键位来完成输入的,最有代表性的是五笔字形输入法。现有的计算机汉字输入法的编码方式,都存在缺陷。音码输入法较为易学,但是除了经常被人诟病的输入速度慢,重码多以外,更大的问题是一般人使用这种输入法只能成功输入整个字符集中的少数汉字。汉字是一种时间跨度达3000多年,具有庞大字符集的文字系统。仅目前已在国际标准字符集中编码(内码)的汉字就达7万多字(GBK+CJK扩展A+CJK扩展B),而这个数字还将进一步扩展——CJK扩展B已进行到最后审定阶段;汉字古文字的在国际标准字符集中的编码工作也在推进中。庞大的字符集不可避免导致计算机汉字拼音输入的困难:因为这种输入法的成功输入是建立在人们对字音正确识读的基础上的,而研究表明,一般使用者所掌握的汉字通常是3000左右,虽然这些文字是现代语言交际中使用文字的主体,但其与字符集总量间的巨大差距决定了当今人们在计算机汉字拼音输入中经常会遭遇困难,比如:人名、地名中所包含的一些生僻字已成为日常电脑输入中的一个实现问题;历史典籍、古文字材料中则有更多生僻字因为种种需要必须出现在现代人的语言交际中,而一般使用者只能通过查字典才能确定这些文字的读音进而完成音码输入,效率的低下是可想而知的。更严重的问题是,历史汉字中有相当一部分字是不能确定读音的(古文字中尤其多见),对这部分汉字,现有的音码输入方法就完全失去了价值。-->形码输入方式(如五笔字形输入等)倒是可以不依赖文字识读的,但由于它们脱离了固有的汉字音义系统另起炉灶来进行编码而与字符对应,则不可避免产生两种弊端:一是难学,将形码对应到各个键位,实际增加了一个层次记忆的要求;二是与文字习得脱节,形码与键位的对应,与汉字本身的音义要素并无关系,就等于为汉字输入专设了一套额外的习得规则,除了服务于输入,并无其他价值。这也就是目前汉字电脑输入使用形码的人数要大大低于使用音码者的原因所在。我们在华东师范大学2008年上半年修读“汉字与文化”课的本科同学中进行的调查结果表明,62位同学只有1位同学平时使用五笔字形输入法,其他同学均使用音码输入。这证明,用形码的方式来解决汉字输入难题很难得到公众的普遍认可和接受。另外,现有的形码输入法对形码的分析规则一般是建立在笔画定型为“横、撇、竖、捺”等若干类型后的楷书字形基础上的,而隶书以前的古文字原形字则根本还未形成这种笔画类型,所以用现有形码原则来为古文字原形字编码更是不可行的。
技术实现思路
本专利技术的目的在于针对现有计算机输入法不能很好解决汉字大字符集中的大多数文字不被一般人所识而导致的输入困难问题,提供一种构件全拼组合输入法,使一般汉字识读水平者能够成功输入其所不能识读的汉字。本专利技术提供的构件全拼组合输入法包括两部分内容,一是提供一种新的汉字编码方法;二是将新的汉字编码整合到现有的计算机汉字输入系统中,汉字编码整合到现有汉字输入系统中属于常规方法,在这里不进行详细论述。本专利技术提供的构件全拼组合输入法中的汉字编码方法,主要思路是:一些汉字的读音虽然可能不被具有一般文字知识的人所知,但组成这些字的构件(也称偏旁、部首)的读音则通常是人们熟悉的,因此可以通过读音单位由整字到构件的转换,变未知读音为可知读音,以实现未识字的输入。主要包括以下要点:1.将汉字按照先上后下,先左后右,先外后里的顺序分拆成构件;除了少数单构件字(即独体字)外,绝大多数文字包含多个构件,这是本输入法将构件全拼码扩展成字的拼音码的基本条件。很显然,这种扩展的方式必须有一个统一的规范,以避免人们在构件码扩展为字码的过程中各行其是导致输入的失败。本输入法规定的构件组合顺序为:先上后下,先左后右,先外后里等。如“采”是上下组合,则输入码以“爪”“木”为序,输入“zhuamu”即可调出;“休”为左右组合,则输入码以“人”“木”为序,输入“renmu”即可;“困”为里外组合,则输入码以“囗”“木”为序,输入“weimu”即可。-->2.将第一步分拆成的构件按照全拼的规则进行编码,其中至今尚无公认读音的构件设置统一标识编码。少数汉字构件尚无公认的读音(这在历史汉字,特别是古文字中多见一些),所以在为这些含有的无音或不确定读音构件的字编码时就需要采用统配构件“z”,即以“z”作为无音或不确定读音构件的统一码。如“巵”,上部偏旁无音,下部偏旁为“巴”,字的输入码则为“zba”(见图1)。考虑一般使用者识字水平,对一些虽然本有音义,但却比较生僻的偏旁,除了用本音编码外,也可以用“z”作为统一标识编码。如“覲”,可编“qinjian”和“zjian”两个输入码。在对汉字进行分拆时,分拆的构件可以是独体字也可以是合体字,合体的构件就可能由独体构件合成。如在“李”中,“木”是构件,而在“焚”中,“林”又是构件。构件一般具有独立的音、义,可以独立成字;也有少量构件未见独立成字,但一般也有读音。把构件的全拼输入码按照一定的顺序组合起来,便可以形成字的输入码。构件作为全拼编码基本单位的确立,有助于扩展字的输入检索的覆盖面:尽管许多字人们并不认识,但人们还是可以通过构成该文字的可以认识的构件(哪怕只有一个)的全拼输入来达到调出相关文字的目的。对包含多种读音的构件,或者以不同分拆方式可以拆出多种构件组合的汉字,按照构件的读音数或可以施行的构件分拆方式数,编制多个字音编码。由于有些构件有不只一个读音,使用者的文字水平各不相同,或立足于不同的视角,人们对字的构件分析组合也常常可以有多种不同的选择。这些不同的路径,本输入法都可以兼容。如“厭”字,既可分析为“厂”、“猒”,也分析为“厂”、“日”“肉”“犬”,输入“yanyan”、“yanrirouquan”都可以调出。又因为“厂”有“yan”、“cha本文档来自技高网
...

【技术保护点】
一种构件全拼组合输入法,首先对汉字进行编码,然后将该汉字编码整合到计算机汉字输入系统中,其特征在于汉字编码方法为:(1)将汉字按照先上后下,先左后右,先外后里的顺序分拆成构件;(2)将第一步分拆成的构件按照全拼的规则进行编码,其中至今尚无公认读音的构件设置统一标识编码。

【技术特征摘要】
1.一种构件全拼组合输入法,首先对汉字进行编码,然后将该汉字编码整
合到计算机汉字输入系统中,其特征在于汉字编码方法为:
(1)将汉字按照先上后下,先左后右,先外后里的顺序分拆成构件;
(2)将第一步分拆成的构件按照全拼的规则进行编码,其中至今尚无公认
读音的构件设置统一标识编码。
2.如权利要求1所述的构件全拼组合输入法,其特征在于分拆的构件为独
体字或者合体字。
3.如权利要求1所述的构件全拼组合输入法,其特征在于对有多种读音的
构件,或者多种分拆方式...

【专利技术属性】
技术研发人员:刘志基张再兴
申请(专利权)人:华东师范大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1