当前位置: 首页 > 专利查询>梁晨专利>正文

双拼汉语编码法及其键盘制造技术

技术编号:2892453 阅读:240 留言:0更新日期:2012-04-11 18:40
一种用于汉语信息处理技术领域的双拼汉语编码法,主要解决汉语信息的统一编码和键盘输入问题。本发明专利技术的主要技术特征是:根据汉语语音的拼合规律和键盘输入的要求,把汉语语音带调音节分解为双拼母音,再合并为一组双拼声母码元和一组双拼韵母码元,实现汉语语音带调音节及其各种文字形式的双拼编码。可用于一切大、中、小、微型计算机汉语信息处理系统,电传机,打字机,汉语终端机及汉语通讯系统中。(*该技术在2012年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术属于汉语信息处理
计算机在汉语世界的广泛应用,必须解决汉语人机对话这个技术关键,包括汉语的语音键盘录入,语音识别,语音合成和文字的键盘录入,字型识别和字型打印等汉语信息处理技术的几个方面。这些都要涉及汉语编码,至今未能统一解决。汉字的编码方案虽比较完善,也没有一种方案可接受为国家标准而广泛推行。目前,已有近千种汉字编码方案相继问世,大致可分为字形码、语音码和字形语音混和码三种类型。字形码以汉字的形体特征为编码依据,以“优化五笔字型编码法及其键盘(专利技术专利CN85100837)”最为典型。但由于汉字结构比较复杂,导致形码的编码法也很复杂,操作者必须学会拆字组码,增加学习负担和大脑的工作量,使计算机的应用也避免不了汉字繁难复杂这一固有缺憾,不利于汉字的改革和汉语的现代化。事实上,五笔字型汉字编码法只在打字、印刷和统计等专业领域得到应用,一般人员难以学习和掌握,甚至计算机专业的技术人员也望而生畏。字型语音混和码有以字形为主的,也有以语音码为主的,采用交叉特征作为编码依据,多少带有字形繁难这一因素,也不尽理想。语音码应该是最理想的,因为只有语音码才是语言的本质特征码,才与人们以语音为基础的思维方式相吻合。口头语言和书面语言的共同点也仅在语音相同这一点上;同时,书面语言不过是口头语言的记载符号,文字有变更的余地,而语音却比较稳定。就汉语的自身优势而言,汉语口语是比较简单的,应该加以利用。从编码规则上看,只有语音码的取码依据是自有的,取码方法也是简单易学的。此外,还有汉语拼音多年普及这一社会基础。字形编码不能用于语音编码,而语音编码却可以扩展为文字编码。因此,只有建立在语音基础上的编码法才能成为统一的汉语编码法。现有语音编码法主要是针对汉字的,一般没有把汉语语音作为一个编码目标,只是用作汉字编码的依据和中介。以《汉语拼音方案》为直接编码依据的各种编码法,获得一个完整语音音节的编码均不少于3次,还要浪费近一半的主要编码空间。如“汉语拼音电脑键盘(CN85102628)”必须逐次输入声、韵、调才构成一个完整音节。为了减少编码次数、缩短码长,大多数方案舍弃了声调而直接进入下一个编码层次,即所谓“声韵双拼”,与实际的语音相偏离,并造成同音码的增加,为进一步的分离增加了难度。被广泛采用的拼音编码“双音编码输入体系”,也未能解决这一问题。“两位半全信息汉语拼音编码法(CN86106542)”把声调的信息并入形码信息之中,也没有明显的优势。而“双程键中文小键盘和双程键双拼四声汉字输入(CN88104949.2)”改变了现有的击键方式,把键位分成轻、重2档,虽可击2次键输入一个完整音节,但增加了系统费用和键盘操作的难度,难以推广应用。总之,还没有一种方案能够在标准键盘上击键2次即输入一个完整音节,即实现真正的汉语双拼。本专利技术的目的在于解决汉语信息处理
的统一编码问题,实现汉语语音编码的真正双拼,提供一种高效、简易且实用的双拼汉语编码法,进而扩展为汉字编码法,使汉语的信息处理更加方便。汉语语音由声、韵、调三个要素构成,对应汉语拼音的声母、韵母和声调。有23个声母(无声母的合并视为“零声母”)、35个韵母和5个声调,组成近1300个汉语语音音节。如何获得这1300个音节的编码,是语音编码的关键所在。把1300个音节直接分布在一个大键盘上,即可获得一键定音的效果。若按正方形排列,至少需要36行×36列。为了便于检索,必须使每个音节与其所在键位的行和列相关,最好是实现行和列的双拼,这和通用小键盘上的双拼要求是相近的。在通用小键盘上实现双拼,也就是在小键盘上把大键盘上的行和列分2次对应出来。通用小键盘的主要键位一般为4行10列,实现这种对应从数量上是不成问题的,毕竟有1600个组合,比1300还要多。关键问题是要使这种对应具有较强的规律性,便于记忆和应用。本专利技术首先确立了双拼的目标,通过分析汉语语音节表,才找出一定的规律,从而实现双拼。不区分声调的汉语语音节表共有415个无调音节,而23个声母和1个“零声母”可与35个韵母有840种声韵组合,无效组合达425个。这些无效组合在音节表内形成空位,并且大多成方成块很有规律,如j、q、x和g、k、h,两者的空位正好互补。说明声母和韵母是有选择而相拼的。由此,可把声母按是否能与相同的韵母相拼而分组,一般可分成b、p、m;d、t;n、l;g、k、h;j、q、x、y;zh、ch、sh;z、c、s;f、r、w和零声母。除n、l几个特例外,每个声母至多可拼成20个无调音节,而r、f、w和零声母只能拼出10个左右。j、q、x与ü为首韵母相拼,正好可以填补Z、C、S相应的空位。根据这些规律,可以把汉语语音带调音节分解为双拼母音,再合并为一组双拼声母码元和一组双拼韵母码元,并得到一个声韵双拼无调音节表,见图1至图4。具体规则如下所述把能与i和u为首韵母相拼的声母分离出来,加一个“′”号区分,再把能与ü为首韵母相拼的声母并入前述声母中,jü与Z′合并记为z′j,qü与c′合并记为c′q,xü与s′合并记为s′x,能与ü和üe相拼的声母y与f合并记为fy,能与üan和üen相拼的声母y与ch′合并记为ch′y;r′与p′合并记为p′r′,fu即f′只有一个,可直接并入f中。从而组成40个左右的双拼声母码元。一般不能与双拼声母码元同时相拼的韵母合为一组,即ang、iang、uan;an、üan、ian、ua;ai、ia、u;a、iu、ui;ong、o、iong、uo;e、ei、i;en、in、un;eng、er、ün、ing、üeng和ou、üe、ie、uang共10组。每组再按阴平、阳平、上声、去声各分为4个,轻声则并入阴平(也可并入其它声调之中)。这就组成40个双拼韵母码元。双拼声母码元和双拼韵母码元组成双拼母音码元,可以拼出绝大部分汉语语音的带调音节。有几个叠加的音节因使用概率较小而且字数也不多,可以直接合并,必要时还可以安排在双拼的空码位置上特殊记忆。在GB2312-80的全部汉语带调音节中,双拼时出现重叠音节的有diǎ-dǔ、gě-gěi、hē-hēi、liáng-luáng、liǎng-luǎn、liàng-luàn,lao-lü、lǒu-lüě、lòu-luè、nè-nèi、nǎo-nǔ、nào-nù、nóu-nùè、shé-shéi、yō-yōng、zé-zéi、zhè-zhèi、pì-rì,pìn-rùn,总计22个,是由于声母或韵母的合并产生的,占双拼音节总数1271个的1.7%,对于一般的应用来说不必再进行分离或特殊记忆。如果需要的话,可以既保留合并的音节组,又把其中一个音节安排在另一个空码位上,如把gei编入g′ei,hei编入h′ei,lü编入len、luan编入b′uan,nuan编入m′uan等等,与所在空码位上的声母或者韵母相对应,尽可能的方便记忆。当然,双拼码元的确定并不是唯一的,还可以有其它的方法;对拼码元的数量也可以稍加增减;增可简化分类便于记忆,减可缩小码元空间提高码元利用率。总的原则是,既要实现双拼,又要便于归类和记忆,还要便于在通用小键盘上应用。例如,对于南方人就可以根据发音差别,把不易区分的母音合并,使双拼码元进一步减少。双拼码本文档来自技高网
...

【技术保护点】
一种用于汉语信息处理技术领域的双拼汉语编码法,其特征是:根据汉语语音的拼合规律和键盘输入的要求,把汉语语音带调音节分解为双拼母音,再合并为一组双拼声母码元和一组双拼韵母码元,实现汉语语音带调音节及其各种文字形式的双拼编码。

【技术特征摘要】

【专利技术属性】
技术研发人员:梁晨
申请(专利权)人:梁晨
类型:发明
国别省市:23[中国|黑龙江]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1