当前位置: 首页 > 专利查询>张沐阳专利>正文

部首组字英语组词汉语信息编码制造技术

技术编号:2890353 阅读:663 留言:0更新日期:2012-04-11 18:40
一种汉语信息编码,包括字和词二部分,适用于计算机标准键盘输入汉字。具好学和速度快二大优点。采用规范的新华字典的部首,拆分单字数个部首,以拼音首字母作为部首的码,数个码相加,再加上整字的拼音首字母,即为该字的编码。其中对不认识的部首用V字母代替,可以了输入GB-2312中所有6763个汉字。词语采用同义的英语词作为它的编码。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术是一种汉语信息地编码方法,包括字、词二个部分的编码。目前主要应用于电脑汉字的键盘输入等文字处理工作。在电脑应用中亦可以称为一种新的汉字输入法。电脑汉字输入法现在有许多种了。但是就目前而言都存在几个问题,妨碍了电脑的进一步普及。好学的速度慢,如拼音法,一分钟只能有十来字的速度,而一般人手写也有四十字/分速度的,所以用它来代替是不现实的。另外,象zheng zhen zeng zen四个拼音几乎一样,谁有保证能一次打对呢?而象yi下有超过一百个同音,如果在打字是遇见二、三次我想发现要的字费时不说,兴趣也会大受影响的。而输入速度快就要很难学,象代表性的五笔字型法,光字根就有一百三十个,忘了一个也不行,就会有字输入不进去了。通常要专门花半月以上的时间才能过关,普通人并没有这个耐心的。如《汉字国文电脑》(申请号89100801.2),虽然也有易学的优点,但是它的编码有一个很大的缺陷,它的码的选取是不按生活习惯的。“毁”字是由四部分组成的,但它的实际的取码为工几又臼,在使用时会发生混乱的,而且它是用号码来编码的,使用时和键盘的关系又要费一番力的了。本专利技术就是想为使用者提供一种没有明显缺陷即好学又有速度快优点的新型汉字输入方法,具体说就是在半天能完全学会,而在经半月使用后能打五十字每分钟以上,让使用过的人在能用电脑能用笔时,选择用电脑,为电脑的普及作贡献。基于目前汉字编码非常多的现实,只有特别简单、方便的方法才有生命力,因此我在这方面特别下了一番苦功。设计了好几个方案,尽管都是有创新的,但是一试用说不够简单。几经周折,我特别注意了日常生活中的观察,发现人们对字的区别是有一套的。如我姓张是弓长张,不是立早章,我的对座姓李,是木子李。这里我们清晰的区分了三个字,且非常的简单。我试验了一下用三个拼音首字母来代替三个字,如gcz来代替张,用lzz作为章的编码,mzl作为李的编码。如此编码发现非常好用几乎不必学习。同时我试验用英语词的前五个字母来作为中文词的编码,象tv~电视、book~书籍、newsp~报纸。我发现根据高频先见的原则,其实英语词很少打到五键的,平均在三键稍多一点而已。但是就在完成GB2112中6763个汉字以后,我发现它存在以下几个小问题1重码率稍高,因为现在几乎所有的编码是四位的,而现在这个专利技术是三位的。2有部分不认识的偏旁如“屮、髟、攴、殳”等。3象“手、未、电”等字是独体字,不能拆分,如何编码。同时在完成后我发现一个新的优点,差不多所有的编码是由拼音的声母组成的,即键盘上的aeiouv六个字母很少用到。而同时拼音法是由声母和韵母组成的,即每一个拼音码都是用到aeiouv的。所以两者放在一起是不会增加重码的,我试验了一下,两者完全兼容,不增加重码。这样别的输入法存在的要按一下功能键才能转换,而这个专利技术就不必了。在万一有一字打不出时,直接打拼音就可以了。现在的ucdos等中文平台有查字编码的功能的,所以说现在这个专利技术是不会卡壳的。于是我开始了修改的工作。我先把原来的拆字为两部分最后形成三码,改变成将字拆成三部分以最后形成四码,如“谢”的编为yscx。而同时我把v字母作为所有不认识的部首的替代码。我把独体字用笔划的前三个来组码,如手~phhs、口~szhk。同时我设了二十六个一级简码,二级字五百个。经试验平均每字在三键以下。重码率在3%,而常用字出现的频率高,所以使用时的重码实际率更低。另外我把重码的第二放在拼音的第一个,如护和沪的编码都是sdsh,我就把沪放在拼音的第一个,在熟悉以后,打hu就能够得到沪字的了。如按这样计算,重码率为1%,完全能够进行盲打的了,不仅为一般使用者能用,专业打字员也能用字的。按上述几个数据可以推测出本方法打字和五笔字型应该是速度是差不多的。本人属手脚笨拙一类的,现在也可以打五十字一分钟了。此编码可以在中国龙和ucdos和ccdos等中文平台上应用。 笔划、偏旁、部首、独体字通称为部件。部件的采用主要根据使用最广泛的、具规范意义的新华字典中所述。笔划采用〖新华字典〗部首检字表内的划分法,内称单笔部首分为横(一)竖(丨)撇(丿)点(丶)折(乙)五种。象提()捺()分别归在撇和点内。笔划的对应字母分别为横~h竖~s撇~p点~d折~z。偏旁、部首和独体字采用字典部首目录和正文所述内容。对于生僻或没有统一叫法的部件一律用字母V来表示。如髟、屮、殳、攴。 大多数人是能适用此法的,包括一些方言地区,尽管读音不准,但是声母还是都能读对的。而象zh ch sh与z c s,enin与eng ing等老大难问题都顺利解决了。读音采用部件的代表性的部分的读音。如二点水、三点水、四点水都放在水部,用s来在纯拼音中困难的问题如“真”是zheng zhen zeng zen中哪一个,在本专利技术中是唯一的编码sqbz,一下子就找到了。在本专利技术中多音字的码也对应有多个,如长的编有zphc和zpjz二个 拆分时尽量拆成三部分,如“谢”拆成言身寸,“章”拆成立日十,“森”拆成为木木木。对于独体字采用笔划的前三笔,如手的前三笔划为撇横横,手的编为phhs,口的编码为szhk。除了笔划取码的独体字,我们规定拆分时有交叉的部件是不拆分的,如“重”可分为千里二部分的,但是按此原则,重为独体字,编码为phsc和phsz。戈为独体字,编码为hzpg。汉字中字的部件之间的关系有散、连、交三种。如“吴”口和天的关系为散,象这样明显分开的为散。而“天”字的一和大的关系就是连了,象这样相连而不相交的为连。而“大”的第一、二笔的关系就是交了,象这样交叉的关系为交,我们统一规定交叉的部件一律不进行拆分,象“里”硬分的话也可以分成为日和土二部分,但是二者的关系是交叉,所以这里就把它当作一个整体不进行拆分的了。拆分的原则就是尽量拆成三部分和交叉的不拆。在部件多于三时,取前三个。如噩的全编码是wkke,同样“输”~crhs。 对不足四码的字为防重码过多,加一识别码。如李的全码为mzlq,张的全码为gczv。识别码采用首尾笔划的组合。如李为折和点,识别码为折点。 此键位分布图就表示了识别码的情况,以1、2、3、4、5来代替横、竖、撇、点、折,二个笔划的组合就有二十五个,如此和二十五个键一一对应李的识别码为横横,图中以22表示,即U。同样张的识别码为V。有了识别码,重码率就大大下降了,我们能够进行盲打的了。 采用英语词汇和中文词一一对应的办法进行编码。如pen---钢笔,pencil--铅笔,tv--电视。在电脑应用中采用取前五个字母的办法,以提高速度。象铅笔的实际编码为penci,这样可以输入绝大多数的词汇了。当然在使用中发现一个小小的问题就是象下午(afternoon)和(after)后来的编码都是after,现统一规定合成词取前三字母和后一词的二个字母,如下午的编码为aftno。这个词组的编码为一些英语较好的电脑使用者可以提高输录速度,根据电脑的高频先见功能,大多数的词汇只要三键就能完成输入了,真正用到五键的就在百分之七以下。词汇平均用键为三键稍多一点。且重码率极低,使用起来非常方便。 在用以上组码的同时,完全兼容汉语全拼法,而同时不增加重码率,象五笔字型等方法遇到了输不进的字的字,要alt+f3转到拼音法,在完本文档来自技高网...

【技术保护点】
一种汉语信息编码,包括汉语单字和词语的编码,主要适用于计算机键盘输入汉字,进行文字此理。其特征在于:单字的编码,将字拆分成为几个部分,每个部分可以是笔划、偏旁、部首或独体字,根据标准读音分别取其一字母作为此部分的码,再将这些码按书写顺序相加,尾部加上整字的拼音首字母就得到了字的完整的编码;词汇的编码采用汉、英对应来进行,常用的中文词汇的编码即是同样意思的英语单词的字母。

【技术特征摘要】

【专利技术属性】
技术研发人员:张沐阳
申请(专利权)人:张沐阳
类型:发明
国别省市:33[中国|浙江]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1