当前位置: 首页 > 专利查询>周保鑫专利>正文

汉字词汇的汉字拼音首字母编码法制造技术

技术编号:2891833 阅读:401 留言:0更新日期:2012-04-11 18:40
一种汉字词汇的汉字拼音首字母编码法是一种汉字编码方法,可用于汉字词汇词典的排序、编辑、检索。其特点是用汉字词汇(包括单音成词)的每个汉字拼音的第一个字母组成的字母列作为词汇的编码;或者由计算机的专用程序自动地把每条汉字词汇译成本编码,填在预定的位置。计算机对编码进行排序后,词汇的有关信息随编码对应列出。本发明专利技术简单,查阅方便、快捷,人-计算机都可以识别和利用,使汉字词汇的排序、编辑完全实现计算机化。(*该技术在2014年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种汉字编码方法,可用于出版行业中汉字词汇词典的排序、编辑、检索。目前我国汉字编码大多数是以单个汉字为基本码的,也有部分以词汇或词组方式组成词汇码,但只解决汉字词汇输入,仅反映出汉字词汇本身的汉字,都不能方便地用“码”来表达汉字词汇的序列。目前汉字词汇的排序方法主要有三种第一种,使用部首加笔划数,再加笔形的方法。至今尚无对汉字部首、笔划数及笔形进行排序的计算机及软件。第二种,用词汇第一个汉字的全拼音的方法。现代汉语普通话中有410多个音节(未计儿化音节和声调),用这410多种编码编排数以万计的词汇序列,重码数量之多,给使用者带来许多不便。第三种,使用整个词汇的全部汉语拼音字母的方法。此方法重码虽少,但人们不愿意广泛使用,一则熟悉并准确拼写的人不多,二则要依次列出和检索的字母太多,平均至少是汉字个数的3.45倍。如果由计算机排序后,不列出词汇的全拼音作为检索码,仅列出用全拼音排序的汉字词汇,人们也难以见字联想到字和词汇序列,因为汉字是表意的象形文字,在检索时,只有靠人心中默念着全拼音的顺序,扫描大量似是而非的汉字词汇去鉴别定位。因此也不能提供给一般人解决汉字词汇的排序、编辑和检索工作。本专利技术的目的是提供一种把汉字词汇(包括单音成词)及专业技术短语变成人-计算机都可以识别和利用的代码,进行排序、编辑和检索,并可以按序列检索到词汇编撰人赋于该词汇的各种信息。本专利技术的特点是把汉字词汇(包括单音成词)的每个汉字拼音的第一个字母,按原汉字词汇顺序组成字母列,作为词汇的编码,大量的词汇编码可选用多种计算机语言按ASCII码从小到大进行一级排序,在同码序中用国家规定的区位码对组成词汇的汉字进行二级排序,原词汇以此顺序对应列出。在汉字词汇的前、中、后部出现的任何非汉字符号均不产生编码,而在本编码的尾部缀上一个非字母符号“*”,以表示与纯汉字词汇的区别。对已按编码排序的汉字词汇,可连接赋于该词汇的其他信息。本专利技术的另一特点是可以事先在计算机内建立一张汉字与拼音首字母对照表,由计算机的专用程序自动地把每个词汇的汉字汉语拼音的第一个字母按原汉字顺序组成字母列,填在预定的对应的位置,即完成了对词汇的编码。在汉字与拼音首字母对照表中,一级字库是按拼音排列的,只要划分出23个字母区,即可产生23种首字母;二级字库是按照偏傍部首排列的,则一字对应一个首字母;对于多音字用区位码中安排的常用读音,并在汉字词汇代码的第一个字母前加一个问号“?”以示区别,鉴别后由人工删去。本专利技术简单,查阅方便,快速简捷,不需要对使用者进行专门训练,也不需要使用者对拼音完全熟悉,只要略知汉语拼音的人,一分钟就可学会。本专利技术在排序及检索时,可省去全拼音70%左右的字母,而且人-计算机都可以识别和利用。减少了计算机的存储量,加快了处理速度,并且可以选用多种计算机语言进行自动排序,自动生成索引页码,排序、编辑完全实现计算机化,对各行各业尤其对出版业将产生积极的效果。表1是采用本专利技术编码进行排序、编辑的《英汉-汉英农田水利学词典》中重码多的词汇与全拼音编码排序结果的比较。表2是采用本专利技术编码进行排序、编辑的《英汉-汉英农田水利学词典》中的汉-英索引中的一页。采用本专利技术编码进行排序、编辑的《英汉-汉英农田水利学词典》一书共有8000条词汇,三个字组成的词汇重码已很少,四、五个字以上的词汇几乎无重码。表1中是重码多的词汇,其中C有7条重码,CC有6条重码,CS有18条重码,D有11条重码。对于有重码的词汇,列出汉字以区别。这42条词汇编码用了66个字母,而采用全拼音字母编码排序的,重码虽少,但用了228个字母,后者是前者的3.45倍,前者是后者的28.9%。本词典用计算机处理过程中,仅仅在出现重码时,才对应列出原汉字。虽然有重码,但检索的字母数只是全拼音的28.9%,仍是很方便的。在表2中“地下径流”出现两次,“地下水位”出现6次,但这不是重码,而是分别对应了2条及6条英语同意词。因为5个以上汉字组成的词汇几乎无重码,本词典限于篇幅,对5个及多于5个汉字的词汇仅列出编码,没列出汉字。如用该词典,汉-英索引要查“地下水出水量”一词,根据汉语拼音“DI XIA SHUI CHU SHUI LIANG”写出每个汉字拼音的第一个字母“DXSCSL”在该页索引中查到“DXSCSL”后所附的页数226,便可在该页中查到英语词组“Yield of ground water”,查阅方便。本专利技术是这样实现的用任何计算机语言(如C、BASIC、各种数据库等)无论用何种方式(如五笔字形、首尾码等)向计算机输入汉字词汇或短语,同时在预定的对应位置,由人工填入每个词汇(包括单音成词)的汉字汉语拼音的第一个字母,或者事先在计算机内建立一张汉字与拼音首字母对照表,由计算机的专用程序自动地把每个词汇的汉字拼音的首字母,按原汉字顺序组成字母列,填在预定的对应的位置,即完成了对词汇的编码,再由计算机用任何一种计算机语言,对编码按ASCII码从小到大进行一级排序;在同码序中用国家规定的区位码进行二级排序,原词汇以此顺序对应列出,即完成了词汇的排序。二级排序后,个别的词汇会出现音序在前,而区位码序在后的情况,因代码相同的汉字排列位置已相近,不影响检索查阅。组成词汇的汉字越多,重码越少。本专利技术规定只对汉字产生编码,而对汉字词汇的前、中、后部出现的任何非汉字符号(如汉字偏傍、+、-、/、()、字母等)均不产生代码,只是在编码的尾部缀上一个非字母符号“*”,以表示与纯汉字词汇的区别。在建立的汉字与拼音首字母对照表中,一级汉字库从1601至5589(十进制)共3755个字,是按拼音排列的,只要划分出23个字母区,就可以产生23种首字母。二级字库从5601到8794不计偏傍部首近3000个字,因为是按照偏傍部首排列的,则应一字对应一个首字母。对于多音字用区位码中安排的常用读音,并在这个词汇代码的第一个字母前加一个问号“?”以示区别,鉴别后由人工删去。 权利要求1.一种汉字词汇的汉字拼音首字母编码法,其特征在于把汉字词汇(包括单音成词)的每个汉字汉语拼音的第一个字母,按原汉字词汇顺序组成字母列,作为词汇的编码。2.根据权利要求1所述的编码法,其特征在于把大量的词汇编码可选用多种计算机语言按ASCII码从小到大进行一级排序;在同码序中用国家规定的区位码对组成词汇的汉字进行二级排序,原词汇以此顺序对应列出。3.根据权利要求1所述的编码法,其特征在于汉字词汇的前、中、后部出现的任何非汉字符号,均不产生编码,而在编码的尾部缀上一个非字母符号“*”,以表示与纯汉字词汇的区别。4.根据权利要求1所述的编码法,其特征在于对已排序的编码及汉字词汇,可连接赋于该词汇的其他信息。5.一种汉字词汇的拼音首字母编码法,其特征在于可以事先在计算机内建立一张汉字与拼音首字母对照表,由计算机的专用程序自动地把每个汉字词汇的汉字拼音的第一个字母,按原汉字顺序组成字母列,填在预定的对应的位置,即完成了对词汇的编码。6.根据权利要求5所述的编码法,其特征在于在汉字与拼音首字母对照表中,一级字库是按拼音排列的,只要划分出23个字母区,即可产生23种首字母;二级字库是按照偏傍部首排列的,则一字对应一个首字母;对本文档来自技高网...

【技术保护点】
一种汉字词汇的汉字拼音首字母编码法,其特征在于:把汉字词汇(包括单音成词)的每个汉字汉语拼音的第一个字母,按原汉字词汇顺序组成字母列,作为词汇的编码。

【技术特征摘要】

【专利技术属性】
技术研发人员:周保鑫周保范刘升元张自泰
申请(专利权)人:周保鑫
类型:发明
国别省市:62[中国|甘肃]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1