计算机汉字词字二分拼形输入方案制造技术

技术编号:2893925 阅读:206 留言:0更新日期:2012-04-11 18:40
一个计算机汉字拼形输入方法,本发明专利技术通过字根静态和动态频率统计,筛选出128个高频字根,两两搭配成64个字(绝大部分为高频和常用字),每两个字又搭配成一个常用双音节词(少量是谐音的),一共32个词,这32个词有规律地配置在国际标准英文键盘的下三列键位上,用作通用汉字输入计算机的码元,记住这32个词,就基本上记住了全部字根码元.取码遵循汉字的结构规律和书写习惯,规则简单,易学、易找、易记、重码少、误码少、操作方便,有容错能力,尤适用于一般用户.(*该技术在2005年保护过期,可自由使用*)

【技术实现步骤摘要】
本专利技术是一种用于计算机信息处理的汉字编码输入方法。国内外现有汉字编码方案500多种,可分为流水码,拼音码、拼形码、音形结合码四大类型。流水码有四位数字电码(即中华人民共和国邮电部编《标准电码本》)、三位英文字母电码和其他各种专用电码。流水码都是任性规定的,代码与汉字的属性没有内在的联系,必须死记硬背,操作者必须经过长期的职业训练,不适应电子计算机的推广和普及。我国1958年2月11日正式公布的《汉语拼音方案》,加上适当的同音字区别手段,可用作计算机汉字输入方案。比如南开大学李约瑟设计的《汉语普通话新文字电脑Ⅱ型》、英国“大文豪第二型中英文处理系统”(SCHOLAR Ⅱ Chinese/English Text Processor)就是采用《汉语拼音方案》加上联词、定调、同音字选择键等手段来输入汉字的。这种编码输入法,受过良好汉语拼音教育的人都能操作,但输入效率低,有时光输入一个音节要击6键,加上调号和同音字选择等,多达七、八键才能输入一个汉字。为了克服音素制的《汉语拼音方案》输入效率低的缺点,扶良文创造了《双拼对字方案》,只用26个单字母既表示了21个声母,又表示了36个韵母,加上“声调×起笔”的对字字母,其简约式最多只用3个字母就能表示一个汉字。但是懂得汉语拼音的人也得从头学起,一个字母表示2~3个音值不如原拼音方案好记;同时重码字太多,必须附加别的手段才能在机器上实现。毕业于华南工学院的林才松等设计的FMB汉字词处理系统,是一个《汉语拼音方案》双打输入方式,输入一个单字最多只要4码,而且输入一个词汇码能够输出词的一串汉字,既不要重新学习一套拼音字母,又能大幅度提高效率。但是操作者得掌握一套以单词为基元的拼音编码规则,同时还要记住数以万计的单词中那些是最常用词、常用词、次常用词、罕用词、同音词等等。拼形码又可分为笔形码和字根码两类。北京师范大学李金 的《汉字笔形编码法》和澳大利亚墨尔本大学教授芦遂现博士的“基本笔画编码法”用为数不多的笔画和笔画组合作码元,易于学习,但输入效率低,前者一字最多要击8键,后者一字多达12键。美国王安实验室采用的、由胡立人等研制的“三角编码”,以300个字根(包括笔画)作码元,分成99组,每组用一个二位十进数表示,取码按“Z”字形路线从汉字的左上角取到右下角,每字皆取三个角号(即6位数字),不足者补“0”。用国际标准键盘为6位等长码;若另做中键盘,码长可压缩到3位。汉字的拓扑结构很复杂,不能生硬搬用“四角”的概念来描述。有人统计该方案的码元分布位置只有30%勉强符合角号的含义,其他情况只好用反常规则编码,(周逸奇等《浅评王安编码》中国中文信息研究会成立大会论文1981.6)。台湾朱帮复的“仓颉中文字母”编码法,选取24个高频字根为主字母,分别用24个英文字母表示,每个主字母包含1~6个辅字母或变形字母。取码按写字的次序,由外到里,由上到下,由左到右。码长2~5位(包括间隔符)。河南省南阳地区科委王永民的“五笔字形汉字编码方案”,把汉字的五种基本笔形和4种拓扑图形各赋予一个数字代号一 1 1丨 2 2丿 3 3 4 4乙 5并通过字根实用频率统计,选取了165个基本字根和70来个副字根作码元,分成25组,每组用一个两位数字作代号;另设识别码20个,由汉字末笔的5种笔形代号与4种拓扑图代号交叉构成。按字根在汉字中的出现位次一一首次次尾取码,一字最多4码,不足4码者追加一识别码。为了提高输入速度和降低重码,另设626个简码和2100个词汇码。上海仪器仪表研究所总工程师支秉彝的“见字识码”方案和邮电部数据通讯研究所郭淑珍的“声韵部形编码方案”,是比较典型的音形结合码。前者以字根为单元取码,而字根的代码则是这个字根(或关系字)的汉语拼音的第一个字母。每字编码都是4位,取法有5种,大体上是先找出每个字的4个特征字根,然后依汉语拼音的首字母编码;少于4个字根的,重复取其中的特征字根;超过4个字根用“前拼后折”的方法省略。后者每字最长取4码,第一码为声,第二码为韵,第三码为按字义分类的部首码,第四位为形码(5种起笔笔形×5种基本部首)。这个方案既要懂拼音,又要记字根,还要晓得事物的分类知识等等。拼音码要求操作者谙熟拼音知识,能讲比较标准的普通话。笔形码码长难于限制、输入效率低,为减少重码非制订一些死记硬背的反常码不可。字根拼形码不受方言限制,输入效率高,但码元多,绝大多数是离散型的,缺乏内在联系,记忆困难,背熟了也容易回生。拼音和拼形相结合的音形码,把两者的缺陷集于一身,对操作者的要求更高。因此,目前国内外编码方案虽多,但一般很难推广应用。本专利技术的目的是为普通工作人员(指非专业操作员)提供一个容易掌握的,而效率不低于其他方案的普及型计算机汉字输入方案。本专利技术把128个高频字根集约成64个常用字,并两两搭配成双音节常用词(部分是谐音的),有规律地配置在国际标准英文键盘下三列32个键位上,作为通用汉字的输入码元。本专利技术不落传统拼形方案的窠臼,在键面体现的是一个一个由整字构成的人们记熟用惯了的常用双音词,字根就蕴含在词的中间,字根的联系是有机的,使方案兼具了大、小键盘的优点。同时本方案运用了与众不同的析取重码因素和考察构字重合率等思想,使方案设计更趋科学合理。字根码元不是作者主观臆造的,而是经过严密的静态频率统计筛选出来的高频字根;整字和单词也不是简单的凑合,而是在常用的前提下,通过重合率统计把重码机会少的字根搭配成字和词;单词码元也不是随意安排在键面上的,而是经过码元动态频率的计算,把它们配置在适当的键位上。如附图所示。上机输入汉字时遵循下述规则1、每字最长四码,顺次连取,从大,从整,“割尾巴”。从大-在同时有两种取法时,选取最大的码元。例如“生”取“牜5-”,不取“丿-土”和“丿三丨”。从整-在从大取码时,不破坏前后码元的完整性。例如“朱”取“3木3”,不取“牛丿 ”。“割尾巴”-四码取不尽的繁复汉字,四码之后的信息不取。例如“麓”取“木木广 ”。2、第一码元用一次击一键;第二、三、四、五、六码元独立成字或出现在二根字中需加击区别键,三根以上的字一律不加击区别键。例如“牛”取“牛5”、“牯”取“牛5古6”、“牲”取“牛牛一”、“犟”取“弓口虫牛”。3、不足四码者,加击空格键;取足4码者不需要击空格键。4、连击两次空格键为中西文转换标识符,用于中西文字更替的时候。本专利技术有如下特点1、易学。码元都是人们很熟悉的笔画、字根、合体字,没有生造的奇异结构。取码和取码顺序遵循汉字本身的结构规律,规则简单,一律无变通用法。用户只要具有初中语文知识,略经讲解或看看《说明书》即可操作。2、易找。所有码元集合成64个常用两折合体字,并搭配成32个常用双音节词,制成键帽,清晰直观、一览无余。初学者能够在键面上较容易地找到所需要的码元,然后逐步记熟所有码元的位置。3、易记。可以充分利用词、字的相关信息集中记忆。记住了32个词,也就记住了64个字;记住了64个字,也就记住了所有码元,而且经久不忘。4、误码少。绝大多数码元是构字能力强、使用频率高的字和字根,80%左右的通用汉字可直接用键面字根和整字码元拼形输入,少量通用汉字才用到笔画码元,这样可以充分利用汉字的信息量、本文档来自技高网...

【技术保护点】
一种计算机汉字字根拼形输入方法,本专利技术的特征是用128个高频字根,两两搭配成64个常用字。

【技术特征摘要】
1.一种计算机汉字字根拼形输入方法,本发明的特征是用128个高频字根,两两搭配成64个常用字。2.权利要求1中所述的64个常用字,其特征是每两个字搭配成一个常用双音节词(少量是谐音的),共32个词。3.权利要求2...

【专利技术属性】
技术研发人员:田志祥
申请(专利权)人:湖南省计算技术研究所
类型:发明
国别省市:43[中国|湖南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1