当前位置: 首页 > 专利查询>秦川昊专利>正文

汉语词符键盘拼形输入法制造技术

技术编号:2887929 阅读:196 留言:0更新日期:2012-04-11 18:40
汉语词符键盘拼形输入法是一种拼形类汉语字、词、符号输入方法,可解决目前拼形类汉字输入的以下几点缺陷:不能支持国际扩展码(GBK),或虽能支持,但重码率很高;不能输出图形符号;词汇不够丰富;编码长度长。该输入法共使用44个码元,198个汉字部件,支持GBK字库,可输出20902个汉字、六百多图形符号及24个标点符号,词汇丰富,达四万二千多条,重码率低,编码长度短,可广泛用于各行各业的汉语计算机输入。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种汉语汉字、词汇及符号的计算机键盘输入法,更准确地说,是涉及一种支持汉语国标扩展码(GBK)汉字、词汇及符号的拼形类计算机键盘输入方法。现有的汉语计算机键盘输入法大多不支持20902个汉字的国标扩展码(GBK)字库,只支持6763个汉字的国标码(GB)字库,支持GBK字库的输入法则重码率高;已有的计算机键盘输入法的词汇量在6000至25000条之间,而现代汉语中较常用的词汇多达40000余条;已有的拼形类输入法汉字编码码长一般为4键,码长较长;已有的拼形类键盘输入法不能输出“‰”、“℃”、“★”、“①”、“¤”等图形符号。本专利技术全面支持GBK字符集,可输出20902个汉字,包括日文、韩文用汉字及香港地区专用汉字;可输出600左右现代汉语用图形符号、标点符号;词汇量丰富,有4万2千条;汉字编码长度短,GB字符集中6763个汉字的编码长度不超过3键,GBK字符集所独有的14139个生僻字编码长度为4键;将重码率控制在7%水平以内。本专利技术的目的是让使用者可以输入GBK字符集中的全部汉字及符号,能以词汇方式输入绝大部分的常用词汇,降低重码率,提高输入速度。本专利技术在部件选取方面完全符合国家语言文字工作委员会1997年12月颁布的《信息处理用GB13001字符集汉字部件规范》的要求,即所有非成字部件及大部分成字部件选自该规范的基础部件表,其余成字部件由该规范的基础部件组合而成的。同时拆分汉字进行编码时,严格按照国家语言文字工作委员会和新闻出版署1997年4月颁布的《现代汉语常用字笔顺规范》规定的笔画顺序进行拆分编码。本专利技术共使用44个码元(码元是输入法所涉及的计算机键盘上的键位),即10个数字键、26个英文字母键及“;”、“,”、“·”、“/”、“-”、“=”、“”8个键,选用198个汉字部件(部件是组成汉字的元件,即笔画或几个笔画的固定组合)。198个汉字部件分布在10个数字键、26个英文字母键及“;”键共37个键上,“-”、“=”两键作为生僻字专用键,“”两键作为符号专用键,“,”、“·”、“/”三键是标点符号编码用键。部件大致按起始笔画或外形分为横、竖、撇、捺、点、折、钩、方框8个组。钓组部件排列在“M”、“N”两键上,其余各组部件排列在左右相连的五个键位上,同一组部件的键位分布规律是后面键位上的部件是前一键位上部件添加一笔或几笔形成的;意义相同或外形相近的部件在同一键位。198个部件的具体键位分布见说明书附图。GB字符集中的6763个汉字的编码规则是按汉字的笔顺,先后取第一、第二及最后部件所在的键位形成该字的编码,编码长度为三码。根据这些字在现代汉语中的使用频率,将其分为最常用字、常用字及普通字三类。最常用字有“我”、“吧”、“在”、“到”、“了”、“不”、“着”、“会”、“小”、“是”、“你”、“大”、“人”、““个”、“他”、“就”、“这”、“时”、“把”、“和”、“有”、“得”、“很”、“下”、“上”、“一”、“的”、“地”、“都”、“被”、“使”、“要”、“日”、“为”、“中”、“过”、“也”,共37个,编码长度为一键;常用字1200个,同时具备一个三键编码和一个两键编码,只取三键编码的前两位即形成该字的两键编码;普通字编码长度为三键。GBK字符集所独有的14139个生僻字的编码长度为四键,前两码按笔顺取前两个部件所在的键位,并根据前两码对生僻字分组;第三码是生僻字专用键——“-”,如该组生僻字字数超过四十个,则超过部分的生僻字第三码是另一生僻字专用键——“=”;生僻字编码的第四码随机地取数字键、字母键及“;”、“,”、“·、“/”共40键中的每一个键。本专利技术将24个标点符号(含冒号加双引号(“”)这一标点符号组合)及15个常用符号集中由“,”、“·、“/”三个键来编码,区分使用频率,码长分别为一键、两键或三键。符号分成序号、拼音(带声调的元音字母)、注音(注音符号)、表符(制表符)、俄文(俄文字母)、希文(希腊字母)、日平(日文平假名)、日片(日文片假名)、数符(数学符号)、图符(图形符号)、部件(非成字部件)十一个组。每组的组名是两个汉字,每个汉字编码的第一码形成该组所有符号的前两码;编码的第三码是符号专用键——“”;编码的第四码随机地取四排键(即数字、字母及“;”、“,”、“·”、“/”共40个键)中的每一个。词组的编码规则是两字词取每个字的前两码;三字词取第一、第二字的第一码及第三字的前两码;三字以上的词取第一、第二、第三及最后一字的第一码。本专利技术通过以下方法控制重码率一是增加码元个数,从而增大编码空间,如GB字符集中的汉字使用37个码元,编码空间迭5万(37的3次方),词组共使用37个码元,编码空间达187万(37的4次方);二是在大量的数据统计分析的基础上,将198个部件合理分布在37个键位上,使每个键位的使用率大体相当;三是普通字与生僻字、词组之间码长不相等,生僻字、图形符号、标点符号各有专用键,避免相互之间的重码。比较现有的其他拼形类输入法,本专利技术在全面支持GBK字符集、可输出图形符号、词汇有四万二千余条、GB字符集汉字码长不超过三键的情况下将重码率控制在7%以内。 附图说明附图中每个方框表示一个键位,方框中第一行的符号是该键位的名称,下边列示该键位上的所有部件。右边突出的“-”、“=”键是生僻字专用键,“”键是图形符号专用键,右下角的“,”、“·”、“/”三个键是标点符号编码专用键。权利要求1.一种拼形类汉语字、词、符号计算机键盘输入方法,根据字形特征,以汉字部件为元件,利用计算机键盘输出汉字、词汇及符号。其特征在于选用“钅”至“也”198个汉字部件,使用“-”及“=”键作为生僻字专用键,使用“”键作为符号专用键,使用“,”、“·”及“/”三个键对现代汉语标点符号编码。2.权利要求1所述的198个汉字部件,分成8个组,分布在10个数字键,26个英文字母键及“;”键共37个键位上。全文摘要汉语词符键盘拼形输入法是一种拼形类汉语字、词、符号输入方法,可解决目前拼形类汉字输入的以下几点缺陷:不能支持国标扩展码(GBK),或虽能支持,但重码率很高;不能输出图形符号;词汇不够丰富;编码长度长。该输入法共使用44个码元,198个汉字部件,支持GBK字库,可输出20902个汉字、六百多图形符号及24个标点符号,词汇丰富,达四万二千多条,重码率低,编码长度短,可广泛用于各行各业的汉语计算机输入。文档编号G06F3/023GK1228554SQ9910005公开日1999年9月15日 申请日期1999年1月4日 优先权日1998年9月15日专利技术者秦川昊 申请人:秦川昊本文档来自技高网...

【技术保护点】
一种拼形类汉语字、词、符号计算机键盘输入方法,根据字形特征,以汉字部件为元件,利用计算机键盘输出汉字、词汇及符号。其特征在于选用“钅”至“也”198个汉字部件,使用“-”及“=”键作为生僻字专用键,使用“[”及“]”键作为符号专用键,使用“,”、“.”及“/”三个键对现代汉语标点符号编码。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:秦川昊
申请(专利权)人:秦川昊
类型:发明
国别省市:12[中国|天津]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1