汉字小键盘笔画字编码方法技术

技术编号:6693909 阅读:214 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种使用0-9共十个数字对汉字和词进行编码的方法。本发明专利技术首先将汉字按字形结构拆分成部件,部件按其笔顺用1笔画或2笔画组合编码,按规则取部件编码形成汉字编码;本发明专利技术通过一种补码的方式将所有汉字码长定义为6码;实现了选择重码不用翻屏。按使用频率统计,50%的汉字是1码或2码,80%的汉字是3码,95%的汉字是4码,平均输入一个汉字用3.8键(含重码选择健)。按词(10万词库)输入平均一个汉字用3.5键(含重码选择健)。本发明专利技术编码规范、简单、处理七万字,解决了拼音输入音读不准的困难和形码输入需大量记忆的不足。本发明专利技术特别适用于手机等手持设备的汉字输入,也适用于通用键盘的汉字输入。

【技术实现步骤摘要】

本专利技术属于IT领域,本专利技术提供一种使用0-9共十个数字对汉字和词进行编码的 方法。随着字符集的不断扩展,目前国际标准字符集汉字总数已达七万多个,其中绝大多数 汉字输入法输入这七万多字都比较困难。本专利技术首先将汉字按字形结构拆分成部件,分别根据部件笔顺取笔画,数字1-5 对应1笔画;数字0、6-9对应连续的2笔画,通过对部件的取码完成汉字小键盘笔画字编 码;本方法通过一种补码的方式将所有汉字码长定义为6码;实现了选择重码不用翻屏。按 使用频率统计,50%的汉字是1码或2码,80%的汉字是3码,95%的汉字是4码,平均输入 一个汉字用3. 8键(含重码选择健)。按词(10万词库)输入平均一个汉字用3. 5键(含 重码选择健)。本专利技术编码规范、简单、处理七万字、重码数小于5的概率大于99.9%。解 决了拼音输入音读不准的困难和形码输入需大量记忆的不足。本专利技术特别适用于手机等手持设备的汉字输入,也适用于通用键盘的汉字输入。
技术介绍
目前,汉字输入方法主要有两大类音码和形码。音码需要输入人员正确了解汉字 的发音,对没有发音的汉字或不知发音的汉字则无法输入,而且同音汉字很多,所以重码也 很多;形码需要输入人员掌握拆分规则,要有一个学习掌握的过程。随着手机等手持设备的迅猛发展,对小键盘汉字编码的要求越来越迫切。目前小 键盘汉字编码只能处理两万多汉字,而且编码较长,重码多。本专利技术编码规范、简单、处理七万字、重码数小于5的概率大于99. 9%。
技术实现思路
本专利技术包括汉字拆分方法、小键盘笔画编码方法、、汉 字小键盘笔画字补码方法、小键盘笔画字词编码方法。一、相关概念1.汉字是由笔画或数个部件组合而成,如札-由部件“木”和笔画“ L”组成; 灭——“一”、“火”;_——“巾”、“門”、“柬”;羸——“亡”、“口”、“月”、“贝”、“凡”。2.笔画是指组成汉字的最小连笔单位,即一(横)、丨(竖)、j (撇)、、(点)、 乙(折)。3.部件是一个组成部分,是可以组合汉字的零件,如“部”是由“立口 P ”三个部件组成;“最”由“日耳又”组成。4.成字部件是指独立的字,如“立” “口” “日” “耳” “又”。5.非成字部件指不是独立的字,如“P,,1,,“、/。6.汉字的结构是指字按一定的形态排列的方式,简单归纳有上下、左右、半包、 全包、独体字。 上下结构是指字的部件上下排列或上中下排列,如歪靠繁罕官蛊寡亲; 左右结构是指字的部件左右排列或左中右排列,如期搬翻配鵑榭蝴弧; 半包围结构是指字一部分部件被另一部件包围了一部分,如司房道肉函历画 匿赵岛周阔凶虚氤勿戴质咸医匦匾局扉起毬魁达建随断; 全包围结构是字的一部分部件被另一部件全部包裹,如国圆圍困圇圊; 独体字指字的部件或笔画交叉重合在一起、不易拆分且独立成字,如“本夷来 隶为弗母民聿出书串专事柬果未夹里屯禺凹凸曲垂册用我才五冉曲弗重片”等,仔细看 “夷”是由“大”和“弓”套合而成的,也就是说大和弓是相交在一起的;“串”是由一个“丨,, 串联着两个口 ;“本”是木和一交叉。二、汉字拆分方法1.首先根据汉字结构将汉字拆分为部件汉字结构归纳有上下、左右、上中下、左中右、半包、全包、独体字。如需-上下颇-左右等-上中下谢-左中右凶、周、阔、虚、勿、幽、氧、医、起、建、断、随-半包围圆、圍、国-全包围夷、串、曲、里、未、垂、央、禺、册-独体字2. GF0013-2009《现代常用独体字规范》中的独体字不拆分如汉字“丫牙亚严言央羊夭也业页衣乙已义亦永用尤由”。3.笔画交叉不能拆,粘连可以拆如札-可拆分为“木L”,相离可拆;县-可拆分为“且厶”,相接或叫相粘连可拆;串、东、孓、豕-笔画交叉不能拆分。4. GF0011-2009《汉字部首表》中的部首和附形部首不拆分如“龠鼻鼓黍黑麻黄高鬥鬲音革魚阜谷”不再拆分。5.汉字拆分成3个部件为止当拆分的结果小于三个部件时,可顺序拆分部件,拆分至满三个部件为止。如孅一女1韭;纓一女頭女;嬰-?斬女;觭-大可奇。6.汉字或部件有多种拆分时,选择笔画数差最小的如僚——j力·豕三、小键盘笔画编码方法编码对应笔画0-> 横横(——);1_> 横(一);2_> 竖(丨);3-> 撇(J );4-> 点(、);5_> 折(ι );6_>横竖(一丨);7-> 竖折(丨 ι );8-> 撇点(J、);9-> 折横(ι一);本方法编码1-5分别对应一种笔画,而编码0、6_9分别对应两个连续的笔画。四、1.独体字根据书写顺序依次按小键盘笔画编码,编码至笔画结束或满6码如用->396;言->4069 ;垂->312620 ;鼠->321915。2.当汉字被拆分为2个部件时,按小键盘笔画编码分别编码,取满6码或笔画结束 为止。先取首部件两个编码,再顺序取末部件编码,最后从首部件第三个编码位置开始 顺序取编码,如功->工力->6153 ;的 _> 白勺->373540。3.当汉字被拆分为3个部件时,按小键盘笔画编码分别编码,取满6码或笔画结束 为止。先取首部件两个编码,再取第二个部件两个编码,然后顺序取术部件编码,最后从 首部件第三个编码位置开始顺序取编码,如据_> 才尸古->619367 ;些-> 止匕二 ->263501。五、汉字小键盘笔画字补码方法汉字编码长度为6,若不足6码,则连续补“汉字总笔画数mod 4”,如功->工力 _>6153_>615344。汉字小键盘笔画字补码是为了排序,高频先见,保证所有重码在首屏出现。六、小键盘笔画字词编码方法1.双字词编码方法(1)词的第一码为词标识“0”;(2)两个汉字分别取6个编码,取满6码或笔画结束为止;(3)第一个汉字取其前2个编码;第二个汉字顺序取其编码;(4)从第一个汉字第三个编码位置开始顺序取编码(5)若不足6码,则连续补词的长度“2” ;(6)非汉字字符编码皆为“8”。2.三字词编码方法(1)词的第一码为词标识“0” ;(2)三个汉字分别取6个编码,取满6码或笔画结束为止;(3)第一个汉字取其前2个编码;第二个汉字取其前2个编码;第三个汉字顺序取 其编码;(4)若不足6码,则连续补词的长度“3” ;(5)非汉字字符编码皆为“8”。3.四字(含)以上词编码方法(1)词的第一码为词标识“0” ;(2)四个汉字分别取6个编码,取满6码或笔画结束为止;(3)第一个汉字取其前2个编码;第二个汉字取其前2个编码;第三个汉字取其第 1个编码;第四个汉字顺序取其编码;(4)若不足6码,则连续补词的长度;(5)非汉字字符编码皆为“8”。附图说明图1 功能图。权利要求1.中文汉字小键盘输入的一种方法,包括汉字拆分方法、小键盘笔画编码方法、汉字小 键盘笔画字编码方法、汉字小键盘笔画字补码方法、小键盘笔画字词编码方法。2.如权利要求1所述的汉字拆分方法,包括 根据汉字结构将汉字拆分为部件DGF0013-2009《现代常用独体字规范》中的独体字不拆分;2)笔画交叉不能拆,粘连可以拆;3)GF0011-2009《汉字部首表》中的部首和附形部首不拆分;4)汉字拆分成3个部件为止;5)本文档来自技高网...

【技术保护点】
1.中文汉字小键盘输入的一种方法,包括汉字拆分方法、小键盘笔画编码方法、汉字小键盘笔画字编码方法、汉字小键盘笔画字补码方法、小键盘笔画字词编码方法。

【技术特征摘要】

【专利技术属性】
技术研发人员:蒋贤春郑珑张秀欣谢术清
申请(专利权)人:北京中易中标电子信息技术有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1