当前位置: 首页 > 专利查询>王永民专利>正文

一种大字符集汉字形码编码法及其输入键盘制造技术

技术编号:2880979 阅读:313 留言:0更新日期:2012-04-11 18:40
一种大字符集汉字形码编码法及其输入键盘,根据构字规律和组字频度设计了可为GB18030-2000字集和更大字符集数万个汉字进行科学拆分编码的新的码元,以此与五笔字型86版的字根(码元)合成为新的码元体系,并依据字根的相容性、规律性原理将新的码元体系依据协调性原理安排在五笔字型键盘的5个区、每区5位共25个键位上,以此按五笔字型取码法,完成对GB18030-2000字集的27533个汉字及更大字符集汉字的编码,形成一个完整的大字符集汉字的输入编码体系,实现大字符集汉字的键盘输入。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术属于形码汉字电脑输入法及其键盘。本专利技术人于20世纪80年代曾提出五笔字型汉字电脑输入技术方案,并在在1986年全国推广应用,但五笔字型(86版)是针对解决GB2312(80)中的6763个汉字的输入提出的技术方案,对于国家信息产业部颁布于2000年的GB18030-2000汉字集,甚至更大的字符集,五笔字型(86版)技术方案不能形成一个可以有效解决大字符集汉字编码输入的完整的编码体系,不能有效解决超大字符集汉字字词的输入,已远远不能适应各行业特别是国内外中文应用的需要。本专利技术的目的是建立一个科学的码元体系,提出一套解决GB18030-2000标准大字符集或更大汉字集的输入方案,以此形成一个完整的编码体系,以满足各行业对大字符集汉字输入的需要。本专利技术采用五笔字型(86版)可以分为5区共25个键位的键盘、或数字键盘,本专利技术包括可对GB2312进行编码的码元体系、编码规则及其输入键盘。本专利技术在五笔字型(86版)码元基础上,针对GB18030-2000或更大字符集汉字输入的需要,根据汉字构字规律和组字频度,设计增加了一批具有突出的实质性特点的码元,以此形成超大字符集数万个汉字的新的码元体系,并依据相容性、规律性原理将这些新的码元科学地安排在现行五笔字型键盘的5个区、每区5个位共25个键位上。其中新增码元有車 貝釒 馬 黽新增码元在键盘上的设置可以是码元 可放在1区12位F键上,码元可 放在1区13位D键上;码元 可放在2区22位J键上,码元車 可放在2区24位L键上,码元貝可放在2区25位M键上;码元釒可放在3区35位Q键上;码元 可放在4区41位Y键上,码元 可放在42位U键上,码元 可放在45位P键上;码元 可放在5区52位B键上,码元 可放在5区53位V键上,码元馬可放在5区54位C键上,码元糹 黽可放在5区55位X键上。本专利技术的码元体系的全部码元及其在5区25个键位上的配置如附图所示。本专利技术的码元体系,可以采用五笔字型(86版)的取码方法对GB18030-2000或大字符集中的全部简繁汉字的字词编码,采用的方法是(1)编码的最大长度为4或5;(2)当一个字拆不足4个或5个码元时,击空格键结束;(3)或者补加识别码,包括末笔字型识别码和构形码中的一种或两种。本专利技术以新的码元体系及键位设计完成对GB2312(80)字集6763个汉字、GB18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》国家标准内的全部简繁汉字或更大字符集的汉字进行编码,形成超大字符集汉字的新的输入编码体系。本专利技术可同时处理GB18030-2000字符集或更大汉字集中数万个简体汉字与繁体汉字。本专利技术在同时处理简体汉字与繁体汉字时,其方法是可采用大写字母表示简体码元对应的繁体码元及其编码,而用小写字母表示其简体码元及其编码,也可采用大写字母表示简体码元及其编码,而用小写字母表示简体码元对应的繁体码元及其编码。本专利技术突出的实质性特点在于,首先解决了编码工程中最根本的问题——码元设计的科学合理性,创造性地设计了输入超大字符集所必需的码元;并合理地安排各码元键位,与五笔字型(86版)已有码元相辅相成,形成一个超大字符集的码元体系。本专利技术是在保持了现有技术码元和拆分编码方法的基础上,以浩繁的统计计算结果为理论依据,重新定量,创造性地设计了大字符集汉字输入的新码元,并以此码元体系为基础,建立起一套可处理大字符集数万个汉字输入的完整的编码体系。例如在GB18030-2000大字符集中,构字频率较高的“馬 ”等,利用五笔字型的现有技术,必需对上述码元做进一步的拆分,而对笔画较多、结构复杂的大量繁体字来说,即加大了拆分的难度,又提高了重码率。本专利技术直接将其作为码元,并科学合理地的安排分布在各个键位上,进一步实现了直观分解、易学易用,且重码率大大降低。本专利技术显著的进步在于,新码元的增加及该科学的码元体系的建立,才得以对GB18030-2000或更多汉字的大字符集中的数万个汉字及词汇进行有规律地编码拆分,才得以按照五笔字型取码法,运用行之有效的方式,完成了约占GB18030-2000字符集总编码体系75%比例新增汉字的编码,才得以建立起一套完整的大字符集编码体系,以此形成一个超大的汉字编码体系。本专利技术的显著进步还在于,该编码体系与五笔字型(86版)编码体系兼容,GB18030-2000字集的27000多个汉字,可以全部按照五笔字型(86版)的拆分取码方法进行编码输入,保证了编码的唯一性,使得用原码元体系为扩大3倍之多的汉字编码时,本来必然大增的重码率得到控制和明显降低,提高了汉字输入速度。从而本专利技术建立的大字符集编码体系,有效解决了大字符集汉字的电脑输入的问题。本专利技术可以采用五笔字型(86版)使用的电脑标准键盘,对汉字单字和词汇的拆分编码,向电脑输入数万个单字和数量不限的词汇。本专利技术可以采用电脑或终端的英文键盘,对应五个区共25个键位的字母键位上可以标识出区位号、码元。本专利技术用现行数字键对汉字的字词编码输入时,可直接在数字键上输入单字或词语参加编码的码元的区位号(11~55),最多击键8次,而不必使用字母键。本专利技术的实施例如下如码元 馬有175个字以该字开头,遤颿馬馭馯馰馱馲馳馴馵馶馷馸馹馺馻馼馽馾馿駀駁駃駄駅駆 駈駉駊駋駍駎駏駐駒駓駔駖駗駘駙駚駛駜駝駞駟駠騈駣駤駥駧駨駩駪駫駬駭駮駯駰駱駲駳駴駵駶駷駸駹駺駻駼駽駾駿騀騁騂騃 騅騆騇駢騉騊 騌騍騎騏騐騑騒験騔騕騘騙騚騛騜騝 騟騠騡騢駿騤騥騦騧騨 騪騬騮騯騱騲騳騴騵騶騷騸 騻騼騽騾騿驂驃驄驅 驈驉驊驋驍 驎驏驐驑 驓驔驕驖驗驙驛驜 驞驟驠驢 驤驥驦驧驨驩驪驫根据五笔字型取码法,每个字最多取四码,如不加码元 馬会有174字重码。所有这些174个以 馬 开头的字的前三码都相同(GHF一丨二),最后一码的编码空间只有25种可能(A-Y),即使将174个字平均分配在25个键位上,也会有近7个(174/25)字挤在同一个键位上。统计表明,不加 馬 码元,有99.4%的字重码,且最多重码字达16个之多,而在增加 馬码元后,以 馬 开头的175个字中,仅有6对二重字,重码率仅为6.8%,重码率降低了92.2%。又如将码元 放在4区45位P键上,而不放在其它键位上,这是基于五笔字型码元设置的规律性及最大程度降低重码率的前提下决定的。首先,因码元 首笔为“丶”(代号为4),次笔为“乙”(代号为5),根据码元规律性,首笔代号与区号一致,次笔代号与位号一致,故应放在捺区(4区)的45键位P上。其次,捺区前三个键位(Y键、U键、I键)码元基本饱合,且常用码元较多,即只有在O键和P键上选择。只所以不选择O键,是因为O键的码元“ ”易与码元 发生重码。“ ”在编码中一般出现在汉字第二码(据统计的87字中有41字“ ”处于第二码),而码元 也是多处于汉字的第二码(据统计113字中有112处于第二码),容易造成重码。再次,只所以将 放在P键上,是因为P键上的常用码元“冖”、“宀”“ ”一般处于第一码,常用码元“辶”、“廴”多处于末码,而“ 常作为第二码出现,这样有效地通过码元的键位安排,离散了重码。本专利技术可应用于各种涉及汉字的电脑及终端设备、软件产品、网络、通讯及各类图书管理、本文档来自技高网...

【技术保护点】
一种大字符集汉字形码编码法及其输入键盘,包括可对GB2312(80)字集的汉字进行科学编码的五笔字型(86版)的码元体系、编码规则及其输入键盘,其特征在于根据构字规律和组字频度设计了以下新的码元,使之可以为GB18030-2000字集27533个汉字和更大字符集数万个汉字进行科学地拆分编码,形成了一套完整的大字符集汉字的新的输入编码体系,新设码元是:***以此与五笔字型86版的字根(码元)合成为新的码元体系,并依据相容性、规律性、协调性原理将这些新的码元安排在五笔字型 5个区、每区5个位共25个键位上,新增码元在五笔字型键盘上的设置可以是:码元*可放在1区12位F键上,码元可*放在1区13位D键上;码元**可放在2区22位J键上,码元**可放在2区24位L键上,码元*可放在2区25位M键上; 码元*可放在3区35位Q键上;码元*可放在4区41位Y键上,码元*可放在42位U键上,码元*可放在45位P键上;码元*可放在5区52位B键上,码元*可放在5区53位V键上,码元*可放在5区54位C键上,码元***可放在5区55位X 键上。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:王永民
申请(专利权)人:王永民
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1