当前位置: 首页 > 专利查询>陈清钰专利>正文

夫子码制造技术

技术编号:2842250 阅读:324 留言:0更新日期:2012-04-11 18:40
夫子码是拼形码,属于汉字编码领域的发明专利技术,其成果可为中文信息处理提供超过十万个汉字字符的码本,也为辞书界提供新的单字检索表。夫子码将夫子码将汉字笔画分为直、弯、钩三种类型(三笔直弯钩),把输入键盘划分为三个笔画区和一个共容区(调节区)。字母码以26个字母为码元,441个字根与之对应;数码以0至9十个数字为码元,417个字根与之对应。共容字根使一些单字在更换字体文件后,形变码不变。复合字根确保单字拆分的单一性。夫子码以宋体字为编码对象,依形做四位数(字根)编码,数码再加序号码。序号码为两位,数码能在码长为6且无简码时实现无重码,可做交换码使用,并使字、词混合处理成为可能。

【技术实现步骤摘要】

夫子码是拼形码,属于汉字编码领域的专利技术,其成果可为中文信息处理提供超过十万个汉字字符的码本,也为辞书界提供新的单字检索表。
技术介绍
信息技术需要处理十万个以上汉字字符,唯有拼形码能做到低重码率,使中文的键盘输入快捷。内码虽然无重码,但它具有不可记忆性;拼形码是有规则的编码,具有可记忆性,数码能在码长为6且无简码时实现无重码,可做交换码使用,并使字、词混合处理成为可能。
技术实现思路
夫子码将汉字笔画分为直、弯、钩三种类型(三笔直弯钩),把输入键盘划分为三个笔画区和一个共容区(调节区),作为字根定位的依据,对宋体字作四位数编码(数码再加序号码)。共容区区内的字根,首笔可直、可弯、可钩,共容字根使一些单字在替换字体文件时做到形变码不变。字根的设置和组合只考虑字形、笔顺,不考虑字源、字理。复合字根确保单字拆分的单一性。键盘有字母键盘和数字键盘。字母键盘以26个字母为码元,441个字根与之对应。中排键为直笔区,其中A、S、D、F、G五个键横起笔,H、J、K、L四个键竖起笔。上排键为弯笔区,其中Q、W、E、R、T五个键撇起笔,Y、U、I、O、P五个键点、捺起笔。下排键的B、N、M三个键为钩笔区,M为顺时针方向的钩折,N为逆时针方向的钩折,B键是这个区的调节键,未在这个区列出的所有单笔画钩笔字根按钩折方向取M或N为字根码。Z、X、C、V四个键组成共容区。数字键盘以0至9十个数字为码元,417个字根与之对应。①、④、⑦三个键为直笔区,其中④键横起笔,⑦键竖起笔,①键是这个区的调节键。②、⑤、⑧三个键为弯笔区,其中⑤键撇起笔,⑧键点、捺起笔,②键是这个区的调节键。③、⑥、⑨三个键为钩笔区,⑥键为横起笔后钩折,⑨为竖或斜起笔后钩折,③键是这个区的调节键,未在这个区内列出的所有单笔画钩折字根均以“3”为字根码。钩笔区的单字较少,所以每个键各安排一组“借位字根”,三个“半键”和 键构成分散型的共容区(调节区)。字根“二、三、四、五、六、七、八、九”也属“借位字根”。附图说明图一为字母键盘“字根键盘图”,图上26键位,26个码元,441个字根与之对应。标在字母旁的单字是一级简码。图二为对“外字”的GIF格式编码。图片(1∶1)下方的字母既是编码,也是文件名。图三为数字键盘“字根键盘图”,图上10键位,10个码元,417个字根与之对应。具体实施例方式一、编码对象夫子码以宋体字为编码对象,并以大陆本土的宋体字字体文件的字形为标准,依形编码。凡是字形不一致或在电脑上打不出的字,统称为外字,单字制成GIF格式图片后编码,并以编码为GIF文件名,重码时加两位数序号。总字数在十万个以上。二、笔画与字根1、笔画“竖撇”归入“弯”区,“竖钩”归入“钩”区,“辶、之”的最后一笔也归入“钩”区。旧字型的笔画,“竖点”按竖笔编码,折笔按新字型的折笔处理。2、笔画的长短不作为区别字根的标志,如两横的“上长下短”与“上短下长”、两竖的“左长右短”与“左短右长”无区别。钩笔只区分第一折是否同一方向,不区分笔画末是否带钩。如“、”是同一个字根,所以,“ 冂”也是同一个字根。3、字根在具体字例中的笔画变形分为同类变形和异类变形两种。最常见的同类变形如横改提,捺改点,“乚”改 。异类变形只有竖改竖撇。同类变形视为同一字根,不在字根表中列出,如“人、 ”是同一个字根;异类变形视为不同的字根,在字根表中列出,如“辛、 ”是不同的字根。“月(在左)”和“ (在下)”是不同的字根,因为第一笔的笔画新型不同。4、能使单字在替换字体文件后形变码不变的字根称为共容字根。单个字根不成为共容字根。以“组”出现的共容字根,首笔笔画类型相同的安排在各自的笔画区,不同的安排在共容区。如 是一组共容字根,首笔相同,不安排在共容区;“月、 ”首笔笔形不同,安排在共容区。三、字根构字原则1、字根构字的过程必须符合笔顺。当两个字根相互包容交错时,首笔的先后决定字根码的先后。如,“身”由 包容“二”, 的字根码在前。“百”由“ 二”组合而成,但不属于包容,因为每一笔都符合笔顺。再如,“乘”由“禾”包容“ 匕”,笔画发生交错,但不交叉。夫子码里不存在笔画交叉的包容。单写字根如“人、口、木”和双写字根如“从、吅、林”组合时,单写的字根码在前。2、字根构字的结果不改变单字的笔划数。四、编码规则如下1、单字依笔顺取前四个字根,构成四位数编码。字根只有三个时,加单补码;字根只有两个时,加双补码。字母键盘上的单补码取“o”,双补码取“ow”(单字左右结构)和“oe”(其它结构);数字键盘上的单补码取“0”,双补码取“03”(左右结构)和“09”(其它结构)。单字根字按字根的编码规则编码。2、词汇双字词取各字的头两码,三字词取第一、二字的首码、第三字的头两码,四字词取各字的首码,多字词取前四个字的首码,构成四位数编码。3、字根夫子码为字母码时,先取字根的键位码,再依笔顺取前三个笔画的键位码,构成四位数编码。笔画数不够时,加补码“o”、“oe”,如“丨”在H键上,只有一个笔画,编码是“hhoe”。夫子码为数码(夫子数码)时,先取字根的键位码,加个“0”,再加前两个笔画的键位码,构成四位数编码笔画数不够时,再加“0”,如“一”在“1”键上,只有一个笔画,编码是“1010”。五、序号码。夫子码为数码时,在字、词四位数编码后面加序号码。码长为5时,序号码为一位数(0至9),重码字的序号码均为“9”;可设简码(一级简码0 都、1 不、2 人、3 也、4 要、5 的、6 又、7 是、8 就、9 能)。码长为6时,不设简码,序号码为两位数(00至99),无重码。序号码是择字序号的码表化,成为字、词全码的一个组成部分。六、复合字根。具有可逆性的“复合字根”确保单字拆分的单一性,所以,夫子码不设容错码。在复合字根中找不到单字拆分依据时,一律“取小优先”。“取小优先”的含义是前一个字根让出一个笔画给后一个字根,如果能使后一个字根组成另一个字根,这个笔画必须让给。复合字根如下 a104 fz 42 jz72 sg 41 xa 81耂 aa 01豆 g178 甲ka71 sj 97 xa 00 aa 04于 ga 10曱ka71 sjg 471 xa 84 ab 06未 ga 14 ka014 sjv 010xa 04 ad 04末 ga 14 ka60 sk47 兰 xc 83 af 04 ga 14 kd74sn13 xc 83 ag 11 gay 232 kg02 st42 羊 xc 83直 ajg 071 gbh 161 里kg71 su08  xc 83 aka 070 gc 18 中kh71共 sx48 xc 83 al 07 gc 13 kh77余 ta214xc 8 麗al60gd14kj77tc23xd04alg 061豕ge15 髙kk07tb26 xd03反am16geh 151 kl76 tb26 xd03尢an13ggd本文档来自技高网...

【技术保护点】
夫子码将汉字笔画分为直、弯、钩三种类型(三笔直弯钩),把输入键盘划分为三个笔画区和一个共容区(调节区)。字母键盘以26个字母为码元,441个字根与之对应。中排键为直笔区,其中A、S、D、F、G五个键横起笔,H、J、K、L四个键竖起笔。上排键为弯笔区,其中Q、W、E、R、T五个键撇起笔,Y、U、I、O、P五个键点、捺起笔。下排键的B、N、M三个键为钩笔区,M为顺时针方向的钩折,N为逆时针方向的钩折,B键是这个区的调节键,未在这个区列出的所有单笔画钩笔字根按钩折方向取M或N为字根码。Z、X、C、V四个键组成共容区。数字键盘以0至9十个数字为码元,417个字根与之对应。①、④、⑦三个键为直笔区,其中④键横起笔,⑦键竖起笔,①键是这个区的调节键。②、⑤、⑧三个键为弯笔区,其中⑤键撇起笔,⑧键点、捺起笔,②键是这个区的调节键。③、⑥、⑨三个键为钩笔区,⑥键为横起笔后钩折,⑨为竖或斜起笔后钩折,③键是这个区的调节键,未在这个区内列出的所有单笔画钩折字根均以“3”为字根码。钩笔区的的每个键各安排一组“借位字根”,三个“半键”和*键构成分散型的共容区(调节区)。字根“二、三、四、五、六、七、八、九”属“借位字根”。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈清钰
申请(专利权)人:陈清钰
类型:发明
国别省市:35[中国|福建]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1