当前位置: 首页 > 专利查询>陈非专利>正文

汉字完整结构编码方法技术

技术编号:28296235 阅读:73 留言:0更新日期:2021-04-30 16:20
本发明专利技术是一种把汉字的全部结构要素都编入代码,而又不显著增加文字代码的码元数量的方法。本发明专利技术利用“尸”、“Ф”、“串”、“井”、“圭”、“开”、“王”、“月”、“工”、“口”、“日”、“目”、“田”、“个”、“丫”、

【技术实现步骤摘要】
汉字完整结构编码方法
本专利技术是一种为汉字编写ASCII字符代码的方法,以便汉字输入计算机。
技术介绍
当前的汉字字形编码方案,无不是用字根表示文字的部分结构,来代表整个文字,以使文字代码的码元数量控制在可接受的范围之内。比如五笔字型,选取文字的前三个字根和最后的字根构成代码,其余的字根就忽略掉了,以确保代码不超过四位码元。完整表达汉字结构要素,的确不是计算机输入汉字的必要条件,但是作为字形编码方案,舍弃文字的部分结构就不算完美。本专利技术意在提供一种能够包含文字所有结构要素,但又不会显著增加码元数量的编码方法。本专利技术以中国专利申请号为CN202010810157.6,名称为“一种以字形为基础的方块字编码方法”的专利技术为技术来源,该专利技术字根数量少、规律强,有二维的矩形字根和三角形字根,以及一维的交接关系、交叉关系、转折关系、零散关系、混合关系字根,总共42个字根统称为“拓扑字根”,能够对国家标准字库GB2312中的6763个汉字编制计算机输入代码。拓扑字根列表如下:字根类型一个矩形二个矩形三个矩形四个矩形封闭矩形口日目田字根类型二个矩形三个矩形四个矩形六个矩形八个矩形开放矩形工月王开圭字根类型3×3、3×4个矩形十个矩形2×6、2×7个矩形开放矩形井串Ф字根类型一笔零散二笔零散三笔零散四笔零散零散关系一二三灬字根类型一个交叉二个交叉三个交叉四个交叉五、六个交叉交叉关系十艹丰卌φ字根类型一个转折二个转折三个转折四个转折五个转折六个转折转折关系厂匚乙几弓以上列表中的字根,与CN202010810157.6号专利技术的原版字根略有不同。原版中的三列四行矩形的“弗”字根,此表中已与三列三行矩形的“井”字根合并,成为涵盖着三列三行矩形的矩阵结构字根;此表新增了一个混合关系字根,由一个封闭结构的矩形与一个开放结构的直角三角形构成,用符号“尸”表示,它在计算机键盘与手机虚拟键盘上取代了原版中“弗”字根的位置。拓扑字根默认对应美式计算机键盘的英文字母、标点符号,如图1。四十二个字根由十个数字、二十六个小写字母、以及“`”、“[”、“]”、“\”四个符号,总共四十个ASCII字符表示。在计算机键盘上,所有字根都尽量按类型集中,并按从小到大或从大到小的次序排列,每个字根都由所在键位上对应的ASCII字符表示自己。拓扑字根在计算机键盘的排列如图2,“backspace”键那一排包括“井”“圭”“开”“王”“月”“工”“口”“日”“目”“田”十个矩形字根,以及一个混合关系字根“尸”;“tab”键那一排包括四个零散关系字根,六个转折关系字根,以及三个混合关系字根“土”“丁”“ㄡ”;“capslock”键那一排,包括五个交叉关系字根,四个交接关系字根,以及二个矩形字根“串”和“Ф”;“串”字根与“卌”字根共用键位,“Ф”字根与“φ”字根共用键位;“shift”键那一排,包括六个三角形字根,以及一个混合关系字根“于”。拓扑字根在手机虚拟键盘上的排列如图7,每个字根所对应的ASCII字符,与在图2的计算机键盘上相同。第一排是十个矩形字根“井”“圭”“开”“王”“月”“工”“口”“日”“目”“田”;第二排是四个零散关系字根和六个转折关系字根;第三排是五个交叉关系字根和四个交接关系字根,一个混合关系字根“尸”,以及二个矩形字根“串”、“Ф”,其中“串”字根与“卌”字根共用键位,“Ф”字根与“φ”字根共用键位;第四排是六个三角形字根和四个混合关系字根。除了“尸”“土”“丁”“ㄡ”四个混合字根移动位置之外,每一排的字根排列与图2的计算机键盘一致。依据图1的美式键盘和图2的排列方式,42个字根与40个ASCII字符的对应关系如下表:拓扑字根编码汉字时,可以选取四个相对较大的字根表示某个字,把代码的码元长度限制为四位;字根总数不足四个的文字,代码可以小于四位码元。独体字选取相对较大的四个字根;左右、上下、内外、镶嵌、左中右、上中下,半包围结构的字,区分它们互不相连的各个部分的数量:如果正好有四个部分,则选取各部分的最大字根;如果不足四个部分,则选取各部分的最大字根之后,再选取剩余字根中相对大的,凑满四位码元;如果大于四个部分,则从各部分的最大字根中再选取四个相对大的。所选取的四个字根,按照它们的公共点在书写顺序中出现的先后来排序,当二个候选字根大小相等时,先出现的先选取。各字根的相对大小,以它们含有的特定结构要素,既矩形、三角形、线段、公共点的数量为准,综合衡量后各字根从大到小可排列如下:Ф>井>串>圭>米>开>木>大>田>王>>目>月>丫>弓>=φ>卌=乍=几>日>工>个>尸>口>丰=止=乙=于>灬>艹==匚>土=丁=ㄡ>三>十=人=厂>二>一。
技术实现思路
在不限制文字代码的码元数量的前提下,用尽量少的码元表示文字结构全部要素的方法,就是以拓扑字根为基础构造组合字根,并用包含尽量多的结构要素的组合字根表示文字,避免了舍弃局部结构。比如“缘”字,全部结构用拓扑字根表示出来是:“丁厂一丁厂上乍厂丫”如果把“丁厂一”组合成一个字根用“纟”表示,“丁厂上”组合成一个字根用“彑”表示,“乍厂丫”组合成一个字根用“豕”表示,则全部结构用组合字根表示出来是:“纟彑豕”,只用了三个字根。对于笔划较多的字来说,组合字根能有效地降低码元数量,减少击键次数,同时反映文字全部结构。组合字根是由二个以上拓扑字根组合而成的较大字根,也是常用的汉字结构部件或独体字。对于输入法程序而言,组合字根在效果上类似于若干个拓扑字根的连续输入,相当于把若干个拓扑字根打包之后一键输入。它们也与拓扑字根共用键位,当摁下本文档来自技高网
...

【技术保护点】
1.一种汉字完整结构编码方法,其特征在于,把若干个拓扑字根组合成较大的字根,再用组合字根结合拓扑字根表示汉字,能够以平均每个字少于五位的码元数量,表示常用简体字的完整结构。/n

【技术特征摘要】
1.一种汉字完整结构编码方法,其特征在于,把若干个拓扑字根组合成较大的字根,再用组合字根结合拓扑字根表示汉字,能够以平均每个字少于五位的码元数量,表示常用简体字的完整结构。


2.如权利要求1所述的编码方法,其特征在于,组合字根分成“笔型”、“笔数”、“事物”三个大组,各大组都在计算机键盘的二十六个字母,十个数字,以及“`”、“[”、“]”、“\”四个符号键上,分配至少一个字根。


3.如权利要求1和2所述的编码方法,其特征在于,笔型组、笔数组、事物组三个大组中,各个形状相同或相似的字根再编成小组,其小组的字根成员都在键盘的同一键位上;总共五十二个字根小组是:(1)夕、歹;(2)饣、尔;(3)夂、攵;(4)勹、勺;(5)午、(6)扌、(7)力、七;(8)刀、匕;(9)习、刁;(10)辶、之;(11)ㄎ、亏;(12)云;(13)五、丑;(14)万、方;(15)酉、西;(16)黑、熏;(17)廿、甘;(18)片、爿;(19)斤、斥;(20)爪、瓜;(21)尹、肀;(22)臼、;(23)东、(24)(25)艮;(26)母、毋;(27)尢、旡;(28)(29)贝、见;(30)牛、(31)发、友;(32)手、毛;(33)心、必;(34)足、(35)巾、(36)矛、予;(37)水、氺;(38)雨、兩;(39)山、彐;(40)纟、幺、乡;(41)小、少、(42)示;(43)氏、氐、(44)巨、臣、(45)央、夬;(46)白、自、(47)正、疋、(48)羊、(49)鸟、乌、(50)支、攴、殳;(51)耒、未、末;(52)衣、农、


4.如权利要求1和2所述的编码方法,其特征在于,字根的手机虚拟键盘由4×10的矩阵排列的四十个键位构成,拓扑组、笔型组、笔数组、事物组各有一个字根,显示在键位的左下、左上、右上、右下的某一个方位,每组字根呈现为不同的颜色。


5.如权利要求1和2所述的编码方法,其特征在于,在键盘上显示的笔型组字根,依据首笔笔划的形状结邻排列;在键盘上显示的笔数组字根,依据笔划的数目结邻排列;在键盘上显示的事物组字根,依据事物的类型结邻排列。


6.如权利要求1和2所述的编码方法,其特征在于,“事物”组字根在计算机键盘上的分布是,字根“龙”、“鱼...

【专利技术属性】
技术研发人员:陈非
申请(专利权)人:陈非
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1