当前位置: 首页 > 专利查询>符晓君专利>正文

一种用于输入和检索的汉字数字化编码技术方法技术

技术编号:36090567 阅读:60 留言:0更新日期:2022-12-24 11:07
与以往“笔形编号”“字根编号”“拼笔编号”等数字编码技术方法不同,本发明专利技术分别使用10个和26组数字作为码元,对汉字进行数值模式和数符模式的编码,主要特征是以汉字笔画赋值为基础,用独创的提值方法计提出各种汉字形状隐含的抽象量值,直观显化提值组件的笔画载量及彼此量差,摆脱了汉字具体外形的束缚,有效解决了既往各种汉字编码方法难以解决的系列难题,从字形维度真正地而非表象地实现了汉字数字化;所用技术方法具有高度的概括性、辨识性和效率性,码元极少、规则简明、重码率低,适应汉字大小字集和词库的编码,能够广泛应用于汉字输入和检索。输入和检索。

【技术实现步骤摘要】
一种用于输入和检索的汉字数字化编码技术方法


[0001]本专利技术属于汉字字形数字化的编码技术方法,能够应用于汉字电子键盘输入和汉字检索。

技术介绍

[0002]目前汉字编码主要有音码、音形码和形码三大类。
[0003]音码包括全拼、双拼和简拼,其难以解决的主要问题是辨识度低、重码率高,不适用于汉字大字集的编码。音形码技术比音码技术有所改进,但没有根本性的改变。
[0004]形码的主要类型有字根码、笔画码,还有少量用数字指代具体笔形、字根、笔画的数字码(如四角号码)。笔画码难以解决的主要问题是效率极低。字根码难以解决的主要问题是码元完全束缚于汉字原形、无概括性,字根虽多犹缺、难记易忘。数字码难以解决的主要问题是数字化限定在表象层面,所用数字只是笔形、字根、笔画的编号,增多一重影射关系,既失直观又更繁琐。

技术实现思路

[0005]与以往“笔形编号”“字根编号”“拼笔编号”等数字编码技术方法不同,本专利技术分别使用10个和26组数字作为码元,对汉字进行数值模式和数符模式的编码,主要特征是以汉字笔画赋值为基础,用独创的提值方法计提出各种汉字形状隐含的抽象量值,直观显化提值组件的笔画载量及彼此量差,摆脱了汉字具体外形的束缚,有效解决了既往各种汉字编码方法难以解决的系列难题,从字形维度真正地而非表象地实现了汉字数字化;所用技术方法具有高度的概括性、辨识性和效率性,码元极少、规则简明、重码率低,适应汉字大小字集和词库的编码,能够广泛应用于汉字输入和检索。
[0006]本专利技术的提值操作由使用者自主进行,相当于自定编码;而且对不熟悉组件的提值可以自行即时解决,既不需要事先过多的死记硬背,也不需要临时查找字根分布图等作为辅助。
[0007]本专利技术的数值模式编码,可视为基础版编码;数符模式编码,可视为升级版编码。
[0008]对基本笔画赋值,是本专利技术最关键的技术点,也是汉字数字化最适当的切入点。
[0009]对汉字基本笔画赋值,相当于给提值组件注入了“显影剂”,使组件隐含的抽象数量要素得以显现。
[0010]汉字的横笔、提笔,可称为平展笔画,是最基本的笔画,赋予最小的量值。
[0011]汉字的点笔和与点配对的撇笔,可称为点状笔画,赋予最小的量值。
[0012]汉字的竖笔、撇笔和与撇配对的点笔以及捺笔,可称为纵伸笔画,赋予较大的量值。
[0013]汉字的折笔,可称为折连笔画,实际由多个笔画连接构成,赋予最大的量值。
[0014]本专利技术对特殊笔画加值,主要是为了增强辨识度、消除重码。主要有:

对底短横(如“士”“末”)、框内半短横(如“曰”“汩”),加值1;

对盖压捺笔的配对撇笔(如“人”),加值
1;对盖压撇笔的配对捺笔(如“入”),加值2;

全封框折笔(如“巳”),加值1;半封框折笔(如“已”),加值2。
[0015]整一组件,指不可再细拆为其他组件的组件。
[0016]散聚组件,指由若干笔画松散聚合构成的组件(如“上下止正”)。
[0017]空框组件,指由若干散笔聚合构成的、边框规整且内件固定为空的环闭组件(如“口”)。
[0018]笔串组件,指全部由笔画组成且全部串织在一起的组件(如“十丰又力”)。
[0019]块合组件,指可分为两个部分的组件。
[0020]框串组件,指四面闭包或三面环罩的框体有串笔穿出或穿过、且没有其他附挂笔画的组件(如“巾中弗由甲申事聿”)。
[0021]字串组件,指由一个贯通的长笔画将一个成字与其他成字或组件串连在一起的组件。对其切分举例说明如下:

将“果”切分为“田木”,

将“里”切分为“田土”,

将“重”切分为“千田土”,

将“我”切分为两列,

将“羲
⇣”
的b层切为两个列块,

将“戊”切分为“厂戈”两列(相关的例字有“咸威减臧藏”)。
[0022]串附组件,指在串块的上下或内部有附挂笔画的组件(如“土士木”、“干王五玉戈手”“内再两西雨弟甫臾丹舟母毋”)。
[0023]闭包组件,指外体是四面全封闭的框体的组件(如“日目田”)。
[0024]侧罩组件,指外件从两面或三面罩夹内件的组件(如“仄这建灰龙发”“左右石”“月同风”“贝见”“小水少心禾乖乘米鼎”)。
[0025]笔组包括从一个或多个组件中按一定顺序和一定数量择取的笔画组合(包括简缩后的笔画组合),以及这些笔画与另一个组件的组合。
[0026]视为分层的粘接组合,主要有:

在上部或下部的串附组件,与散聚组件或框体粘接的块合组件(如“立辛关羊矢古”),

在上部的散聚组件,与框体或者横起的折笔粘接的块合组件(如“尚学党商”)。这些组合组件分离后,基本符合直观习惯。
[0027]两个以上单横笔纵向排列构成的组件及单字(如“二”“三”)和两个以上单撇笔、单竖笔横向组成的组件及单字(如“川”),视为散聚组件和整一字(但“州”则视为分列字)。
[0028]一码对应两个以上列块或层块的例字:“辨辩辫器操瓤”。
[0029]一个层件或层块分为三个列块的例字:“樊攀率摔燕嬴羸

赢蠃
䇔”。
[0030]两码对应两个列块或层块的例字:“故郑短颃智禁繁”;两码对应三个层块的例字:“郭摸搞”;两码对应四个层块的例字:“攘瓤镶彀停”;两码对应五个层块的例字:“疆馕”。
[0031]不同词长的词语,其具体码额配置如下:

二字词,四码=

第一字2码+

第二字2码,五码=

第一字2码+

第二字3码;

三字词,四码=

第一字2码+

第二字1码+

第三字1码,五码=

第一字2码+

第二字2码+

第三字1码;

四字词,四码=

第一字1码+

第二字1码+

第三字1码+

第四字1码,五码=

第一字2码+

第二字1码+

第三字1码+

第四字1码;

五字以上词,四码=

第一字1码+

第二字1码+

第三字1码+

末一字1码,五码=

第一字1码+

第二字1码+

第三字1码+

第四字1码+

末一字1码。
[0032]数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.作为用于输入和检索的汉字数字化编码技术方法,本发明的主要特征是,通过对汉字笔画进行赋值,并对提值组件(即编码对应的作为提值对象的汉字组件)所含的笔画量值进行提值,用直接表达提值结果的10个数字码元组成字词的数值模式编码,用表达提值结果及提值组件属类的26组数字码元组成字词的数符模式编码。2.如权利要求1所述的编码方法,对汉字基本笔画进行赋值处理的特征是:(1)每种基本笔画均确定一个整数基本量值,具体赋值是:笔画赋值横笔、提笔1点笔、与点笔配对的撇笔1竖笔、撇笔、与撇笔配对的点笔、捺笔2折笔首折3,每增加一折相应增值1(2)特殊部位的指定笔画,在基本量值的基础上,再增加一定的量值。3.如权利要求1所述的编码方法,对提值组件和单字进行分型,作为标识类属和配置码额等的主要依据,特征是:(1)从结构特征的角度,将提值组件分为如下类型:

所有组件分为两种一级类型:

整一组件,

块合组件;

整一组件再分为三种二级类型:

散聚组件,

空框组件,

笔串组件;

块合组件再分为五种二级类型:

框串组件,

字串组件,

串附组件,

闭包组件,

侧罩组件;(2)一个块合组件在两码、四码或五码对应的情况下,应作如下分离:

框串组件,分离为主串笔画(简称串件)和被串的框体(简称框体)两个部分;

字串组件,切分为基本无损和符合直观的一个或若干个成字、组件;

串附组件,分离为串织块件(简称串块)和附挂笔画(简称附笔)两个部分;

闭包组件和侧罩组件,分离为外体块件(简称外件)和内体块件(简称内件)两个部分;(3)从所处位置的角度,将提值组件分为:

字件(由整一组件构成的整字);

列件(由一个整一组件构成的分列字的一个整列,或一码对应的由多个组件构成的分列字的一个整列)及层块(列件再分出的层);

层件(由一个整一组件构成的分层字的一个整层,或一码对应的由多个组件构成的分层字的一个整层)及列块(层件再分出的列);

外件以及外块(外件再分出的块件)和内件以及内块(内件再分出的块件);

笔组;(4)笔对组合不足两笔的,仅有的一笔亦视为笔组;对两笔构成的组件中的一笔以及单折笔分离出的第一折折前的起笔再提值的,该笔亦视为笔组;(5)为使表述简明,用字母a、b、c指称列件及列块、层件及层块的排列顺序;(6)将单字字型分为:

整一字,即由整一组件构成的,不能再作左右分列、上下分层或内外分块的字;

分列字,包括两列字和三列字;

分层字,包括两层字和三层字;(7)实际分为四层(非层块)的字,第一层和第二层合并视为第一层,归为三层字;实际分为五层的字,第一层和第二层合并视为第一层,第三层和第四层合并视为第二层,归为三层字;(8)块合组件分离后的部分,根据其所处的位置,相应视为列件或列块、层件或层块,整字也相应按分列字或分层字处理;(9)除有明显分隔的自然分层外,在两码、四码或五码对应的情况下,将直观可分离的
粘接组件也作分离处理;(10)不同类型的单字,结合编码配额,按规则进行组件定位和提值。4.如权利要求1所述的编码方法,在设定编码限值的基础上,根据编码与组件的对应关系,对不同构成和量值的组件分别设定提值规则,特征是:(1)设定编码的最大量值上限为10(超过10的,简称超限值);(2)一码对应不同数量组件的提值规则:

对应一个整一组件的,直接提值;

对应两个以上组件(包括分离后形成的组件)的,合并后提值;但对应三个列块(非列件)时,只就中间的列块提值(简称取中);(3)两码对应不同数量组件的提值规则:

对应一个整一组件的,第一码对组件整体提值,第二码对组件的首末笔提值;

对应一个两笔构成的组件的,第一码对组件整体提值,第二码对组件的首笔或量值最大的一笔提值;

对应两个列块、层块或内块、外块的,以“能分不合”为原则,按照书写顺序和各码定位设置,分别提值;

对应三个列块、层块或内块、外块的,按照各码定位设置,第一码对应前两个组件合并提值,第二码对应末一个组件提值;但对应三个列块(非列件)时,只就中间的列块提值(即取中);

对应四个列块、层块或内块、外块的,按照各码定位设置,第一码对应前两个组件合并提值,第二码对应后两个组件合并提值;(4)一码对应一个超限值的整一组件时,将对应组件简缩为“前三笔+末一笔”构成的笔组提值;(5)一码对应两个合计超限值的组件时,根据提值组件定位设置,将对应组件简缩为“前一组件的首末笔+末一组件的首末笔”构成的笔组提值;(6)一码对应三个合计超限值的组件时,根据提值组件定位设置,将对应组件简缩为“前一组件的首笔+次一组件的首笔+末一组件的首末笔”构成的笔组提值;(7)简缩的笔组仍超限值的,用编码最大值指代。5.如权利要求1所述的编码方法,在四码长时,对指定的部分两列字和三列字的a列,设置带并处理,特征是:(1)a列由一个整一组件构成的,第一码对该组件提值,第二码对由该组件首末笔和b列首末笔构成的笔组进行提值(简称带并);(2)a列由两个以上组件构成的,将量值最小的组件或指定组件和b列首末笔合成笔组,进行提值;(3)带并形成的笔组超限值的,用编码最大限值指代。6.如权利要求1所述的编码方法,在设定编码长度的基础上,确定字内各部分的编码配额和各码对应组件,编制相互协调的字词编码,特征是:(1)编码标准长度为4,可加长为5;(2)按照均衡、自然、简易的原则,设置各码对应的提值组件,并将单字第一码和第三码作为关键码位设置;(3)整一字的码额配置和组件定位是:

四码=

字件1码+

前两笔1码+

【专利技术属性】
技术研发人员:符晓君
申请(专利权)人:符晓君
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1