【技术实现步骤摘要】
一种用于输入和检索的汉字数字化编码技术方法
[0001]本专利技术属于汉字字形数字化的编码技术方法,能够应用于汉字电子键盘输入和汉字检索。
技术介绍
[0002]目前汉字编码主要有音码、音形码和形码三大类。
[0003]音码包括全拼、双拼和简拼,其难以解决的主要问题是辨识度低、重码率高,不适用于汉字大字集的编码。音形码技术比音码技术有所改进,但没有根本性的改变。
[0004]形码的主要类型有字根码、笔画码,还有少量用数字指代具体笔形、字根、笔画的数字码(如四角号码)。笔画码难以解决的主要问题是效率极低。字根码难以解决的主要问题是码元完全束缚于汉字原形、无概括性,字根虽多犹缺、难记易忘。数字码难以解决的主要问题是数字化限定在表象层面,所用数字只是笔形、字根、笔画的编号,增多一重影射关系,既失直观又更繁琐。
技术实现思路
[0005]与以往“笔形编号”“字根编号”“拼笔编号”等数字编码技术方法不同,本专利技术分别使用10个和26组数字作为码元,对汉字进行数值模式和数符模式的编码,主要特征是以汉字笔画赋值为基础,用独创的提值方法计提出各种汉字形状隐含的抽象量值,直观显化提值组件的笔画载量及彼此量差,摆脱了汉字具体外形的束缚,有效解决了既往各种汉字编码方法难以解决的系列难题,从字形维度真正地而非表象地实现了汉字数字化;所用技术方法具有高度的概括性、辨识性和效率性,码元极少、规则简明、重码率低,适应汉字大小字集和词库的编码,能够广泛应用于汉字输入和检索。
[0006]本专利技术的提值操作 ...
【技术保护点】
【技术特征摘要】
1.作为用于输入和检索的汉字数字化编码技术方法,本发明的主要特征是,通过对汉字笔画进行赋值,并对提值组件(即编码对应的作为提值对象的汉字组件)所含的笔画量值进行提值,用直接表达提值结果的10个数字码元组成字词的数值模式编码,用表达提值结果及提值组件属类的26组数字码元组成字词的数符模式编码。2.如权利要求1所述的编码方法,对汉字基本笔画进行赋值处理的特征是:(1)每种基本笔画均确定一个整数基本量值,具体赋值是:笔画赋值横笔、提笔1点笔、与点笔配对的撇笔1竖笔、撇笔、与撇笔配对的点笔、捺笔2折笔首折3,每增加一折相应增值1(2)特殊部位的指定笔画,在基本量值的基础上,再增加一定的量值。3.如权利要求1所述的编码方法,对提值组件和单字进行分型,作为标识类属和配置码额等的主要依据,特征是:(1)从结构特征的角度,将提值组件分为如下类型:
❶
所有组件分为两种一级类型:
①
整一组件,
②
块合组件;
❷
整一组件再分为三种二级类型:
①
散聚组件,
②
空框组件,
③
笔串组件;
❸
块合组件再分为五种二级类型:
①
框串组件,
②
字串组件,
③
串附组件,
④
闭包组件,
⑤
侧罩组件;(2)一个块合组件在两码、四码或五码对应的情况下,应作如下分离:
❶
框串组件,分离为主串笔画(简称串件)和被串的框体(简称框体)两个部分;
❷
字串组件,切分为基本无损和符合直观的一个或若干个成字、组件;
❸
串附组件,分离为串织块件(简称串块)和附挂笔画(简称附笔)两个部分;
❹
闭包组件和侧罩组件,分离为外体块件(简称外件)和内体块件(简称内件)两个部分;(3)从所处位置的角度,将提值组件分为:
❶
字件(由整一组件构成的整字);
❷
列件(由一个整一组件构成的分列字的一个整列,或一码对应的由多个组件构成的分列字的一个整列)及层块(列件再分出的层);
❸
层件(由一个整一组件构成的分层字的一个整层,或一码对应的由多个组件构成的分层字的一个整层)及列块(层件再分出的列);
❹
外件以及外块(外件再分出的块件)和内件以及内块(内件再分出的块件);
❺
笔组;(4)笔对组合不足两笔的,仅有的一笔亦视为笔组;对两笔构成的组件中的一笔以及单折笔分离出的第一折折前的起笔再提值的,该笔亦视为笔组;(5)为使表述简明,用字母a、b、c指称列件及列块、层件及层块的排列顺序;(6)将单字字型分为:
❶
整一字,即由整一组件构成的,不能再作左右分列、上下分层或内外分块的字;
❷
分列字,包括两列字和三列字;
❸
分层字,包括两层字和三层字;(7)实际分为四层(非层块)的字,第一层和第二层合并视为第一层,归为三层字;实际分为五层的字,第一层和第二层合并视为第一层,第三层和第四层合并视为第二层,归为三层字;(8)块合组件分离后的部分,根据其所处的位置,相应视为列件或列块、层件或层块,整字也相应按分列字或分层字处理;(9)除有明显分隔的自然分层外,在两码、四码或五码对应的情况下,将直观可分离的
粘接组件也作分离处理;(10)不同类型的单字,结合编码配额,按规则进行组件定位和提值。4.如权利要求1所述的编码方法,在设定编码限值的基础上,根据编码与组件的对应关系,对不同构成和量值的组件分别设定提值规则,特征是:(1)设定编码的最大量值上限为10(超过10的,简称超限值);(2)一码对应不同数量组件的提值规则:
❶
对应一个整一组件的,直接提值;
❷
对应两个以上组件(包括分离后形成的组件)的,合并后提值;但对应三个列块(非列件)时,只就中间的列块提值(简称取中);(3)两码对应不同数量组件的提值规则:
❶
对应一个整一组件的,第一码对组件整体提值,第二码对组件的首末笔提值;
❷
对应一个两笔构成的组件的,第一码对组件整体提值,第二码对组件的首笔或量值最大的一笔提值;
❸
对应两个列块、层块或内块、外块的,以“能分不合”为原则,按照书写顺序和各码定位设置,分别提值;
❹
对应三个列块、层块或内块、外块的,按照各码定位设置,第一码对应前两个组件合并提值,第二码对应末一个组件提值;但对应三个列块(非列件)时,只就中间的列块提值(即取中);
❺
对应四个列块、层块或内块、外块的,按照各码定位设置,第一码对应前两个组件合并提值,第二码对应后两个组件合并提值;(4)一码对应一个超限值的整一组件时,将对应组件简缩为“前三笔+末一笔”构成的笔组提值;(5)一码对应两个合计超限值的组件时,根据提值组件定位设置,将对应组件简缩为“前一组件的首末笔+末一组件的首末笔”构成的笔组提值;(6)一码对应三个合计超限值的组件时,根据提值组件定位设置,将对应组件简缩为“前一组件的首笔+次一组件的首笔+末一组件的首末笔”构成的笔组提值;(7)简缩的笔组仍超限值的,用编码最大值指代。5.如权利要求1所述的编码方法,在四码长时,对指定的部分两列字和三列字的a列,设置带并处理,特征是:(1)a列由一个整一组件构成的,第一码对该组件提值,第二码对由该组件首末笔和b列首末笔构成的笔组进行提值(简称带并);(2)a列由两个以上组件构成的,将量值最小的组件或指定组件和b列首末笔合成笔组,进行提值;(3)带并形成的笔组超限值的,用编码最大限值指代。6.如权利要求1所述的编码方法,在设定编码长度的基础上,确定字内各部分的编码配额和各码对应组件,编制相互协调的字词编码,特征是:(1)编码标准长度为4,可加长为5;(2)按照均衡、自然、简易的原则,设置各码对应的提值组件,并将单字第一码和第三码作为关键码位设置;(3)整一字的码额配置和组件定位是:
❶
四码=
①
字件1码+
②
前两笔1码+
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。