当前位置: 首页 > 专利查询>吴礼明专利>正文

一种二进制极短码字符词编码集的构建方法技术

技术编号:33726951 阅读:17 留言:0更新日期:2022-06-08 21:21
本发明专利技术为一种二进制极短码字符词编码集的构建方法,以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,首先以二进制短码字节长度为基础,通过特定比例来获得二进制极短码字节长度,然后在二进制极短码的字节长度的位数上以整体位数作为分隔点来构建二进制双状态极短码编码,而后在以二进制双状态极短码编码生成二进制四级极短码编码结构来对应字符词领域的二进制短码集、长码集、超长码集,构建一个统一的可扩展的二进制字符词编码库的方法。本发明专利技术为一种原创技术,突破了计算机协议层的技术,可以归属于计算机的底层逻辑技术,也是属于一种全领域级的原创发明专利技术。而这种突破计算机技术的底层逻辑技术的发明专利技术,会对原有的计算机技术产生全方位的突破,对计算机的编码、存储协议、指令集操作码等产生革命性改变。生革命性改变。生革命性改变。

【技术实现步骤摘要】
一种二进制极短码字符词编码集的构建方法
一.

[0001]本专利技术是一种原创技术,是一种突破了计算机协议层的技术,可以归属于计算机的底层逻辑技术。 本专利技术可对现有的二进制字符编码集的短码集、长码集进行规定和编排,也能对衍生的二进制词集超长码 集进行规定和编排,从而构建出以二进制极短码为编码单元集的包含二进制短码、长码、超长码的编码库, 并对其中的高频使用的二进制短码、长码连续输入单元、超长码等编码单元或编码单元集进行特定规定, 使其输入单元字节长度缩短。
二.
技术介绍

[0002]本专利技术是一种原创技术,在构建二进制极短码的情况下,能够将该领域的二进制短码编码集、长码编 码集、衍生的词超长码编码集进行有序编辑,构建可扩展的统一编码库。说到现有的字符集,无论是ASCII 字符集,GB2312字符集,GB18030字符集,还是31位的ISO 10646全字符集,对于字符集中的高频使用的 字符都没有进行特别处置,如ASCII字符集中的空格键,各字符集中的标点符号。空格键和标点符号这些 在一般情况下都是独立输入单元,又是高频使用单元,如果能够通过技术手段实现极短码,这对于计算机 的性能将有很大的提升;而阿拉伯数字和字母一般情况下是属于连续输入单元,字母的连续输入就是单词 了,而本专利技术是在现有字符集的基础上,通过缩小短二进制编码字节长度,结合现有的26键大键盘多语 种输入法和10键小键盘多语种输入法,构建包括多语种词汇的输入码即词字符合集编码的全新技术。
三.
技术实现思路

[0003]本专利技术是一种原创技术,突破了计算机协议层的技术,可以归属于计算机的底层逻辑技术,也是属于 一种全领域级的原创专利技术。而这种突破计算机技术的底层逻辑技术的专利技术,会对原有的计算机技术产生全 方位的突破,对计算机的编码、存储协议、指令集操作码等产生革命性改变。
[0004]一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,首先以二进制短码字 节长度为基础,通过特定比例来获得二进制极短码字节长度,然后在二进制极短码的字节长度的位数上以 整体位数作为分隔点来构建二进制双状态极短码编码,而后在以二进制双状态极短码编码生成二进制四级 极短码编码结构来对应字符词领域的二进制短码集、长码集、超长码集,构建一个统一的可扩展的二进制 字符词编码库的方法,其特征有:
[0005]1.二进制极短码字节长度是按照二进制短码的字节长度通过特定比例来获得,其特定比例范围为小于1并 且大于二分之一:二进制极短码的字节长度最大值要比二进制短码的字节长度小一位;最小值分两种情况, 当二进制短码的字节位数为偶数时,二进制极短码的字节长度为二进制短码字节位数的二分之一数值加上 1,当二进制短码的字节位数为奇数时,二进制极短码的字节长度为二进制短码字节位数的二分之一数值 加上0.5;二
进制极短码的字节长度所表示最大二进制数值应大于或等于十进制数值16;
[0006]2.在二进制极短码的字节长度位数上以整体位数作为分隔点将二进制极短码的编码分为两部分编码集合, 对应的二进制编码集合为二进制独立编码单元集合和二进制复合编码单元集合:二进制独立编码单元对应 的是高频使用二进制短码编码,一个编码对应一个高频使用二进制短码编码,为一个完整二进制编码单元; 二进制独立编码单元集合的编码单元作为标识二进制复合编码的结尾标识的二进制独立编码单元;二进制 复合编码单元通过分级结构对应的余下的短码、长码、超长码的二进制编码单元,二进制复合编码单元必 须加上二进制独立编码单元才能构成完整的二进制编码单元集;
[0007]3.二进制极短码的双状态是在二进制极短码的字节长度位数上以整体位数作为分隔点将二进制极短码的 编码分为两部分编码集来构建的,二进制极短码双状态的字节长度位数分隔点最大值应比二进制极短码的 字节长度位数小一位,字节长度位数分隔点最小值为一位;如:字节长度为四位的二进制极短码,字节长 度分隔点最大值就是三位,也就是二的三次方总共8个二进制独立编码单元和8个二进制复合编码单元; 字节长度分隔点最小值为一位,也就是二的一次方共2个二进制独立编码单元和14个二进制复合编码单 元;
[0008]4.二进制复合编码单元由二进制基础复合编码单元和二进制特殊复合编码单元构成:二进制特殊复合编码 单元由分类码和扩展码组成,根据字符编码领域的短码、长码、超长码的技术特征,设定两个的二进制复 合编码作为分类码,分别是字符分类码和语种分类码,设定两个二进制复合编码作为扩展码,一个为平级 扩展码,一个为下级扩展码;基础复合编码的个数为复合编码个数减去特殊复合编码个数的值;
[0009]5.以二进制双状态编码单元生成的二进制四级编码结构单元的前三级编码结构单元为封闭型结构编码单 元集,第四级编码结构单元为开放型结构单元,分别对应:第一级编码结构的二进制编码单元集为一个二 进制独立编码单元单独构成的二进制编码集;第二级编码结构的二进制编码双单元集为一个二进制基础复 合编码单元加一个二进制独立编码单元构成的二进制编码集;第三级编码结构的二进制编码三单元集为两 个二进制基础复合编码加一个二进制独立编码单元构成的二进制编码集;第四级编码结构的二进制编码多 单元集为三个及三个以上的二进制复合编码单元加一个二进制独立编码单元构成的二进制编码集;第四级 编码结构为开放型二进制编码结构,以二进制分类码或二进制分类码加扩展码为开始编码,分类码下设二 级分类码:二级分类码的第一次分类个数是二进制基础复合编码个数的值,并支持通过平级扩展码无限展 开扩展;通过下级扩展码对二级字符分类码或二级语种分类码向下级结构进行三级扩展;下级扩展码在中 文语种编码的字扩展到词或词扩展短句时充当引导编码;下级扩展码在字符分类码的阿拉伯数字编码的整 数扩展到小数后的数字时在充当引导编码的同时还充当小数点编码:第四级编码结构为开放型二进制编码 结构,支持字符、词、短句对应多个的二进制编码多单元集。
[0010]如:第四级编码结构的语种分类码,其二级分类码,通过平级扩展码支持语种数量的扩展,平级扩展 指的是在编码库上属于同级编码,平级扩展码就是同级编码数扩展的引导编码;二级语种分类码支持下级 扩展码进行三级扩展,下级扩展码就是向下级进行编码数扩展的引导编码,以支持构建同语种多输入法编 码集需求:如中文的26键有王码输入法、拼音输入法法、音形码输入法、标记式输入法,10键同样也有 多种输入法;二级字符分
类码支持下级扩展码进行三级扩展,以支持字符编码的分区数量扩展。
[0011]一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码 字节长度为7位的ASCII编码集时,极短码字节长度取最小值4位,双状态的字节长度位数分隔点为一位, 具体方案如下:
[0012]1.二进制独立编码单元编码数值为二的一次方,共两个,二进制编码0000和0001,二进制复合编码单元 为二进制编码0010至1111,以十个基础复合编码集和四个特殊复合编码集构成,四个特殊复合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,首先以二进制短码字节长度为基础,通过特定比例来获得二进制极短码字节长度,然后在二进制极短码的字节长度的位数上以整体位数作为分隔点来构建二进制双状态极短码编码,而后在以二进制双状态极短码编码生成二进制四级极短码编码结构来对应字符词领域的二进制短码集、长码集、超长码集,构建一个统一的可扩展的二进制字符词编码库的方法,其特征有:(1).二进制极短码字节长度是按照二进制短码的字节长度通过特定比例来获得,其特定比例范围为小于1并且大于二分之一:1)二进制极短码的字节长度最大值要比二进制短码的字节长度小一位;2)最小值分两种情况,当二进制短码的字节位数为偶数时,二进制极短码的字节长度为二进制短码字节位数的二分之一数值加上1,当二进制短码的字节位数为奇数时,二进制极短码的字节长度为二进制短码字节位数的二分之一数值加上0.5;3)二进制极短码的字节长度所表示最大二进制数值应大于或等于十进制数值16;(2).在二进制极短码的字节长度位数上以整体位数作为分隔点将二进制极短码的编码分为两部分编码集合,对应的二进制编码集合为二进制独立编码单元集合和二进制复合编码单元集合:1)二进制独立编码单元对应的是高频使用二进制短码编码,一个编码对应一个高频使用二进制短码编码,为一个完整二进制编码单元;2)二进制独立编码单元集合的编码单元作为标识二进制复合编码的结尾标识的二进制独立编码单元;3)二进制复合编码单元通过分级结构对应的余下的短码、长码、超长码的二进制编码单元,二进制复合编码单元必须加上二进制独立编码单元才能构成完整的二进制编码单元集;(3).二进制极短码的双状态是在二进制极短码的字节长度位数上以整体位数作为分隔点将二进制极短码的编码分为两部分编码集来构建的,二进制极短码双状态的字节长度位数分隔点最大值应比二进制极短码的字节长度位数小一位,字节长度位数分隔点最小值为一位;(4).二进制复合编码单元由二进制基础复合编码单元和二进制特殊复合编码单元构成:1)二进制特殊复合编码单元由分类码和扩展码组成,根据字符编码领域的短码、长码、超长码的技术特征,设定两个的二进制复合编码作为分类码,分别是字符分类码和语种分类码,设定两个二进制复合编码作为扩展码,一个为平级扩展码,一个为下级扩展码;2)基础复合编码的个数为复合编码个数减去特殊复合编码个数的值;(5).以二进制双状态编码单元生成的二进制四级编码结构单元的前三级编码结构单元为封闭型结构编码单元集,第四级编码结构单元为开放型结构单元,分别对应:1)第一级编码结构的二进制编码单元集为一个二进制独立编码单元单独构成的二进制编码集;2)第二级编码结构的二进制编码双单元集为一个二进制基础复合编码单元加一个二进制独立编码单元构成的二进制编码集;3)第三级编码结构的二进制编码三单元集为两个二进制基础复合编码加一个二进制独立编码单元构成的二进制编码集;4)第四级编码结构的二进制编码多单元集为三个及三个以上的二进制复合编码单元加一个二进制独立编码单元构成的二进制编码集;5)第四级编码结构为开放型二进制编码结构,以二进制分类码或二进制分类码加扩展码为开始编码,分类码下设二级分类码:

二级分类码的第一次分类个数是二进制基础复合编码个数的值,并支持通过平级扩展码无限展开扩展;

通过下级扩展码对二级字符分类码或二级语种分类码向下级结构进行三级扩展;

下级扩展码在中文语种编码的字扩展到词或词扩展短句时充当引导编码;

下级扩展码在字符分类码的阿拉伯数字编码的整数扩展到小数后的数字时在充当引导编码的同时还充当小数点编码;

第四级编码结构为开放型二进制编码结构,支持字符、词、短句对应多
个的二进制编码多单元集。2.根据权利要求1所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码字节长度为7位的ASCII编码集时,极短码字节长度取最小值4位,双状态的字节长度位数分隔点为一位,具体方案如下:(1).二进制独立编码单元编码数值为二的一次方,共两个,二进制编码0000和0001,二进制复合编码单元为二进制编码0010至1111,以十个基础复合编码集和四个特殊复合编码集构成,四个特殊复合编码分别是平级扩展码、下级扩展码、字符分类码、语种分类码,其中特殊复合编码的对应关系为:1100对应“平级扩展码”,1101对应“下级扩展码”,1110对应“字符分类码”,1111对应“语种分类码”;(2).四位二进制极短码的双状态四级编码结构为:第一级编码结构的二进制编码单元集为两个带结尾标识二进制独立编码单元,对应字符为:1)0000对应“回车键”,0001对应“空格键”;2)第二级编码结构的二进制编码双单元集为十个二进制基础复合编码分别加二进制独立编码0000“回车键”构成,十个二进制基础复合编码在二级编码结构中的配对编码为六个常用标点符号加四个运算符号:0010对应标点符号“,”,0011对应标点符号“:”,0100对应标点符号“;”,0101对应标点符号“。”,0110对应标点符号“!”,0111对应标点符号“?”,1000对应运算符号“+”,1001对应运算符号
“‑”
,1010对应运算符号“*”,1011对应运算符号“/”;3)第三级编码结构的二进制编码三单元集为十个二进制基础复合编码两两相交加上二进制独立编码0000“回车键”构成,共一百个,对应七位ASCII字符集的其他字符;4)第一、二、三级编码结构的二进制编码单元集所组成的封闭型字符编码个数112个;5)第四级编码结构的二进制编码多单元集以三个以上包括三个的二进制复合编码加上带二进制独立编码0000“回车键”或0001“空格键”构成;6)第四级编码结构为开放型编码结构,以分类码(字符分类码或语种分类码)或分类码(字符分类码或语种分类码)加平级扩展码为开始编码,字符分类码下设二级分类码:

二级字符分类码对应十个二级字符分类码,对应字符编码可包括112个第一、二、三级结构已完成对应的七位ASCII字符集编码,以通用和专业两个分类划分字符编码,通过平级扩展码支持编码类型数量扩展,通过下级扩展码进行结构的二次扩展;

语种分类码以现有的十键输入法能够覆盖的语种作为二级编码,通过平级扩展码支持语种数量的扩展;

二级语种分类码通过下级扩展码进行三级扩展,以支持构建同语种多输入法编码集的需求;

十个二进制基础复合编对应语种编码时,对应的是十键输入法,中文的字到词组或词组到短句的扩展码采用下级扩展码作为引导编码;

十个二进制基础复合编码对应阿拉伯数字连续输入时,对应的是阿拉伯数字0~9,小数点以下级扩展码作为引导编码和小数点对应编码。3.根据权利要求1所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码字节长度为7位的ASCII编码集时,极短码字节长度取5位,双状态的字节长度位数分隔点为四位,具体方案如下:(1).二进制独立编码单元编码集的数值为二的四次方,共十六个,二进制编码由00000至01111,二进制复合编码单元集为二进制编码由10000至11111,以一个平级扩展码、一个下级扩展码、一个字符分类码、一个语种分类码和十二个基础复合编码构成,其中特殊复合编码的对应关系为:11100对应“平级扩展码”,11101对应“下级扩展码”,11110对应“字符分类码”,11111对应“语种分类码”;(2).五位二进制极短码的双状态四级编码结构为:1)第一级编码结构的二进制编码单元集为十六个带结尾标识二进制独立编码单元,对应字符为:00000对应“回车键”,00001对
应“空格键”,00010对应标点符号“,”,00011对应标点符号“、”,00100对应标点符号“:”,00101对应标点符号“;”,00110对应标点符号“。”,00111对应标点符号“`”(标点符号单引号),01000对应点符号“!”,01001对应标点符号“?”,01010对应符号“%”,01011对应运算符号“+”,01100对应运算符号
“‑”
,01101对应运算符号“*”,01110对应运算符号“/”,01111对应运算符号“=”;2)第二级编码结构的二进制编码双单元集为十二个二进制基础复合编码加二进制独立编码00000“回车键”构成,十二个二进制基础复合编码在二级编码结构中的配对编码为十一个标点符号:10000对应标点符号
“‑”
,10001对应标点符号“~”,10010对应标点符号
“…”
,10011对应标点符号
“‑”
,10100对应标点符号“(”,10101对应标点符号“)”,10110对应标点符号
““”
(双引号前部分),10111对应标点符号
“””
(双引号后部分),11000对应标点符号“...

【专利技术属性】
技术研发人员:吴礼明
申请(专利权)人:吴礼明
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1