【技术实现步骤摘要】
泛字符编解码方法及系统
本专利技术涉及编解码领域,尤其涉及泛文本字符编解码方法和系统。
技术介绍
计算机采用二进制存储数据,字符也需要转换成二进制存储。字符编码是为收录的字符集制定计算机编码。典型的字符集有ASCII、GB2312、Unicode。典型的编码方式有ASCII、GB2312、GB18030、UTF16、UTF8。通常字符集与编码方式搭配使用。Unicode试图收录所有字符,目前是最流行的跨语言字符集。上述编码或录字少,或宽字等缺陷,或费空间,或不支持编码二进制。字符经常与“\n”、“\0”等指令转义混编,既不语义专一也不隔离安全。目前Unicode私有区自定义空间很小,不能满足自定义混编二进制的需求。
技术实现思路
因此,本专利技术设计一种通用的省空间的泛文本字符编码方法。基于上述目的,本专利技术提供了一种泛文本编码方法,包括:获得待编码字符的码点;将字符码点分解为区号、语号、字号;区号表示码元结构,码元中除去表示区号的位为数据位;语号表示该语言文字种类;字号表示该字符在该类 ...
【技术保护点】
1.一种泛文本字符编码算法,其特征包括:对待编码字符码点逐个读出其编码的区号、语号、字号;由区号、语号、字号共同组合成编码码元;码元变长,码元仅末尾字节首位为0,非末尾字节首位为1,依此自同步,长度无限制;将码元拼接为编码序列。/n
【技术特征摘要】
1.一种泛文本字符编码算法,其特征包括:对待编码字符码点逐个读出其编码的区号、语号、字号;由区号、语号、字号共同组合成编码码元;码元变长,码元仅末尾字节首位为0,非末尾字节首位为1,依此自同步,长度无限制;将码元拼接为编码序列。
2.根据权利1,其特征在于:根据码元长度与编字数量和内容,将编码区分为单字节、双字节、三字节、四节三字、四节双字、四节二进制等几种结构,每个结构对应一个区号,每个码元由区号、字号、一个或多个字号存储一个或多个字符,按照各自区的方法如下编码:单字节区每个码元只有一个字节长,与ASCII一一对应;双字节区码元有两个字节,存储一个字符,存储常用混排字符;三字节区码元有三个字节,存储一个字符,存储罕用字符;四节三字区码元有四个字节,存储三个字符,共用区号、语号,可容纳1~3个字号,每字号8位,用以存储常用独排字符,实现压缩存储;四节双字区码元有四个字节,存储两个字符,共用区号、语号,可容纳1~2个字号,每字号8位,用以存储次常用字母,实现压缩存储;四字节二进制区码元有四个字节,存储24位二进制,用以存储二进制、新语言、自定义等内容。
3.一种泛文本字符解码方法,其特征包括:将编码序列通过以首位为0得字节作为码元末尾字节,分割码元;根据码元长度、前缀、偏移量读出区号、语号、字号;根据区号、语号、字号组成码点,获得原始字符。
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。