泛字符编解码方法及系统技术方案

技术编号：24757314 阅读：42 留言：0更新日期：2020-07-04 09:25

本发明专利技术公开了一种泛文本字符编码解码方法及系统。主要方法包括：自同步，以末尾字节首位为0作为码元分隔符；编码时将字符码点拆解为区号、语号、字号，以区号划分字节长度和结构，以语号作为前缀，以字号作为偏移量组成码元序列；解码时将序列按照码元分割后，依次读出区号、语号、字号，再组成字符。一个码元可存储一个或多个字符，同一码元中共用一个区号和语号，存储一个或多个字号，对应一个或多个字符。其中的二进制区自定义存储二进制，以储二进制、指令、新语言，且隔离令符、字符。本发明专利技术涉及数据存储传输领域，通过该方法，实现省空间、高效且安全地存储泛文本，适合独排混排全球各类文字、混排二进制文本以及自定义文字等多种分布情况。

Universal character encoding and decoding method and system

全部详细技术资料下载

【技术实现步骤摘要】
泛字符编解码方法及系统
本专利技术涉及编解码领域，尤其涉及泛文本字符编解码方法和系统。
技术介绍
计算机采用二进制存储数据，字符也需要转换成二进制存储。字符编码是为收录的字符集制定计算机编码。典型的字符集有ASCII、GB2312、Unicode。典型的编码方式有ASCII、GB2312、GB18030、UTF16、UTF8。通常字符集与编码方式搭配使用。Unicode试图收录所有字符，目前是最流行的跨语言字符集。上述编码或录字少，或宽字等缺陷，或费空间，或不支持编码二进制。字符经常与“\n”、“\0”等指令转义混编，既不语义专一也不隔离安全。目前Unicode私有区自定义空间很小，不能满足自定义混编二进制的需求。
技术实现思路
因此，本专利技术设计一种通用的省空间的泛文本字符编码方法。基于上述目的，本专利技术提供了一种泛文本编码方法，包括：获得待编码字符的码点；将字符码点分解为区号、语号、字号；区号表示码元结构，码元中除去表示区号的位为数据位；语号表示该语言文字种类；字号表示该字符在该类...

【技术保护点】
1.一种泛文本字符编码算法，其特征包括：对待编码字符码点逐个读出其编码的区号、语号、字号；由区号、语号、字号共同组合成编码码元；码元变长，码元仅末尾字节首位为0，非末尾字节首位为1，依此自同步，长度无限制；将码元拼接为编码序列。/n

【技术特征摘要】
1.一种泛文本字符编码算法，其特征包括：对待编码字符码点逐个读出其编码的区号、语号、字号；由区号、语号、字号共同组合成编码码元；码元变长，码元仅末尾字节首位为0，非末尾字节首位为1，依此自同步，长度无限制；将码元拼接为编码序列。

2.根据权利1，其特征在于：根据码元长度与编字数量和内容，将编码区分为单字节、双字节、三字节、四节三字、四节双字、四节二进制等几种结构，每个结构对应一个区号，每个码元由区号、字号、一个或多个字号存储一个或多个字符，按照各自区的方法如下编码：单字节区每个码元只有一个字节长，与ASCII一一对应；双字节区码元有两个字节，存储一个字符，存储常用混排字符；三字节区码元有三个字节，存储一个字符，存储罕用字符；四节三字区码元有四个字节，存储三个字符，共用区号、语号，可容纳1～3个字号，每字号8位，用以存储常用独排字符，实现压缩存储；四节双字区码元有四个字节，存储两个字符，共用区号、语号，可容纳1～2个字号，每字号8位，用以存储次常用字母，实现压缩存储；四字节二进制区码元有四个字节，存储24位二进制，用以存储二进制、新语言、自定义等内容。

3.一种泛文本字符解码方法，其特征包括：将编码序列通过以首位为0得字节作为码元末尾字节，分割码元；根据码元长度、前缀、偏移量读出区号、语号、字号；根据区号、语号、字号组成码点，获得原始字符。

【专利技术属性】
技术研发人员：薛昌熵，
申请(专利权)人：薛昌熵，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人