当前位置: 首页 > 专利查询>薛昌熵专利>正文

泛字符编解码方法及系统技术方案

技术编号:24757314 阅读:42 留言:0更新日期:2020-07-04 09:25
本发明专利技术公开了一种泛文本字符编码解码方法及系统。主要方法包括:自同步,以末尾字节首位为0作为码元分隔符;编码时将字符码点拆解为区号、语号、字号,以区号划分字节长度和结构,以语号作为前缀,以字号作为偏移量组成码元序列;解码时将序列按照码元分割后,依次读出区号、语号、字号,再组成字符。一个码元可存储一个或多个字符,同一码元中共用一个区号和语号,存储一个或多个字号,对应一个或多个字符。其中的二进制区自定义存储二进制,以储二进制、指令、新语言,且隔离令符、字符。本发明专利技术涉及数据存储传输领域,通过该方法,实现省空间、高效且安全地存储泛文本,适合独排混排全球各类文字、混排二进制文本以及自定义文字等多种分布情况。

Universal character encoding and decoding method and system

【技术实现步骤摘要】
泛字符编解码方法及系统
本专利技术涉及编解码领域,尤其涉及泛文本字符编解码方法和系统。
技术介绍
计算机采用二进制存储数据,字符也需要转换成二进制存储。字符编码是为收录的字符集制定计算机编码。典型的字符集有ASCII、GB2312、Unicode。典型的编码方式有ASCII、GB2312、GB18030、UTF16、UTF8。通常字符集与编码方式搭配使用。Unicode试图收录所有字符,目前是最流行的跨语言字符集。上述编码或录字少,或宽字等缺陷,或费空间,或不支持编码二进制。字符经常与“\n”、“\0”等指令转义混编,既不语义专一也不隔离安全。目前Unicode私有区自定义空间很小,不能满足自定义混编二进制的需求。
技术实现思路
因此,本专利技术设计一种通用的省空间的泛文本字符编码方法。基于上述目的,本专利技术提供了一种泛文本编码方法,包括:获得待编码字符的码点;将字符码点分解为区号、语号、字号;区号表示码元结构,码元中除去表示区号的位为数据位;语号表示该语言文字种类;字号表示该字符在该类语言文字中的编号;使本文档来自技高网...

【技术保护点】
1.一种泛文本字符编码算法,其特征包括:对待编码字符码点逐个读出其编码的区号、语号、字号;由区号、语号、字号共同组合成编码码元;码元变长,码元仅末尾字节首位为0,非末尾字节首位为1,依此自同步,长度无限制;将码元拼接为编码序列。/n

【技术特征摘要】
1.一种泛文本字符编码算法,其特征包括:对待编码字符码点逐个读出其编码的区号、语号、字号;由区号、语号、字号共同组合成编码码元;码元变长,码元仅末尾字节首位为0,非末尾字节首位为1,依此自同步,长度无限制;将码元拼接为编码序列。


2.根据权利1,其特征在于:根据码元长度与编字数量和内容,将编码区分为单字节、双字节、三字节、四节三字、四节双字、四节二进制等几种结构,每个结构对应一个区号,每个码元由区号、字号、一个或多个字号存储一个或多个字符,按照各自区的方法如下编码:单字节区每个码元只有一个字节长,与ASCII一一对应;双字节区码元有两个字节,存储一个字符,存储常用混排字符;三字节区码元有三个字节,存储一个字符,存储罕用字符;四节三字区码元有四个字节,存储三个字符,共用区号、语号,可容纳1~3个字号,每字号8位,用以存储常用独排字符,实现压缩存储;四节双字区码元有四个字节,存储两个字符,共用区号、语号,可容纳1~2个字号,每字号8位,用以存储次常用字母,实现压缩存储;四字节二进制区码元有四个字节,存储24位二进制,用以存储二进制、新语言、自定义等内容。


3.一种泛文本字符解码方法,其特征包括:将编码序列通过以首位为0得字节作为码元末尾字节,分割码元;根据码元长度、前缀、偏移量读出区号、语号、字号;根据区号、语号、字号组成码点,获得原始字符。

【专利技术属性】
技术研发人员:薛昌熵
申请(专利权)人:薛昌熵
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1