【技术实现步骤摘要】
生僻字的编码扩展方法、装置、存储介质及电子设备
本专利技术是涉及网络信息
,特别是涉及一种生僻字的编码扩展方法、装置、存储介质及电子设备。
技术介绍
目前,全社会各行业、组织机构等内部的大量IT系统以及人民群众所使用的电脑、手机等电子设备由于不同时期的不同厂商制造出品、开发实施,所使用的相关标准、字符集编码也多种多样。现有技术对字符集进行编码,常见的有3个体系:1、ASCII和ANSI编码体系:中国大陆有GB2312、GBK、GB18030几个国家和行业标准,港台有BIG5(地区标准CNS11643)。其中只有GB18030才是大字符集的编码,但GBK应用最广,包括大量的操作系统、数据库、中间件、内外接口、应用系统及打印机等硬件都采用或只支持GBK这种小字符集编码,或者更小的GB2312编码。在简体Windows操作系统中,微软并未真正支持GB18030,在大部分场景中还是使用GBK(代码页936)。2、EBCDIC编码体系:用于IBM的大型机和AS/400小型机,银行业应用较多,常用的 ...
【技术保护点】
1.一种生僻字的编码扩展方法,其特征在于,包括:/n获取第一输入信息、当前支持的第一编码以及待转换的第二编码,其中,第一编码为大字符集编码,第二编码为小字符集编码;/n将所述第一输入信息转换为第一编码的字节信息;/n判断所述字节信息中是否包括生僻字的字节编码序列;/n若所述字节信息中包括所述生僻字的字节编码序列,则将所述生僻字的字节编码序列转义为与第一编码以及第二编码约定格式对应的转义序列进行表示。/n
【技术特征摘要】
1.一种生僻字的编码扩展方法,其特征在于,包括:
获取第一输入信息、当前支持的第一编码以及待转换的第二编码,其中,第一编码为大字符集编码,第二编码为小字符集编码;
将所述第一输入信息转换为第一编码的字节信息;
判断所述字节信息中是否包括生僻字的字节编码序列;
若所述字节信息中包括所述生僻字的字节编码序列,则将所述生僻字的字节编码序列转义为与第一编码以及第二编码约定格式对应的转义序列进行表示。
2.根据权利要求1所述的编码扩展方法,其特征在于,判断所述字节信息中是否包括生僻字的字节编码序列包括:
当第一编码为GB18030编码时,若字节信息中存在合法的4字节编码序列表示的字符,则判断为包括生僻字的字节编码序列。
3.根据权利要求1所述的编码扩展方法,其特征在于,判断所述字节信息中是否包括生僻字的字节编码序列包括:
当第一编码为UTF8时,若字节信息中存在合法的2-4字节编码序列表示的字符,则获取该字节编码序列表示字符的Unicode编码;
根据获取的Unicode编码查表或计算得到该字符的GB18030编码;
若为合法的GB18030编码的4字节编码序列表示的字符,则判断为包括生僻字的字节编码序列。
4.根据权利要求1所述的编码扩展方法,其特征在于,所述与第一编码以及第二编码约定格式对应的转义序列包括:
转义开始字符的字节编码序列以及固定长度的与所述生僻字的字节编码序列对应的16进制Unicode编码的字节编码序列。
5.根据权利要求1所述的编码扩展方法,其特征在于,所述与第一编码以及第二编码约定格式对应的转义序列包括:
转义开始字符的字节编码序列、与所述生僻字的字节编码序列对应的16进制Unicode编码的字节编码序列以及转义结束的字符的字节编码序列,其中所述生僻字的16进制Unicode编码的字节编码序列为变长。
6.根据权利要求1所述的编码扩展方法,其特征在于,将所述第一输入信息转换为第一编码的字节信息之后,还包括:
若所述字节信息中包括单字节字符,则判断所述单字节字符是否为第一转义字符,其中,所述第一转义字符包括转义开始字符;
若所述单字节字符是所述第一转义字符,则按照预设方式对所述第一转义字符进行转换;
若所述单字节字符不是所述第一转义字符,则按照第一编码与第二编码的标准进行转换。
7.根据权利要求1所述的编码扩展方法,其特征在于,当第二编码为EBCDIC时,所述与第一编码以及第二编码约定格式对应的转义序列包括:
与所述生僻字的Unicode编码对应的4字节代理对,其中,所述4字节代理对包括第1字节b1、第2字节b2、第3字节b3以及第4字节b4;
第1字节b1=m1+0xC0;
第2字节b2=m2+0x10;
第3字节b3=m3+0x80;
第4字节b4=n3+0x10;
若U=所述生僻字的16进制Unicode编码值,则m1=U/16384取整,n1=U%16384,m2=n1/1024取整,n2=n1%1024,m3=n2/16取整,n3=n2%16。
8.一种生僻字的编码扩展装置,其特征在于,包括:
第一获取模块,用于获取第一输入信息、当前支持的第一编码以及待转换的第二编码,其中,第一编码为大字符集编码,第二编码为小字符集编码;
第一转换模块,用于将所述第一输入信息转换为第一编码的字节信息;
第一判断模块,用于判断所述字节信息中是否包括生僻字的字节编码序列;
转义模块,用于在所述字节信息包括所述生僻字...
【专利技术属性】
技术研发人员:马良有,钟志坚,孙炎森,徐晓剑,
申请(专利权)人:中信银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。