【技术实现步骤摘要】
一种TXT文档编码字符集的校验方法及系统
本专利技术涉及计算机
,尤其涉及一种TXT文档编码字符集的校验方法及系统。
技术介绍
现有技术中,运营商的营业系统在进行批量业务办理时,通过批量框架支撑批量业务办理。用户从前台上传批量文件(TXT格式),批量框架下载并解析文件入库,然后逐条生产订单。但会出现部分内容为乱码的情况,影响文档解析准确率及处理效率。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种TXT文档编码字符集的校验方法及系统。本专利技术解决上述技术问题的技术方案如下:一种TXT文档编码字符集的校验方法,包括:接收待校验TXT文档;对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式;按照所述文件编码格式解码所述待校验TXT文档的编码字符集。本专利技术的有益效果是:通过对待校验TXT文件进行BOM头部校验,进而确定待校验TXT文档的文件编码格式,在确定了TXT文档的文件编码格式后,按照这个文件编码格式解码待校验TXT文档,从而有效解决了由于系统间I/O编码不一致造成解析文件时由于 ...
【技术保护点】
一种TXT文档编码字符集的校验方法,其特征在于,包括:接收待校验TXT文档;对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式;按照所述文件编码格式解码所述待校验TXT文档的编码字符集。
【技术特征摘要】
1.一种TXT文档编码字符集的校验方法,其特征在于,包括:接收待校验TXT文档;对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式;按照所述文件编码格式解码所述待校验TXT文档的编码字符集。2.根据权利要求1所述的方法,其特征在于,所述对所述待校验TXT文档进行BOM头部校验,根据BOM头部校验的校验结果获取待校验TXT文档的文件编码格式包括:判断有无BOM头,如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式;如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式。3.根据权利要求2所述的方法,其特征在于,所述如果有BOM头,则根据所述BOM头内容确定待校验TXT文档的文件编码格式包括:当BOM头为FEFF时,确定所述待校验TXT文档的文件编码格式为UTF-16的大端序表示类型UTF-16BE;当BOM头为FFFE时,确定所述待校验TXT文档的文件编码格式为UTF-16的小端序表示类型Unicode的默认编码;当BOM头为EFBB时,确定所述待校验TXT文档的文件编码格式为UTF-8。4.根据权利要求2所述的方法,其特征在于,所述如果无BOM头,则根据编码规则校验所述待校验TXT文档内的编码字符集,根据校验结果确定待校验TXT文档的文件编码格式包括:判断所述待校验TXT文档是否为文件尾;如果所述待校验TXT是文件尾,则确定所述待校验TXT文档的文件编码格式为GBK格式;如果所述待校验TXT非文件尾,则判断读入的字节是否大于0XF8;如果读入的字节大于0XF8,则确定所述待校验TXT文档的文件编码格式为GBK格式;如果读入的字节小于0XF8,则判断读入的首字节是否以11开头,且后续字节以10开头,11开头字节和10开头字节的总个数与11开头字节中连续1的个数相等;如果是,则确定所述待校验TXT文档的文件编码格式为GBK格式;如果否,则确定所述待校验TXT文档的文件编码格式为UTF-8格式。5.根据权利要求1至4任一项所述的方法,其特征在于,将所述TXT文档编码字符集的校验方法声明成静态方法并封装成JAR...
【专利技术属性】
技术研发人员:张鑫,
申请(专利权)人:北京思特奇信息技术股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。