检测文件编码的方法、装置、存储介质以及电子设备制造方法及图纸

技术编号:36694444 阅读:34 留言:0更新日期:2023-02-27 20:04
本申请公开了一种检测文件编码的方法、装置、存储介质以及电子设备。其中,该方法包括:接收待检测文件;获取待检测文件所对应的字节流数据的目标字节,根据目标字节判断待检测文件是否为规范编码格式类型;在待检测文件是非规范编码格式类型的情况下,将待检测文件所属的字节流数据均匀划分,得到字节流段集合,其中,非规范编码格式类型包含多种指定编码格式;根据各个字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定待检测文件的编码格式。本申请解决了由于现有技术中针对单一编码格式类型检测方法造成的检测效率低的的技术问题。率低的的技术问题。率低的的技术问题。

【技术实现步骤摘要】
检测文件编码的方法、装置、存储介质以及电子设备


[0001]本申请涉及编码领域,具体而言,涉及一种检测文件编码的方法、装置、存储介质以及电子设备。

技术介绍

[0002]随着计算机程序应用的范围扩大,需要程序处理的各类数据越来越多。这些数据有的会存放在数据库中(如oracle和mySql);也会存放在缓存中间件中(如redis和rabbitmq);也会直接以文本文件的形式存放在服务器上。而文件的来源平台及生成方式都不同,因此不同文件会有多种编码格式,如UTF

8、GBK以及ISO

8859

1等。在对存放在服务器上的文本文件进行读取或发送操作时,操作不当易使文件出现乱码,对乱码文件进行再次读取时,存在着文件信息丢失的风险。
[0003]目前,在检测文件编码格式的方法中,存在检测规范编码文件的方法,也存在检测非规范编码文件格式的方法,但都是针对单一编码格式的检测,检测效率低。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
专利技术内
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测文件编码的方法,其特征在于,包括:接收待检测文件;获取所述待检测文件所对应的字节流数据的目标字节,根据所述目标字节判断所述待检测文件是否为规范编码格式类型;在所述待检测文件是非规范编码格式类型的情况下,将所述待检测文件所属的字节流数据均匀划分,得到字节流段集合,其中,所述非规范编码格式类型包含多种指定编码格式;根据各个所述字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定所述待检测文件的编码格式。2.根据权利要求1所述的方法,其特征在于,根据所述目标字节判断所述待检测文件是否为规范编码格式类型,包括:判断所述目标字节是否具有字节顺序标记BOM;在所述目标字节具有所述BOM的情况下,确定所述待检测文件的编码格式类型为规范编码格式类型;在所述目标字节不具有所述BOM的情况下,确定所述待检测文件的编码格式类型为非规范编码格式类型。3.根据权利要求1所述的方法,其特征在于,将所述待检测文件所属的字节流数据均匀划分,包括:确定所述字节流数据的总长度;依据所述总长度和预定数量确定单位长度,其中,预定数量的单位长度之和等于所述总长度;将所述字节流数据按照所述单位长度进行均匀划分。4.根据权利要求1所述的方法,其特征在于,根据各个所述字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定所述待检测文件的编码格式,包括:检测各个所述字节流段的编码格式;确定所述字节流段集合中属于乱码格式的字节流段数量;比较所述字节流段数量与预设阈值;依据比较结果判断所述待检测文件是否为乱码格式。5.根据权利要求4所述的方法,其特征在于,依据比较结果判断所述待检测文件是否为乱码格式,包括:在所述字节流段数量大于所述预设阈值的情况下,确定所述待检测文件为乱码格式;在所述字节流段数量小于所述预设阈值的情况下,确定所述字节流段集合中其他编码格式的字节流段数量;根据所述其他编码格式的字节流段数量确定所述待检测文件的编码格式,其中,所述其他编码格式为除乱码格式之外的编码格式。6.根据权利要求5所述的方法,其特征在于,根据所述其他编码格式的...

【专利技术属性】
技术研发人员:朱宏波徐东明马单
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1