检测文件编码的方法、装置、存储介质以及电子设备制造方法及图纸

技术编号:36694444 阅读:24 留言:0更新日期:2023-02-27 20:04
本申请公开了一种检测文件编码的方法、装置、存储介质以及电子设备。其中,该方法包括:接收待检测文件;获取待检测文件所对应的字节流数据的目标字节,根据目标字节判断待检测文件是否为规范编码格式类型;在待检测文件是非规范编码格式类型的情况下,将待检测文件所属的字节流数据均匀划分,得到字节流段集合,其中,非规范编码格式类型包含多种指定编码格式;根据各个字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定待检测文件的编码格式。本申请解决了由于现有技术中针对单一编码格式类型检测方法造成的检测效率低的的技术问题。率低的的技术问题。率低的的技术问题。

【技术实现步骤摘要】
检测文件编码的方法、装置、存储介质以及电子设备


[0001]本申请涉及编码领域,具体而言,涉及一种检测文件编码的方法、装置、存储介质以及电子设备。

技术介绍

[0002]随着计算机程序应用的范围扩大,需要程序处理的各类数据越来越多。这些数据有的会存放在数据库中(如oracle和mySql);也会存放在缓存中间件中(如redis和rabbitmq);也会直接以文本文件的形式存放在服务器上。而文件的来源平台及生成方式都不同,因此不同文件会有多种编码格式,如UTF

8、GBK以及ISO

8859

1等。在对存放在服务器上的文本文件进行读取或发送操作时,操作不当易使文件出现乱码,对乱码文件进行再次读取时,存在着文件信息丢失的风险。
[0003]目前,在检测文件编码格式的方法中,存在检测规范编码文件的方法,也存在检测非规范编码文件格式的方法,但都是针对单一编码格式的检测,检测效率低。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种检测文件编码的方法、装置、存储介质以及电子设备,以至少解决由于现有技术中针对单一编码格式类型检测方法造成的检测效率低的的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种检测文件编码的方法,包括:接收待检测文件;获取待检测文件所对应的字节流数据的目标字节,根据目标字节判断待检测文件是否为规范编码格式类型;在待检测文件是非规范编码格式类型的情况下,将待检测文件所属的字节流数据均匀划分,得到字节流段集合,其中,非规范编码格式类型包含多种指定编码格式;根据各个字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定待检测文件的编码格式。
[0007]可选地,根据目标字节判断待检测文件是否为规范编码格式类型,包括:判断目标字节是否具有字节顺序标记BOM;在目标字节具有BOM的情况下,确定待检测文件的编码格式类型为规范编码格式类型;在目标字节不具有BOM的情况下,确定待检测文件的编码格式类型为非规范编码格式类型。
[0008]可选地,将待检测文件所属的字节流数据均匀划分,包括:确定字节流数据的总长度;依据总长度和预定数量确定单位长度,其中,预定数量的单位长度之和等于总长度;将字节流数据按照单位长度进行均匀划分。
[0009]可选地,根据各个字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定待检测文件的编码格式,包括:检测各个字节流段的编码格式;确定字节流段集合中属于乱码格式的字节流段数量;比较字节流段数量与预设阈值;依据比较结果判断待检测文件是否为乱码格式。
[0010]可选地,依据比较结果判断待检测文件是否为乱码格式,包括:在字节流段数量大于预设阈值的情况下,确定待检测文件为乱码格式;在字节流段数量小于预设阈值的情况下,确定字节流段集合中其他编码格式的字节流段数量;根据其他编码格式的字节流段数量确定待检测文件的编码格式,其中,其他编码格式为除乱码格式之外的编码格式。
[0011]可选地,根据其他编码格式的字节流段数量确定待检测文件的编码格式,包括:确定字节流段集合中数量最多的编码格式的字节流段,将数量最多的编码格式作为待检测文件的编码格式。
[0012]可选地,确定字节流段集合中数量最多的编码格式的字节流段,包括:在字节流段集合中乱码格式的字节流段数量最多且乱码格式的字节流段数量未超过预设阈值的情况下,确定字节流段集合中其他编码格式的字节流段数量;确定字节流段集合中除乱码格式之外数量最多的编码格式的字节流段。
[0013]根据本申请实施例的另一方面,还提供了一种检测文件编码的方法,包括:目标设备接收待检测文件;确定待检测文件的编码类型,类型包括:规范编码格式类型和非规范编码格式类型;从目标设备预先存储的检测方法中确定与编码类型对应的目标检测方法,其中,检测方法用于对待检测文件的编码格式进行检测,且目标设备预先存储的检测方法包括:与规范编码格式类型对应的第一检测方法和与非规范编码格式类型对应的第二检测方法;采用目标检测方法确定待检测文件的编码格式。
[0014]根据本申请实施例的另一方面,还提供了一种检测文件编码的装置,包括:接收模块,用于接收待检测文件;判断模块,用于获取待检测文件所对应的字节流数据的目标字节,根据目标字节判断待检测文件是否为规范编码格式类型;划分模块,用于在待检测文件是非规范编码格式类型的情况下,将待检测文件所属的字节流数据均匀划分,得到字节流段集合,其中,非规范编码格式类型包含多种指定编码格式;确定模块,用于根据各个字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定待检测文件的编码格式。
[0015]根据本申请实施例的另一方面,还提供了一种非易失性存储介质,包括:存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任意一项检测文件编码的方法。
[0016]根据本申请实施例的另一方面,还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现任意一项检测文件编码的方法。
[0017]在本申请实施例中,采用根据待检测文件的编码类型确定对应的检测方法的方式,通过接收待检测文件;获取待检测文件所对应的字节流数据的目标字节,根据目标字节判断待检测文件是否为规范编码格式类型;在待检测文件是非规范编码格式类型的情况下,将待检测文件所属的字节流数据均匀划分,得到字节流段集合;根据各个字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定待检测文件的编码格式,达到了提高检测效率的目的,从而实现了在读取文件或发送文件时降低了出现乱码而导致文件丢失风险的技术效果,进而解决了由于现有技术中针对单一编码格式类型检测方法造成的检测效率低的技术问题。
附图说明
[0018]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0019]图1是根据本申请实施例的一种检测文件编码的方法的流程示意图;
[0020]图2是根据本申请实施例的另一种可选的检测文件编码的方法的示意图;
[0021]图3是根据本申请实施例的一种检测文件编码的装置的结构示意图;
[0022]图4是根据本申请实施例的一种电子设备400的示意性框图。
具体实施方式
[0023]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0024]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测文件编码的方法,其特征在于,包括:接收待检测文件;获取所述待检测文件所对应的字节流数据的目标字节,根据所述目标字节判断所述待检测文件是否为规范编码格式类型;在所述待检测文件是非规范编码格式类型的情况下,将所述待检测文件所属的字节流数据均匀划分,得到字节流段集合,其中,所述非规范编码格式类型包含多种指定编码格式;根据各个所述字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定所述待检测文件的编码格式。2.根据权利要求1所述的方法,其特征在于,根据所述目标字节判断所述待检测文件是否为规范编码格式类型,包括:判断所述目标字节是否具有字节顺序标记BOM;在所述目标字节具有所述BOM的情况下,确定所述待检测文件的编码格式类型为规范编码格式类型;在所述目标字节不具有所述BOM的情况下,确定所述待检测文件的编码格式类型为非规范编码格式类型。3.根据权利要求1所述的方法,其特征在于,将所述待检测文件所属的字节流数据均匀划分,包括:确定所述字节流数据的总长度;依据所述总长度和预定数量确定单位长度,其中,预定数量的单位长度之和等于所述总长度;将所述字节流数据按照所述单位长度进行均匀划分。4.根据权利要求1所述的方法,其特征在于,根据各个所述字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定所述待检测文件的编码格式,包括:检测各个所述字节流段的编码格式;确定所述字节流段集合中属于乱码格式的字节流段数量;比较所述字节流段数量与预设阈值;依据比较结果判断所述待检测文件是否为乱码格式。5.根据权利要求4所述的方法,其特征在于,依据比较结果判断所述待检测文件是否为乱码格式,包括:在所述字节流段数量大于所述预设阈值的情况下,确定所述待检测文件为乱码格式;在所述字节流段数量小于所述预设阈值的情况下,确定所述字节流段集合中其他编码格式的字节流段数量;根据所述其他编码格式的字节流段数量确定所述待检测文件的编码格式,其中,所述其他编码格式为除乱码格式之外的编码格式。6.根据权利要求5所述的方法,其特征在于,根据所述其他编码格式的...

【专利技术属性】
技术研发人员:朱宏波徐东明马单
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1