自动识别文件编码的方法及计算机可读存储介质技术

技术编号：29133005 阅读：17 留言：0更新日期：2021-07-02 22:28

本发明专利技术公开了一种自动识别文件编码识别方法及计算机可读存储介质，方法包括：采集样本文件；分别将样本文件的文件编码转换为预设的各编码，生成各编码对应的正向字词库；分别将样本文件通过与其文件编码不同的其他编码进行解码，得到乱码文件并记录编码转化方向；根据乱码文件，生成其编码转化方向对应的反向字词库；获取待识别文件；依次通过一编码对待识别文件进行解码；获取解码后的待识别文件中的词语和单字，并分别将词语和单字在对应的正向字词库以及反向字词库中进行匹配，得到正向匹配数和反向匹配数；若正向匹配数大于反向匹配数，则将一编码作为待识别文件的文件编码。本发明专利技术可正确识别出文件编码。

全部详细技术资料下载

【技术实现步骤摘要】
自动识别文件编码的方法及计算机可读存储介质本案是以申请日为2019年04月19日，申请号为201910317628.7，名称为“文件编码的识别方法及计算机可读存储介质”的专利技术专利为母案而进行的分案申请。
本专利技术涉及编码识别
，尤其涉及一种文件编码的识别方法及计算机可读存储介质。
技术介绍
目前存在着多种编码方式，因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。现有技术中对文件编码的判断，只能根据文件的前3个字节判断是否是UTF-8(8-bitUnicodeTransformationFormat，一种针对Unicode的可变长度字符编码，又称万国码)的文件编码，而其他文件编码则没有任何明显的特征可判断，只能让用户自己选择查看文件的编码，如果用户选择的编码不正确则会出现乱码。
技术实现思路
本专利技术所要解决的技术问题是：提供一种文件编码的识别方法及计算机可读存储介质，可正确识别出文件编码，防止出现乱码。为了解决上述技术问题，本专利技术采用的技术方案为：一种文件编码的识别方法，包括：采集样本文件，所述样本文件包括各种语言的非乱码文本；分别将所述样本文件的文件编码转换为预设的编码集合中的各编码，并根据转换后的样本文件，生成各编码对应的正向字词库；分别将所述样本文件通过所述编码集合中与其文件编码不同的其他编码进行解码，得到乱码文件，并记录所述乱码文件的编码转化方向，所述编码转化方向包括文件编码和解码...

【技术保护点】
1.一种自动识别文件编码识别方法，其特征在于，包括：/n采集样本文件，所述样本文件包括各种语言的非乱码文本；/n分别将所述样本文件的文件编码转换为预设的编码集合中的各编码，并根据转换后的样本文件，生成各编码对应的正向字词库，所述正向字词库包括正向字库和正向词库；/n分别将所述样本文件通过所述编码集合中与其文件编码不同的其他编码进行解码，得到乱码文件，并记录所述乱码文件的编码转化方向，所述编码转化方向包括文件编码和解码编码；/n根据所述乱码文件，生成其编码转化方向对应的反向字词库，所述反向字词库包括反向字库和反向词库；/n获取待识别文件；/n依次通过所述编码集合中的一编码对所述待识别文件进行解码；/n获取解码后的待识别文件中的词语和单字，并分别将所述词语和单字在所述一编码对应的正向字词库以及第一编码转化方向对应的反向字词库中进行匹配，得到正向匹配数和反向匹配数，所述第一编码转化方向中的解码编码为所述一编码；/n若所述正向匹配数大于所述反向匹配数，则将所述一编码作为所述待识别文件的文件编码；/n所述根据所述乱码文件，生成其编码转化方向对应的反向字词库具体为：/n获取一乱码文件中所有的单字，...

【技术特征摘要】
1.一种自动识别文件编码识别方法，其特征在于，包括：
采集样本文件，所述样本文件包括各种语言的非乱码文本；
分别将所述样本文件的文件编码转换为预设的编码集合中的各编码，并根据转换后的样本文件，生成各编码对应的正向字词库，所述正向字词库包括正向字库和正向词库；
分别将所述样本文件通过所述编码集合中与其文件编码不同的其他编码进行解码，得到乱码文件，并记录所述乱码文件的编码转化方向，所述编码转化方向包括文件编码和解码编码；
根据所述乱码文件，生成其编码转化方向对应的反向字词库，所述反向字词库包括反向字库和反向词库；
获取待识别文件；
依次通过所述编码集合中的一编码对所述待识别文件进行解码；
获取解码后的待识别文件中的词语和单字，并分别将所述词语和单字在所述一编码对应的正向字词库以及第一编码转化方向对应的反向字词库中进行匹配，得到正向匹配数和反向匹配数，所述第一编码转化方向中的解码编码为所述一编码；
若所述正向匹配数大于所述反向匹配数，则将所述一编码作为所述待识别文件的文件编码；
所述根据所述乱码文件，生成其编码转化方向对应的反向字词库具体为：
获取一乱码文件中所有的单字，生成所述一乱码文件的编码转化方向对应的反向字库；
获取一乱码文件中所有连续且非空格的两个字符，生成所述一乱码文件的编码转化方向对应的反向词库；
若一乱码文件存在超出其字符表示范围的字符，则将所述超出其字符表示范围的字符加入至所述一乱码文件的编码转化方向对应的反向字库；
所述依次通过所述编码集合中的一编码对所述待识别文件进行解码的步骤至所述若所述正向匹配数大于所述反向匹配数则将所述一编码作为所述待识别文件的文件编码的步骤具体为：
获取所述编码集合中的一编码，并通过所述一编码对所述待识别文件进行解码；
获取解码后的待识别文件中的词语，所述词语为连续且非空格的两个字符；
将所述词语与所述一编码对应的正向词库进行匹配，得到第一正向匹配数；
将所述词语分别与第一编码转化方向对应的各反向词库进行匹配，得到所述各反向词库的第一反向匹配数，所述第一编码转化方向中的解码编码为所述一编码；
将所述各反向词库的第一反向匹配数相加，得到第二反向匹配数；
若所述第一正向匹配数大于所述第二反向匹配数，则将所述一编码作为待识别文件的文件编码；
若所述第一正向匹配数小于所述第二反向匹配数，则获取第一反向匹配数最大...

【专利技术属性】
技术研发人员：刘德建，陈丛亮，郭玉湖，
申请(专利权)人：福建天晴数码有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人