文件类型识别方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：21891602 阅读：27 留言：0更新日期：2019-08-17 14:23

本公开涉及一种文件类型识别方法、装置、电子设备及可读存储介质，该文件类型识别方法应用于Linux操作系统，本公开通过对文件的内部结构文档进行文件类型的分析识别，依据对文件内部整体结构解析及匹配的结果判定文件类型，从文件内部本质结构解析，尽量避免了文件中可变因素对文件类型识别过程的影响，对于不同运营场景具有更好的适应性，可靠性高；另外，不同文件类型间内部结构特征差异明显，依据结构特征的差异进行文件类型识别精度更高，准确率高；根据各文件类型的字节排列约束规则进行字节匹配比对的过程简单高效。应用了该文件类型识别方法的装置、电子设备及可读存储介质也具有相同的有益效果。

File Type Recognition Method, Device, Electronic Equipment and Readable Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
文件类型识别方法、装置、电子设备及可读存储介质
本申请涉及文件处理
，特别涉及文件类型识别方法、装置、电子设备及可读存储介质。
技术介绍
文件是计算机组织和存储信息的重要结构，文件类型多种多样，包括word、excel、powerpoint(ppt)等，不同文件类型用于存储不同类型的数据。针对不同文件类型，处理方式不同，比如word文档的键入规则、打开方式等相对于excel是不同的。文件类型识别技术在计算机取证、病毒防护、入侵检测系统、邮件过滤及隐写分析等应用领域具有重要的现实意义。相关技术中通常采用基于单一结构文件类型识别算法、基于字节值频率分布文件类型识别算法进行文件类型的识别。其中，基于单一结构文件类型识别算法主要依靠文件后缀名称判断文件类型，但是不是所有文件有含有后缀名称，如在Linux系统中，文件后缀名不是必须的，而且通过重命名就可以改变文件后缀名而不影响文件内容，通过上述方法进行识别结果可靠性较低。基于字节值频率分布文件类型识别算法是将文件看作是字节的集合，字节的数值变化范围是0-255，相同文件类型的字节值频率分布大体上是一致的，通过计算归一化的字节值频率分布可判别出文件类型，但基于字节值频率进行文件类型识别的方法对字节值分布频率相似的不同文件类型判断结果存在较大错误率，且计算各文件字节值频率过程较为繁琐，资源占用也较大。因此，如何建立有效的文件类型识别机制，尽可能提高识别的精度以及可靠性，是本领域技术人员亟待解决的问题。
技术实现思路
本公开的目的是提供一种文件类型识别方法，该方法依据对文件内部整体结构解析及匹配的结果判定文件类型，从文件...

【技术保护点】
1.一种文件类型识别方法，应用于Linux操作系统，其特征在于，所述文件类型识别方法包括：获取待识别文件的内部结构文档；提取所述内部结构文档中的文件结构特征，得到待识别字符；其中，所述文件结构特征包括：文档头和/或文档尾；根据文件约束规则集对所述待识别字符进行字节匹配，得到匹配结果；其中，所述文件约束规则集为各文件类型的字节排列约束规则；根据所述匹配结果确定所述待识别文件的文件类型。

【技术特征摘要】
1.一种文件类型识别方法，应用于Linux操作系统，其特征在于，所述文件类型识别方法包括：获取待识别文件的内部结构文档；提取所述内部结构文档中的文件结构特征，得到待识别字符；其中，所述文件结构特征包括：文档头和/或文档尾；根据文件约束规则集对所述待识别字符进行字节匹配，得到匹配结果；其中，所述文件约束规则集为各文件类型的字节排列约束规则；根据所述匹配结果确定所述待识别文件的文件类型。2.根据权利要求1所述的文件类型识别方法，其特征在于，所述根据文件约束规则集对所述待识别字符进行字节匹配，得到匹配结果，包括：将所述待识别字符分别与各一级规则进行字节匹配，得到初始匹配结果；判断所述初始匹配结果中的匹配一级规则下是否存在二级规则；当所述匹配一级规则下存在二级规则时，根据所述匹配一级规则下的二级规则对所述待识别字符进行字节匹配，得到所述匹配结果；当所述匹配一级规则下不存在二级规则时，将所述初始匹配结果作为所述待识别字符的匹配结果。3.根据权利要求2所述的文件类型识别方法，其特征在于，所述一级规则包括：office非扩展文件规则、office扩展文件规则、PDF文件规则以及压缩文件规则。4.根据权利要求3所述的文件类型识别方法，其特征在于，所述office非扩展文件的规则为：若内部结构文档中文档头包括固定排列字符串：0xd0，0xcf，0x11，0xe0，0xa1，0xb1，0x1a，0xea，则判定属于office非扩展文件。5.根据权利要求4所述的文件类型识别方法，其特征在于，所述office非扩展文件规则下的二级规则包括：非扩展word文件规则、非扩展excel文件规则以及非扩展PPT文件规则；其中，所述非扩展word文件规则为：若内部结构文档中文档尾包括固定排列字符串：0x57，0x00，0x6f，0x00，0x72，0x00，0x64，0x000x44，0x00，0x6f，0x00，0x63，0x00，则判定属于非扩展word文件；所述非扩展excel文件规则为：若内部结构文档中文档尾包括固定排列字符串：0x57，0x00，0x6f，0x00，0x72，0x00，0x6b，0x00，0x62，0x00，0x6f，0x00，0x6f，0x00，0x6b，0x00，则判定属于非扩展excel文件；所述非扩展PPT文件规则为：若内部结构文档中文档尾包括固定排列字符串：0x50，0x00，0x6f，0x00，0x77，0x00，0x65，0x00，0x72，0x00，0x50，0x00，0x6f，0x00，0x69，0x00，0x6e，0x00，0x74，0x00，则判定属于非扩展PPT文件。6.根据权利要求3所述的文件类型识别方法，其特征在于，所述office扩展文件规则为：若内部结构文档中文档头包括固定排列字符串：0x50，0x4b，0x3，0x4，则判定属于office扩展文件。7.根据权利要求6所述的文件类型识别方法，其特征在于，所述office扩展文件规则下的二级规则包括：扩展wo...

【专利技术属性】
技术研发人员：刘占明，段银超，
申请(专利权)人：成都卫士通信息产业股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人