文件类型识别方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:21891602 阅读:27 留言:0更新日期:2019-08-17 14:23
本公开涉及一种文件类型识别方法、装置、电子设备及可读存储介质,该文件类型识别方法应用于Linux操作系统,本公开通过对文件的内部结构文档进行文件类型的分析识别,依据对文件内部整体结构解析及匹配的结果判定文件类型,从文件内部本质结构解析,尽量避免了文件中可变因素对文件类型识别过程的影响,对于不同运营场景具有更好的适应性,可靠性高;另外,不同文件类型间内部结构特征差异明显,依据结构特征的差异进行文件类型识别精度更高,准确率高;根据各文件类型的字节排列约束规则进行字节匹配比对的过程简单高效。应用了该文件类型识别方法的装置、电子设备及可读存储介质也具有相同的有益效果。

File Type Recognition Method, Device, Electronic Equipment and Readable Storage Media

【技术实现步骤摘要】
文件类型识别方法、装置、电子设备及可读存储介质
本申请涉及文件处理
,特别涉及文件类型识别方法、装置、电子设备及可读存储介质。
技术介绍
文件是计算机组织和存储信息的重要结构,文件类型多种多样,包括word、excel、powerpoint(ppt)等,不同文件类型用于存储不同类型的数据。针对不同文件类型,处理方式不同,比如word文档的键入规则、打开方式等相对于excel是不同的。文件类型识别技术在计算机取证、病毒防护、入侵检测系统、邮件过滤及隐写分析等应用领域具有重要的现实意义。相关技术中通常采用基于单一结构文件类型识别算法、基于字节值频率分布文件类型识别算法进行文件类型的识别。其中,基于单一结构文件类型识别算法主要依靠文件后缀名称判断文件类型,但是不是所有文件有含有后缀名称,如在Linux系统中,文件后缀名不是必须的,而且通过重命名就可以改变文件后缀名而不影响文件内容,通过上述方法进行识别结果可靠性较低。基于字节值频率分布文件类型识别算法是将文件看作是字节的集合,字节的数值变化范围是0-255,相同文件类型的字节值频率分布大体上是一致的,通过计算归一化的字节值频率分布可判别出文件类型,但基于字节值频率进行文件类型识别的方法对字节值分布频率相似的不同文件类型判断结果存在较大错误率,且计算各文件字节值频率过程较为繁琐,资源占用也较大。因此,如何建立有效的文件类型识别机制,尽可能提高识别的精度以及可靠性,是本领域技术人员亟待解决的问题。
技术实现思路
本公开的目的是提供一种文件类型识别方法,该方法依据对文件内部整体结构解析及匹配的结果判定文件类型,从文件内部本质结构解析,对于不同运营场景具有更好的适应性;并且不同文件类型间内部结构特征差异明显,将文件内部结构特征作为识别条件可以提高文件类型识别的正确率,可靠性更高。本公开的另一目的是提供一种文件类型识别装置、一种电子设备及一种可读存储介质,具有上述有益效果。为了实现上述目的,本公开提供一种文件类型识别方法,应用于Linux操作系统,所述文件类型识别方法包括:获取待识别文件的内部结构文档;提取所述内部结构文档中的文件结构特征,得到待识别字符;其中,所述文件结构特征包括:文档头和/或文档尾;根据文件约束规则集对所述待识别字符进行字节匹配,得到匹配结果;其中,所述文件约束规则集为各文件类型的字节排列约束规则;根据所述匹配结果确定所述待识别文件的文件类型。可选地,所述根据文件约束规则集对所述待识别字符进行字节匹配,得到匹配结果,包括:将所述待识别字符分别与各一级规则进行字节匹配,得到初始匹配结果;判断所述初始匹配结果中的匹配一级规则下是否存在二级规则;当所述匹配一级规则下存在二级规则时,根据所述匹配一级规则下的二级规则对所述待识别字符进行字节匹配,得到所述匹配结果;当所述匹配一级规则下不存在二级规则时,将所述初始匹配结果作为所述待识别字符的匹配结果。可选地,所述一级规则包括:office非扩展文件规则、office扩展文件规则、PDF文件规则以及压缩文件规则。可选地,所述office非扩展文件的规则为:若内部结构文档中文档头包括固定排列字符串:0xd0,0xcf,0x11,0xe0,0xa1,0xb1,0x1a,0xea,则判定属于office非扩展文件。可选地,所述office非扩展文件规则下的二级规则包括:非扩展word文件规则、非扩展excel文件规则以及非扩展PPT文件规则;其中,所述非扩展word文件规则为:若内部结构文档中文档尾包括固定排列字符串:0x57,0x00,0x6f,0x00,0x72,0x00,0x64,0x000x44,0x00,0x6f,0x00,0x63,0x00,则判定属于非扩展word文件;所述非扩展excel文件规则为:若内部结构文档中文档尾包括固定排列字符串:0x57,0x00,0x6f,0x00,0x72,0x00,0x6b,0x00,0x62,0x00,0x6f,0x00,0x6f,0x00,0x6b,0x00,则判定属于非扩展excel文件;所述非扩展PPT文件规则为:若内部结构文档中文档尾包括固定排列字符串:0x50,0x00,0x6f,0x00,0x77,0x00,0x65,0x00,0x72,0x00,0x50,0x00,0x6f,0x00,0x69,0x00,0x6e,0x00,0x74,0x00,则判定属于非扩展PPT文件。可选地,所述office扩展文件规则为:若内部结构文档中文档头包括固定排列字符串:0x50,0x4b,0x3,0x4,则判定属于office扩展文件。可选地,所述office扩展文件规则下的二级规则包括:扩展word文件规则、扩展excel文件规则以及扩展PPT文件规则;其中,所述扩展word文件规则为:若内部结构文档中文档尾包括固定排列字符串:0x77,0x6f,0x72,0x64,'/',则判定属于扩展word文件;所述扩展excel文件规则为:若内部结构文档中文档尾包括固定排列字符串:0x78,0x6c,'/',则判定属于扩展excel文件;所述扩展PPT文件规则为:若内部结构文档中文档尾包括固定排列字符串:0x70,0x70,0x74,'/',则判定属于扩展PPT文件。可选地,所述PDF文件规则为:若内部结构文档中文档头包括固定排列字符串:0x50,0x4b,0x3,0x4,同时文档尾包括固定排列字符串:0x70,0x70,0x74,'/',则判定属于PDF文件。可选地,所述压缩文件规则包括:tar文件规则、Gzip文件规则、zip文件规则、xz文件规则以及bz文件规则;其中,所述tar文件规则为:若内部结构文档中文档头前512字节包括固定排列字符串:0x30,0x30,0x30,0x30,0x37,0x36,0x34,0x0,0x30,0x30,0x30,0x30,0x37,0x36,0x34,0x0,则判定属于tar文件;所述Gzip文件规则为:若内部结构文档中文档头前4字节包括固定排列字符串:0x1f,0x8b,0x8,0x0,则判定属于Gzip文件;所述zip文件规则为:若内部结构文档中文档头前4字节包括固定排列字符串:0x50,0x4b,0x3,0x4,则判定属于zip文件;所述xz文件规则为:若内部结构文档中文档头前5字节包括固定排列字符:0x42,0x5a,0x68,0x39,0x31,0x41,0x59,0x26,0x53,0x59,则判定属于xz文件;所述bz文件规则为:若内部结构文档中文档头前10个字节包括固定排列字符串0x42,0x5a,0x68,0x39,0x31,0x41,0x59,0x26,0x53,0x59,则判定属于bz文件。为实现上述目的,本公开还提供了一种文件类型识别装置,所述文件类型识别装置包括:结构文档获取单元,用于获取待识别文件的内部结构文档;结构特征提取单元,用于提取所述内部结构文档中的文件结构特征,得到待识别字符;其中,所述文件结构特征包括:文档头和/或文档尾;规则匹配单元,用于根据文件约束规则集对所述待识别字符进行字节匹配,得到匹配结果;其中,所述文件约束规则集为各文件类型的字节排列约束规则;类型确定单元,用于根据所本文档来自技高网...

【技术保护点】
1.一种文件类型识别方法,应用于Linux操作系统,其特征在于,所述文件类型识别方法包括:获取待识别文件的内部结构文档;提取所述内部结构文档中的文件结构特征,得到待识别字符;其中,所述文件结构特征包括:文档头和/或文档尾;根据文件约束规则集对所述待识别字符进行字节匹配,得到匹配结果;其中,所述文件约束规则集为各文件类型的字节排列约束规则;根据所述匹配结果确定所述待识别文件的文件类型。

【技术特征摘要】
1.一种文件类型识别方法,应用于Linux操作系统,其特征在于,所述文件类型识别方法包括:获取待识别文件的内部结构文档;提取所述内部结构文档中的文件结构特征,得到待识别字符;其中,所述文件结构特征包括:文档头和/或文档尾;根据文件约束规则集对所述待识别字符进行字节匹配,得到匹配结果;其中,所述文件约束规则集为各文件类型的字节排列约束规则;根据所述匹配结果确定所述待识别文件的文件类型。2.根据权利要求1所述的文件类型识别方法,其特征在于,所述根据文件约束规则集对所述待识别字符进行字节匹配,得到匹配结果,包括:将所述待识别字符分别与各一级规则进行字节匹配,得到初始匹配结果;判断所述初始匹配结果中的匹配一级规则下是否存在二级规则;当所述匹配一级规则下存在二级规则时,根据所述匹配一级规则下的二级规则对所述待识别字符进行字节匹配,得到所述匹配结果;当所述匹配一级规则下不存在二级规则时,将所述初始匹配结果作为所述待识别字符的匹配结果。3.根据权利要求2所述的文件类型识别方法,其特征在于,所述一级规则包括:office非扩展文件规则、office扩展文件规则、PDF文件规则以及压缩文件规则。4.根据权利要求3所述的文件类型识别方法,其特征在于,所述office非扩展文件的规则为:若内部结构文档中文档头包括固定排列字符串:0xd0,0xcf,0x11,0xe0,0xa1,0xb1,0x1a,0xea,则判定属于office非扩展文件。5.根据权利要求4所述的文件类型识别方法,其特征在于,所述office非扩展文件规则下的二级规则包括:非扩展word文件规则、非扩展excel文件规则以及非扩展PPT文件规则;其中,所述非扩展word文件规则为:若内部结构文档中文档尾包括固定排列字符串:0x57,0x00,0x6f,0x00,0x72,0x00,0x64,0x000x44,0x00,0x6f,0x00,0x63,0x00,则判定属于非扩展word文件;所述非扩展excel文件规则为:若内部结构文档中文档尾包括固定排列字符串:0x57,0x00,0x6f,0x00,0x72,0x00,0x6b,0x00,0x62,0x00,0x6f,0x00,0x6f,0x00,0x6b,0x00,则判定属于非扩展excel文件;所述非扩展PPT文件规则为:若内部结构文档中文档尾包括固定排列字符串:0x50,0x00,0x6f,0x00,0x77,0x00,0x65,0x00,0x72,0x00,0x50,0x00,0x6f,0x00,0x69,0x00,0x6e,0x00,0x74,0x00,则判定属于非扩展PPT文件。6.根据权利要求3所述的文件类型识别方法,其特征在于,所述office扩展文件规则为:若内部结构文档中文档头包括固定排列字符串:0x50,0x4b,0x3,0x4,则判定属于office扩展文件。7.根据权利要求6所述的文件类型识别方法,其特征在于,所述office扩展文件规则下的二级规则包括:扩展wo...

【专利技术属性】
技术研发人员:刘占明段银超
申请(专利权)人:成都卫士通信息产业股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1