一种基于压缩包内容的文件格式识别方法及系统技术方案

技术编号:12402180 阅读:52 留言:0更新日期:2015-11-28 16:56
本发明专利技术公开了一种基于压缩包内容的文件格式识别方法,包括特征提取阶段和文件识别阶段,特征提取阶段获取压缩包类型文件,并提取压缩包类型文件中所有的文件名称,通过统计分析,得到每种压缩包格式的特征标识,并形成特征库,文件识别阶段获取待识别文件,判断待识别文件是否为压缩包类型,获取压缩包类型的待识别文件中包含的所有文件名称,将这些文件名称与特征库中的特征进行匹配,最终报告待识别文件的文件格式。本发明专利技术还提出了一种基于压缩包内容的文件格式识别系统,弥补了现有格式识别技术在识别压缩包类型文件时只显示为压缩包文件,而不能精确识别具体压缩包格式的缺陷。

【技术实现步骤摘要】

本专利技术涉及网络信息安全领域,尤其涉及一种基于压缩包内容的文件格式识别方法及系统
技术介绍
格式识别技术是网络信息安全
重要的基础技术,且格式识别对病毒查杀、漏洞检测等后续工作的进行有很大的辅助作用。目前常用的格式识别技术有两种,一种是基于后缀的识别,另一种是基于文件格式幻术的识别。基于文件格式后缀识别技术,如果没有文件后缀,或者后缀被修改,则很难对待识别文件的格式进行精确的识别。基于文件格式幻术识别的方法是目前主要的文件格式识别方法,该方法对于使用压缩包作为载体类型的文件格式,如office系列文件格式、APK文件格式等无能为力,这些文件进行文件格式幻术识别的结果通常只是标识为压缩包。目前以压缩包作为载体的文件有office系列文件、PDF文件、APK文件等,这些文件都是非常常用的文件,而目前却没有出现对这些文件进行精确格式识别的技术。
技术实现思路
针对现有技术不能对以压缩包为载体的文件格式进行精确识别的缺陷,本专利技术提出一种基于压缩包内容的文件格式识别方法及系统。首先收集压缩包类型文件作为训练数据,对压缩包类型文件进行解压后,相同格式的压缩包类型文件中都包含一个或者多个共有的文件,这些共有的文件的文件名便可以作为相应压缩包类型文件格式的特征标识,得到训练数据中所有压缩包类型文件格式的特征标识,将其与相应的压缩包类型文件格式形成一一对应的关系并组织成特征库,特征库中包含的信息不限于上述所述。在对待识别文件进行文件格式识别时,先判断文件是否为压缩包类型,对压缩包类型的待识别文件进行解压并获取压缩包内所有文件的文件名,将获取的文件名与上述特征标识进行匹配,并返回相应结果。本专利技术提出一种基于压缩包内容的文件格式识别方法,包括: 收集压缩包类型文件,并记录文件格式; 获取压缩包类型文件内所有文件的文件名称; 对比统计获取的文件名称,得到相同文件格式压缩包类型文件中所共有的文件名称,基于共有的文件名称得到相应压缩包类型文件格式的特征标识; 生成用以识别压缩包类型文件格式的特征库,特征库中主要包含特征标识与压缩包类型文件格式的信息; 获取待识别文件,判断待识别文件是否为压缩包类型文件,若不是,则报告未识别;若是,则获取待识别文件内包含的所有文件的文件名称; 将获取的文件名称与特征库中的特征标识进行匹配,若匹配成功,则根据所述特征标识对应的压缩包类型文件格式信息报告待识别文件的文件格式;若匹配失败,则报告未识别。进一步地,不同压缩包类型文件格式对应的特征标识个数不小于I。进一步地,所述判断待识别文件是否为压缩包类型文件,具体为:利用文件格式幻术识别的方法对待识别文件是否为压缩包类型文件进行判断。进一步地,所述获取压缩包类型文件内所有文件的文件名称与获取待识别文件内包含的所有文件的文件名称,具体为:根据不同的压缩格式,对压缩包类型文件与待识别文件进行不完整解压,并提取其含有的所有文件的文件名称。本专利技术还提出一种基于压缩包内容的文件格式识别系统,包括: 数据获取模块,用于收集压缩包类型文件,记录文件格式,并获取压缩包类型文件内所有文件的文件名称; 特征生成模块,用于对比统计获取的文件名称,得到相同文件格式压缩包类型文件中所共有的文件名称,基于共有的文件名称得到相应压缩包类型文件格式的特征标识,生成用以识别压缩包类型文件格式的特征库,特征库中主要包含特征标识与压缩包类型文件格式的信息; 文件识别模块,用于获取待识别文件,判断待识别文件是否为压缩包类型文件,若不是,则报告未识别,若是,则获取待识别文件内包含的所有文件的文件名称; 格式识别模块,用于将获取的文件名称与特征库中的特征标识进行匹配,若匹配成功,则根据所述特征标识对应的压缩包类型文件格式信息报告待识别文件的文件格式;若匹配失败,则报告未识别。进一步地,不同压缩包类型文件格式对应的特征标识个数不小于I。进一步地,所述判断待识别文件是否为压缩包类型文件,具体为:利用文件格式幻术识别的方法对待识别文件是否为压缩包类型文件进行判断。进一步地,所述获取压缩包类型文件内所有文件的文件名称与获取待识别文件内包含的所有文件的文件名称,具体为:根据不同的压缩格式,对压缩包类型文件与待识别文件进行不完整解压,并提取其含有的所有文件的文件名称。本专利技术的有益效果是: 目前已有的格式识别技术中,对以压缩包为载体的压缩包类型文件的格式识别尚不成熟,利用文件后缀识别不能准确有效的对文件格式进行识别,利用文件格式幻术识别等识别方法,也不能精确的对压缩包类型文件的具体文件格式进行确认,通常返回的结果只是标识了压缩包,却不能识别出具体的压缩包格式。针对上述现有技术中的不足,本专利技术提出了一种基于压缩包内容的文件格式识别方法及系统,解决了以压缩包为载体的压缩包类型文件格式的识别,弥补了现有文件格式识别技术上的不足。利用所有格式的压缩包类型文件作为训练数据,得到的特征库中的特征信息全面且准确,利用相同格式的压缩包类型文件解压后的共有文件的文件名作为匹配的特征标识,使识别结果更加精准,在获取训练数据和待识别文件内包含的所有文件时,利用不完整压缩的方式对压缩包类型文件进行解压,提升了解压速率,有效节省了解压时间,提升了识别效率。【附图说明】为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术基于压缩包内容的文件格式识别的特征提取方法流程图; 图2为本专利技术基于压缩包内容的文件格式识别的识别阶段方法流程图; 图3为本专利技术基于压缩包内容的文件格式识别的系统结构图。【具体实施方式】为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术中技术方案作进一步详细的说明。本专利技术给出了一种基于压缩包内容的文件格式识别的方法实施例,包括特征提取阶段和文件格式识别阶段,其中特征提取阶段的方法流程图如图1所示,包括: 5101:收集压缩包类型文件,并记录文件格式,所述压缩包类型文件包括Office系列文档、PDF文档、APK文件等以压缩包作为载体的文件,所述文件格式包括.doc格式、.docx格式、.ppt格式、.pptx格式、.pdf格式等文件格式; 5102:获取压缩包类型文件内所有文件的文件名称,包括独立文件的文件名称和文件夹的名称; 5103:对比统计获取的文件名称,得到相同文件格式压缩包类型文件中所共有的文件名称,基于共有的文件名称得到相应压缩包类型文件格式的特征标识,例如通过对比统计,.docx文件中都包含文件名为word的文件,则文件名word即可作为.docx文件的特征标识,.doc文件中都包含文件名为WordDocument的文件,贝丨j文件名WordDocument即可作为.doc文件的文件名标识,.ppt文件中都包含文件名为PowerPoint Document的文件,贝Ij文件名PowerPoint Document即可作为.ppt文件的文件名标识,所述特征标识本文档来自技高网
...

【技术保护点】
一种基于压缩包内容的文件格式识别方法,其特征在于,包括:收集压缩包类型文件,并记录文件格式;获取压缩包类型文件内所有文件的文件名称;对比统计获取的文件名称,得到相同文件格式压缩包类型文件中所共有的文件名称,基于共有的文件名称得到相应压缩包类型文件格式的特征标识;生成用以识别压缩包类型文件格式的特征库,特征库中主要包含特征标识与压缩包类型文件格式的信息;获取待识别文件,判断待识别文件是否为压缩包类型文件,若不是,则报告未识别;若是,则获取待识别文件内包含的所有文件的文件名称;将获取的文件名称与特征库中的特征标识进行匹配,若匹配成功,则根据所述特征标识对应的压缩包类型文件格式信息报告待识别文件的文件格式;若匹配失败,则报告未识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:沈长伟贺磊钢童志明张栗伟何公道
申请(专利权)人:哈尔滨安天科技股份有限公司
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1