【技术实现步骤摘要】
一种文件类型检测方法及系统
[0001]本专利技术涉及文件识别
,尤其涉及一种文件类型检测方法及系统。
技术介绍
[0002]文件类型是电脑为了存储信息而使用的对信息的特殊编码方式,用于识别内部存储的资料。当今每一类信息,都可以一种或者多种文件格式保存在电脑存储中,每一种文件类型通常会有一种或者多种扩展名可以用来区分识别。当无相关扩展名时,操作系统无法显示具备的文件类型图标,同时无法引导用户采用什么工具打开响应的文件。
[0003]目前针对文件类型的判断主要有两类,一类是通过文件的扩展名进行判断,第二类是通过已知的文件头特征值进行判断,来提高文件类型识别的准确性。
[0004]当通过文件的扩展名来进行判断时,一旦文件扩展名被修改,就会引起误判,特别在一些文件传输环节中,因不包含文件扩展名等关键信息或者被刻意隐藏文件名信息,导致文件检测被无法有效识别并被正确提供使用。当通过文件头部特征值进行判断时,通常从已知的文件类型中提取出固定的文件头部特征值用于对比判断,由于如今各类新的文件格式层出不穷,还有很多文件 ...
【技术保护点】
【技术特征摘要】
1.一种文件类型检测方法,其特征在于,包括以下步骤:获取同一文件类型的文件集合,提取出该文件类型的各特征,所述各特征包括:扩展名、文件头部特征、文件尾部特征、多文件名特征和单文件内容特征;根据各文件类型的各特征,构建特征检测库,所述特征检测库包括:扩展名检测库和特征链检测库;接收待检测文件,将提取的待检测文件的各特征与特征检测库进行特征匹配,得到待检测文件的文件类型。2.根据权利要求1所述的文件类型检测方法,其特征在于,所述获取同一文件类型的文件集合,提取出该文件类型的各特征,包括:根据文件扩展名获取文件类型;将文件集合中第一个文件作为种子文件,剩余文件作为待比对文件,依次取出一个待比对文件与种子文件进行特征对比,分别获取与种子文件相同的扩展名、文件头部特征、文件尾部特征和多文件名特征,放入对应的特征集合;从各特征集合中,分别取出最短的特征作为该文件类型的扩展名、文件头部特征、文件尾部特征和多文件名特征;如果最短的多文件名特征中只有一个文件,则根据该文件名,对待比对文件与种子文件进行文件内容对比,取最短的相同文件内容作为该文件类型的单文件内容特征;根据该文件类型的各特征,计算出特征标识值。3.根据权利要求2所述的文件类型检测方法,其特征在于,所述取出一个待比对文件与种子文件进行各特征对比,分别获取与种子文件相同的扩展名、文件头部特征、文件尾部特征和多文件名特征,包括:通过byte模式扫描对比的方式,分别对待比对文件和种子文件的文件头部和文件尾部的相同位要素逐个提取和对比,直至相同位要素不同,得到的文件头部相同位的相同要素,作为文件头部特征;得到的文件尾部相同位的相同要素,作为文件尾部特征;识别文件头部特征中是否包含预置的ZIP压缩包特征值,如果包含,则提取待比对文件和种子文件的压缩包文件清单进行对比,获取每个相同的文件名及其文件夹标识,作为多文件名特征。4.根据权利要求2所述的文件类型检测方法,其特征在于,所述根据该文件类型的各特征,计算出特征标识值,包括:根据文件头部特征的标识值为1,文件尾部特征的标识值为2,多文件名特征的标识值为4,及单文件内容特征的标识值为8,将该文件类型所具有的特征的标识值相加,得到该文件类型的特征标识值。5.根据权利要求3所述的文件类型检测方法,其特征在于,所述根据各文件类型的各特征,构建特征检测库,包括:根据各文件类型的扩展名,以键值对的形式构建扩展名检测库,其中,扩展名检测库的键是文件类型的扩展名,扩展名检测库的值包括:特征标识值、文件头部特征及其长度、文件尾部特征及其长度、多文件名特征、及单文件内容特征及其长度;根据各文件类型的文件头部特征和文件尾部特征,分别按特征位的顺序,以树形逐级构建多棵头部特征树和尾部特征树,并且每个文件头部特征和文件尾部特征的最后一位特征对应的特征树节点关联对应的文件类型,得到特征链检测库。6.根据权利要求5所述的文件类型检测方法,其特征在于,所述将提取的待检测文件的各特征与特征检测库进行特征匹配,得到待检测文件的文件类型,包括:
根据扩展名检测库和/或特征链检测库,对待检测文件进行文件头部特征匹配,如果匹配失败,则待检测文件的文件类型为未知,退出特征...
【专利技术属性】
技术研发人员:黄锦阳,伍道华,于丽莉,张朝壹,李旭明,
申请(专利权)人:北京中宏立达科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。