一种未知格式加密文件的识别方法技术

技术编号:11683323 阅读:58 留言:0更新日期:2015-07-06 15:17
本发明专利技术公开了一种未知格式加密文件的识别方法,它包括以下步骤:S1:确定需要进行加密识别的任意格式文件,并标识为目标文件;S2:对目标文件中的数据进行提取;S3:对步骤S2所提取的数据进行判定,若判定为明文数据,则输出该文件是非加密文件的结果,若判定为加密文件,则输出该文件是加密文件的结果。本发明专利技术通过对目标文件进行数据提取并对提取的数据进行加密判定,能够在不知道文件格式的情况下,对任意格式文件是否加密进行自动化识别判定,不仅能够对加密文件进行有效识别、判定效率高,而且可以避免人工进行判定而导致费时费力的问题。

【技术实现步骤摘要】
一种未知格式加密文件的识别方法
本专利技术涉及文件识别
,具体地说是一种未知格式加密文件的识别方法。
技术介绍
在计算机取证领域,犯罪嫌疑人往往把重要的犯罪证据进行加密存储,并且变换文件格式。当取证人员获得犯罪嫌疑人存储犯罪证据的磁盘,需要在海量文件中快速找到这些加密过的文件,然后采用密码破解的方法来破解这些加密文件,从而获取犯罪嫌疑人的犯罪证据。然而对于任意格式的文件,如何自动化判定一个文件是否经过加密处理不是一件容易的事情。目前在计算机取证领域,对于一个文件是否加密,一般有两种方法。一种方法是取证人员手工判断,例如手工打开一个Word文件,如果需要输入密码,则该Word文件是加密过的,否则可以直接打开;另一种方法是针对特定的文件类型,例如Word文件,若一个Word文件是加密过的,则在文件头中有一个加密标志被置为1,这样可以通过程序自动化判断该加密标志是否为1,则可以自动化判断该Word文件是否加密。很显然,前一种方法效率很低,费时费力,无法一一检查海量的文件;而后一种方法,只能针对特定的文件格式,如果攻击者有意识的更改文件格式,则很容易骗过这种判定方法,导致无法进行有效判定加密文件。目前的加密文件判定方法很难对计算机取证领域中遇到的海量的多种格式的文件是否经过加密进行自动判定,因此,迫切需要一种在不知道文件格式情况下能够对文件是否经过加密处理进行判定的技术。
技术实现思路
针对上述不足,本专利技术提供了一种未知格式加密文件识别方法,其能够在不知道文件格式的情况下对任意格式文件是否加密进行自动化识别判定,不仅能够对加密文件进行有效识别、判定效率高,而且可以避免人工进行判定而导致费时费力的问题,另外还提供了一种未知格式文件的数据提取方法和一种数据加密判定方法。本专利技术解决其技术问题采取的技术方案是:一种未知格式加密文件的识别方法,其特征是,包括以下步骤:S1:确定需要进行加密识别的任意格式文件,并标识为目标文件;S2:对目标文件中的数据进行提取;S3:对步骤S2所提取的数据进行判定,若判定为明文数据,则输出该文件是非加密文件的结果,若判定为加密文件,则输出该文件是加密文件的结果。所述对目标文件中的数据进行提取过程包括以下步骤:S21:以二进制格式打开目标文件;S22:以二进制字节流的形式读取目标文件的内容,并将读取的目标文件内容存入缓存区,直至目标文件所有的内容读取完毕为止;S23:关闭目标文件。所述对所提取的数据进行判定的过程包括以下步骤:S31:计算缓冲区中目标文件字节流的大小,以字节为单位,记为size,则将字节流中内容从第1个字节到第size个字节依次记为b1,b2,...,bsize;S32:将b1,b2,...,bsize转化为无符号整数;S33:按照下述公式计算均值μ:S34:按照下述公式计算E:S35:按照下述公式计算σ:S36:按照下述公式计算R:S37:比较R与预先设定的阀值f,如果R<f,则判定目标文件为加密过的文件,否则则判定目标文件为未加密过的文件。所述阀值f为加密后文件字节之间的相关性。本专利技术还提供了一种目标文件的数据提取方法,其特征是,包括以下步骤:S21:以二进制格式打开目标文件;S22:以二进制字节流的形式读取目标文件的内容,并将读取的目标文件内容存入缓存区,直至目标文件所有的内容读取完毕为止;S23:关闭目标文件。所述目标文件为确定需要进行加密识别的任意格式文件。本专利技术还提供了一种目标文件的数据加密判定方法,其特征是,包括对未知格式文件的数据进行提取的过程和对所提取的数据进行判定的过程。所述对未知格式文件的数据进行提取的过程包括以下步骤:S21:以二进制格式打开目标文件;S22:以二进制字节流的形式读取目标文件的内容,并将读取的目标文件内容存入缓存区,直至目标文件所有的内容读取完毕为止;S23:关闭目标文件。所述对所提取的数据进行判定的过程包括以下步骤:S31:计算缓冲区中目标文件字节流的大小,以字节为单位,记为size,则将字节流中内容从第1个字节到第size个字节依次记为b1,b2,...,bsize;S32:将b1,b2,...,bsize转化为无符号整数;S33:按照下述公式计算均值μ:S34:按照下述公式计算E:S35:按照下述公式计算σ:S36:按照下述公式计算R:S37:比较R与预先设定的阀值f,如果R<f,则判定目标文件为加密过的文件,否则则判定目标文件为未加密过的文件,所述阀值f为加密后文件字节之间的相关性。所述目标文件为确定需要进行加密识别的任意格式文件。本专利技术的有益效果是:本专利技术通过对目标文件进行数据提取并对提取的数据进行加密判定,能够在不知道文件格式的情况下,对任意格式文件是否加密进行自动化识别判定,不仅能够对加密文件进行有效识别、判定效率高,而且可以避免人工进行判定而导致费时费力的问题。本专利技术不需要事先知道文件的格式,在判定过程中也不需要利用文件的格式信息,就可以可以实现对任意文件是否经过加密处理的自动化判定,方便了取证人员进行计算机取证,提高了公安机关的办案效率。附图说明下面结合说明书附图对本专利技术进行说明。图1为本专利技术所述未知格式加密文件识别方法的流程图;图2为本专利技术对目标文件数据提取的方法流程图;图3为本专利技术对目标文件数据加密判定的方法流程图。具体实施方式为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本专利技术进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本专利技术的不同结构。为了简化本专利技术的公开,下文中对特定例子的部件和设置进行描述。此外,本专利技术可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本专利技术省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本专利技术。本专利技术的主要思路是将未知文件作为字节流分析其字节间的自相关性,加密后的文件会呈现出较好的随机性,而未加密的文件由于字节之间有意义具有相关性,因此自相关程度的高低可以作为文件是否加密的一个判断标准。本专利技术所述未知格式加密文件的识别方法采用了目标文件的数据提取方法和数据加密判定方法。如图1所示,本专利技术的一种未知格式加密文件的识别方法,它包括以下步骤:S1:确定需要进行加密识别的任意格式文件,并标识为目标文件;S2:利用目标文件的数据提取方法对目标文件中的数据进行提取;S3:利用数据加密判定方法对步骤S2所提取的数据进行判定,若判定为明文数据,则输出该文件是非加密文件的结果,若判定为加密文件,则输出该文件是加密文件的结果。如图2所示,本专利技术的一种目标文件的数据提取方法,它包括以下步骤:S21:以二进制格式打开目标文件;S22:以二进制字节流的形式读取目标文件的内容,并将读取的目标文件内容存入缓存区,直至目标文件所有的内容读取完毕为止;S23:关闭目标文件。如图3所示,本专利技术的一种目标文件的数据加密判定方法,它包括以下步骤:S31:计算缓冲区中目标文件字节流的大小,以字节为单位,记为size,则将字节流中内容从第1个字节到第size个字节依次记为b1,b2,...,bsize;S32:将b1,b2,...,bsize转本文档来自技高网...
一种未知格式加密文件的识别方法

【技术保护点】
一种未知格式加密文件的识别方法,其特征是,包括以下步骤:S1:确定需要进行加密识别的任意格式文件,并标识为目标文件;S2:对目标文件中的数据进行提取;S3:对步骤S2所提取的数据进行判定,若判定为明文数据,则输出该文件是非加密文件的结果,若判定为加密文件,则输出该文件是加密文件的结果。

【技术特征摘要】
1.一种未知格式加密文件的识别方法,其特征是,包括以下步骤:S1:确定需要进行加密识别的任意格式文件,并标识为目标文件;S2:对目标文件中的数据进行提取;S3:对步骤S2所提取的数据进行判定,若判定为明文数据,则输出该文件是非加密文件的结果,若判定为加密文件,则输出该文件是加密文件的结果;所述对目标文件中的数据进行提取过程包括以下步骤:S21:以二进制格式打开目标文件;S22:以二进制字节流的形式读取目标文件的内容,并将读取的目标文件内容存入缓存区,直至目标文件所有的内容读取完毕为止;S23:关闭目标文件;所述对所提取的数据进行判定的过程包括以下步骤:S31:计算缓冲区中目标文件字节流的大小,以字节为单位,记为size,则将字节流中内容从第1个字节到第size个字节依次记为b1,b2,...,bsize;S32:将b1,b2,...,bsize转化为无符号整数;S33:按照下述公式计算均值μ:S34:按照下述公式计算标准差E:S35:按照下述公式计算方差σ:S36:按照下述公式计算相关系数R:S37:比较R与预先设定的阀值f,如果R<f,则判定目标文件为加密过的文件,否则则判定目标文件为未加密过的文件。2.根据权利要求1所述的一种未知格式加密文件的识别方法,其特征是,所述阀值f为加...

【专利技术属性】
技术研发人员:王继志杨光陈丽娟杨英
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1