基于卷积神经网络的文件碎片分类方法及系统技术方案

技术编号:20389492 阅读:100 留言:0更新日期:2019-02-20 02:42
本发明专利技术涉及一种基于卷积神经网络的文件碎片分类方法及系统。该方法包括以下步骤:(1)提取文件碎片内容,将其转换成十六进制表示的字符序列;(2)对文件碎片内容进行解析,将十六进制表示的字符序列转换为二进制向量化形式的字符向量;(3)通过卷积神经网络对文件碎片的字符向量进行卷积、池化、分类的过程,实现对文件碎片的分类。本发明专利技术通过卷积神经网络实现对文件碎片的分类,自动从碎片内容中学习特征表示,省略了人工设计、降维特征的步骤,因此能减少人为设计错误的发生,能够高效、准确、自动地完成对文件碎片的分类。

【技术实现步骤摘要】
基于卷积神经网络的文件碎片分类方法及系统
本专利技术属于计算机取证领域,涉及一种数据恢复技术,特别涉及一种文件碎片恢复的关键技术。
技术介绍
传统数据恢复方法,主要依赖于文件系统的结构恢复被删除的数据,例如文件分配表内容。大多数文件系统在删除文件过程不实际删除所在物理位置中的数据,只是标记该区域可以用于存储新的数据。删除结束后文件分配表中的文件条目以及删除文件与簇(即在存储介质中可寻址的最小存储单元)的链接信息依然存在,因此根据文件系统结构信息很容易恢复一个被删除的文件。除了解析处理磁盘上未分配空间的数据,通过访问文件系统结构还可以识别并快速提取所有未被删除的数据。已有的数据恢复工具主要处理在介质上连续存储的文件数据。如何恢复碎片化的文件数据是目前数据恢复的一个难点。Garfinkel指出与取证案件相关的文件更倾向于以碎片化形式存在,并给出高达58%的Outlook电子邮件客户端数据是碎片化存储的统计数据。造成碎片化的主要原因包括以下几点:(1)磁盘介质长时间使用并随机增加、删除将无法连续存储完整的文件;(2)在现有文件附加数据,如果没有足够的未分配空间,文件系统将数据附加到其它位置;(3)文件系统不支持按某种长度连续存储文件,例如Unix文件系统。当文件系统结构不存在、损坏以及被人为删除时,以上碎片化存储的文件将无法利用传统方法恢复。许多案例中,由于一些重要文件通常没有备份只能通过恢复技术来获得证据,因此碎片文件数据的恢复有助于案件的取证调查。基于文件雕刻(filecarving)的技术是被认为是恢复碎片文件数据的有效解决方案。文件雕刻是一种基于文件内容的恢复技术,与传统方法的区别是不依赖于指向文件内容的元数据。此外文件雕刻技术还可用于恢复硬盘中未分配空间中的文件,未分配空间指的是不再保留任何文件系统结构中所示文件信息(例如文件分配表中的信息)的磁盘空间。在丢失、损坏文件系统结构时整个磁盘空间都是未分配空间,这种情况同样增加了取证调查的难度。随着研究的深入,许多方法被引入到基于文件雕刻的数据恢复技术中。最早的实现是基于文件头/尾的雕刻方法,该方法根据基于文件签名的数据库识别已知文件类型的起点、终点,然后中间的连续介质存储空间进行恢复处理。该方法的局限性是未考虑文件数据碎片化存储的情况。在此基础上的改进包括:文件头/最大长度雕刻、基于文件结构雕刻、基于语义雕刻、碎片恢复雕刻等。正确分类文件碎片类型对于成功雕刻文件碎片是一个重要环节。然而文件碎片分类是复杂的任务,文件类型包含大量不同的类别:从简单的原始类别(primitivetype),例如一段ASCII码的text或JPEG文件;到复杂的包含其它类型文件的容器文件(例如Pdf文件)、存档文件(例如RAR、ZIP件)。分类检查的碎片数据包括:数据块,缺少魔数信息(例如文件签名)、文件扩展名、文件系统元数据、数据包头信息以及其它用于标识该类型文件特征的文件碎片。尽管现有商用软件(例如TrID)及开源工具(例如Unixfile)根据签名及其它魔数信息能够有效对不明类型数据正确区分,但是在文件系统元数据信息丢失、损坏或位置不明时分类效果不好。基于内容的分析方法通常用于元数据信息不可用的情况。主要的分析方法包括以下几种:(1)语义解析。该分析方法主要根据自然语言结构、语义的形式表达及数据结构和逻辑顺序。由于这类结构和表示在某些类型的文件和数据流中比较罕见,因此语义解析在文件和数据类型分类中作用有限。(2)非语义解析。该分析方法涉及搜索在特定文件和数据类型中比较常见的字符串,例如识别PDF文件类型可以利用搜索“obj”、“stream”、“endstream”等字符串。非语义解析方法的问题是不是所有文件和数据类型带有典型的字符串,例如TXT文件。(3)机器学习。机器学习方法包括监督学习和非监督学习算法,通常采用基于统计的分类方法,因此可以有效地解决许多文件和数据类型的分类问题。
技术实现思路
本专利技术提出了一种基于卷积神经网络的文件碎片分类方法及系统,能够高效、准确、自动完成对文件碎片的分类。本专利技术采用的技术方案如下:一种基于卷积神经网络的文件碎片分类方法,其步骤包括:(1)提取文件碎片内容,将其转换成十六进制表示的字符序列;(2)对文件碎片内容进行解析,将十六进制表示的字符序列转换为二进制向量化形式的字符向量;(3)通过卷积神经网络对文件碎片的字符向量进行卷积、池化、分类的过程,实现对文件碎片的分类。上述方法中,步骤(1)的十六进制是文件碎片内容的原始表示,步骤(2)进一步进行向量化的表示,每个十六进制的表示内容被表示成多维的二进制向量。例如,6A这种的十六进制字符被表示成一个300维的向量。进一步地,步骤(1)将转换得到的十六进制表示的字符序列与文件原内容进行哈希MD5计算,获得哈希校验值,以保证二者在内容上的一致性。进一步地,步骤(2)将十六进制表示的字符串序列的每一个字符与预先形成的字典即预定义字典的索引相关联,预定义字典是一个随机初始化而成的低维的实数向量组,包含二进制向量,每一二进制向量对应一个字符,称为字符向量。进一步地,步骤(3)包括:训练卷积神经网络分类模型中的参数,通过一些具有典型的类型特征的文件碎片的训练,获得分类模型的内部各参数,包括w、b,其中w为卷积核加权矩阵,b为偏置量。进一步地,步骤(3)还包括:(a)在卷积神经网络分类模型的配置文件中设立模型的配置选项,批量数据大小、训练数据地址、核函数大小、dropout值;(b)在卷积神经网络分类模型中输入接口位置信息、文件碎片位置信息、文件碎片大小信息等;(c)在卷积神经网络分类模型的训练过程中更新关联的字符向量,使其具有一定的语义信息。与上面方法对应地,本专利技术还提供一种基于卷积神经网络的文件碎片分类系统,其包括:文件碎片内容提取模块,用于提取文件碎片内容,将其转换成十六进制表示的字符序列;文件碎片内容解析模块,用于对文件碎片内容进行解析,将十六进制表示的字符序列转换为二进制向量化形式的字符向量;文件碎片分类模块,用于通过卷积神经网络对文件碎片的字符向量进行卷积、池化、分类的过程,实现对文件碎片的分类。与现有技术相比,本专利技术的有益效果如下:传统的分类方法首先需要提取碎片中合适的特征用于分类算法的输入,通常提取n-gram或采用某种字节频率测量分析方法;然后对输入特征集进行降维处理;第三步根据设计的分类算法完成对碎片文件的分类。本专利技术通过卷积神经网络实现对文件碎片的分类,自动从碎片内容中学习特征表示,省略了人工设计、降维特征的步骤,因此能减少人为设计错误的发生。附图说明图1为本专利技术方法的总体架构图。图2为基于卷积神经网络的文件碎片分类模型的示意图。图3为不同分类算法的性能对比图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术中的技术方案进行清楚、完整地描述。本专利技术的技术方法为,通过卷积神经网络提取文件碎片内容特征、分析碎片内容特点,将碎片文件归类到某个已知文件类型。图1是本专利技术的总体架构图。本专利技术方法的步骤如下:(1)提取碎片文件内容并转换成十六进制表示,将转换结果与文件原内容进行哈希MD5计算验证以保证内容的一致性。(2)CNN(卷积神经网络)的输入是词向量本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络的文件碎片分类方法,其特征在于,包括以下步骤:(1)提取文件碎片内容,将其转换成十六进制表示的字符序列;(2)对文件碎片内容进行解析,将十六进制表示的字符序列转换为二进制向量化形式的字符向量;(3)通过卷积神经网络对文件碎片的字符向量进行卷积、池化、分类的过程,实现对文件碎片的分类。

【技术特征摘要】
1.一种基于卷积神经网络的文件碎片分类方法,其特征在于,包括以下步骤:(1)提取文件碎片内容,将其转换成十六进制表示的字符序列;(2)对文件碎片内容进行解析,将十六进制表示的字符序列转换为二进制向量化形式的字符向量;(3)通过卷积神经网络对文件碎片的字符向量进行卷积、池化、分类的过程,实现对文件碎片的分类。2.根据权利要求1所述的方法,其特征在于,步骤(1)将转换得到的十六进制表示的字符序列与文件原内容进行哈希MD5计算,获得哈希校验值,以保证二者在内容上的一致性。3.根据权利要求1所述的方法,其特征在于,步骤(2)将十六进制表示的字符串序列的每一个字符与预先形成的字典即预定义字典的索引相关联,预定义字典是一个随机初始化而成的低维的实数向量组,包含二进制向量,每一二进制向量对应一个字符,称为字符向量。4.根据权利要求1所述的方法,其特征在于,步骤(3)通过具有典型的类型特征的文件碎片的训练,获得卷积神经网络分类模型的内部各参数。5.根据权利要求1所述的方法,其特征在于,步骤(3)包括:(a)在卷积神经网络分类模型的配置文件中设立模型的配置选项,批量数据大小、训练数据地址、核函数大小、dropout值;(b)在卷积神经网络分类模型中输入接口位置信息、文件碎片位置信息、文件碎片大小信息;(c)在卷积神经网络分类模型的训练过程中更新关联的字符向量,使其具有一定的语义信息...

【专利技术属性】
技术研发人员:卢志刚姜波杨波李宁
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1