基于卷积神经网络的文件碎片分类方法及系统技术方案

技术编号：20389492 阅读：100 留言：0更新日期：2019-02-20 02:42

本发明专利技术涉及一种基于卷积神经网络的文件碎片分类方法及系统。该方法包括以下步骤：(1)提取文件碎片内容，将其转换成十六进制表示的字符序列；(2)对文件碎片内容进行解析，将十六进制表示的字符序列转换为二进制向量化形式的字符向量；(3)通过卷积神经网络对文件碎片的字符向量进行卷积、池化、分类的过程，实现对文件碎片的分类。本发明专利技术通过卷积神经网络实现对文件碎片的分类，自动从碎片内容中学习特征表示，省略了人工设计、降维特征的步骤，因此能减少人为设计错误的发生，能够高效、准确、自动地完成对文件碎片的分类。

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积神经网络的文件碎片分类方法及系统
本专利技术属于计算机取证领域，涉及一种数据恢复技术，特别涉及一种文件碎片恢复的关键技术。
技术介绍
传统数据恢复方法，主要依赖于文件系统的结构恢复被删除的数据，例如文件分配表内容。大多数文件系统在删除文件过程不实际删除所在物理位置中的数据，只是标记该区域可以用于存储新的数据。删除结束后文件分配表中的文件条目以及删除文件与簇(即在存储介质中可寻址的最小存储单元)的链接信息依然存在，因此根据文件系统结构信息很容易恢复一个被删除的文件。除了解析处理磁盘上未分配空间的数据，通过访问文件系统结构还可以识别并快速提取所有未被删除的数据。已有的数据恢复工具主要处理在介质上连续存储的文件数据。如何恢复碎片化的文件数据是目前数据恢复的一个难点。Garfinkel指出与取证案件相关的文件更倾向于以碎片化形式存在，并给出高达58％的Outlook电子邮件客户端数据是碎片化存储的统计数据。造成碎片化的主要原因包括以下几点：(1)磁盘介质长时间使用并随机增加、删除将无法连续存储完整的文件；(2)在现有文件附加数据，如果没有足够的未分配空间，文件系统将数据附加到其它位置；(3)文件系统不支持按某种长度连续存储文件，例如Unix文件系统。当文件系统结构不存在、损坏以及被人为删除时，以上碎片化存储的文件将无法利用传统方法恢复。许多案例中，由于一些重要文件通常没有备份只能通过恢复技术来获得证据，因此碎片文件数据的恢复有助于案件的取证调查。基于文件雕刻(filecarving)的技术是被认为是恢复碎片文件数据的有效解决方案。文件雕刻是一种基于文件内容...

【技术保护点】
1.一种基于卷积神经网络的文件碎片分类方法，其特征在于，包括以下步骤：(1)提取文件碎片内容，将其转换成十六进制表示的字符序列；(2)对文件碎片内容进行解析，将十六进制表示的字符序列转换为二进制向量化形式的字符向量；(3)通过卷积神经网络对文件碎片的字符向量进行卷积、池化、分类的过程，实现对文件碎片的分类。

【技术特征摘要】
1.一种基于卷积神经网络的文件碎片分类方法，其特征在于，包括以下步骤：(1)提取文件碎片内容，将其转换成十六进制表示的字符序列；(2)对文件碎片内容进行解析，将十六进制表示的字符序列转换为二进制向量化形式的字符向量；(3)通过卷积神经网络对文件碎片的字符向量进行卷积、池化、分类的过程，实现对文件碎片的分类。2.根据权利要求1所述的方法，其特征在于，步骤(1)将转换得到的十六进制表示的字符序列与文件原内容进行哈希MD5计算，获得哈希校验值，以保证二者在内容上的一致性。3.根据权利要求1所述的方法，其特征在于，步骤(2)将十六进制表示的字符串序列的每一个字符与预先形成的字典即预定义字典的索引相关联，预定义字典是一个随机初始化而成的低维的实数向量组，包含二进制向量，每一二进制向量对应一个字符，称为字符向量。4.根据权利要求1所述的方法，其特征在于，步骤(3)通过具有典型的类型特征的文件碎片的训练，获得卷积神经网络分类模型的内部各参数。5.根据权利要求1所述的方法，其特征在于，步骤(3)包括：(a)在卷积神经网络分类模型的配置文件中设立模型的配置选项，批量数据大小、训练数据地址、核函数大小、dropout值；(b)在卷积神经网络分类模型中输入接口位置信息、文件碎片位置信息、文件碎片大小信息；(c)在卷积神经网络分类模型的训练过程中更新关联的字符向量，使其具有一定的语义信息...

【专利技术属性】
技术研发人员：卢志刚，姜波，杨波，李宁，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人