一种后缀名遭篡改的涉密文件自动发现方法技术

技术编号:16175986 阅读:164 留言:0更新日期:2017-09-09 03:14
本发明专利技术公开了一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持。本发明专利技术一种后缀名遭篡改的涉密文件自动发现方法,基于不同格式电子文档都有其自己独特的存储方式,通过分类分析电子文档内部存储结构方式分析识别出文档后缀是否修改的方式,依靠电子文档特殊结构分析技术,实现对电子文档后缀篡改分析,并识别电子文档真实的文件类型,进而实现涉密文件自动检测发现。

【技术实现步骤摘要】
一种后缀名遭篡改的涉密文件自动发现方法
本专利技术涉及文件信息安全的
,特别涉及一种后缀名遭篡改的涉密文件自动发现方法。
技术介绍
互联网信息的飞速发展,给人们的生活带来方便快捷,但也随着信息化发展的不断深入,导致信息存在越来越多的安全隐患。目前,社会工作都在计算机和互联网上进行,内容及信息都以电子文档的格式存在,一旦计算机遭受病毒电子文档后缀名被篡改,就会导致电子文档无法打开,也容易导致重要文件和涉密文件丢失、泄漏,存在信息安全隐患。为了解决以上问题,有必要提出一种后缀名遭篡改的涉密文件自动发现方法,依靠电子文档特殊结构分析技术,实现对电子文档后缀篡改分析,并识别电子文档真实的文件类型,电子文档后缀篡改识别,是指针对电子文档后缀删除或修改后,通过分析电子文档内部结构识别出真实文档类型,进而实现涉密文件自动检测发现。
技术实现思路
本专利技术的目的在于克服上述现有技术的不足,提供一种后缀名遭篡改的涉密文件自动发现方法,其旨在解决现有技术中电子文件被篡改,就会导致电子文档无法打开,也容易导致重要文件和涉密文件丢失、泄漏,存在信息安全隐患的技术问题。为实现上述目的,本专利技术提出了一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,具体步骤如下:S1、启动终端应用程序,终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别,判断电子文档是否属于正规文档后缀格式,若属于则直接进入步骤S8;若不属于则进入步骤S2;S2、判断电子文档头部8位字节是否满足Office97-2003系列文档或金山系列办公文档特征,若满足则转至步骤S3;若不满足则转至步骤S4;S3、进一步根据电子文档内容中所含字节标记,判断电子文档属于WPSOffice系列文档类型或MicrosoftOffice97-2003系列文档类型,当电子文档属于WPSOffice系列文档类型,根据所含字节标记字段识别出具体所属类型,并转至步骤S7;当电子文档属于MicrosoftOffice97-2003系列文档类型,根据所含字节标记识别出电子文档具体所属类型,并转至步骤S7;若既不属于WPSOffice系列文档类型也不属于MicrosoftOffice97-2003系列文档类型,则转至步骤S4;S4、判断电子文档头部60位字节中是否存在Office2007系列文档特征,若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出电子文档具体所属类型,并转至步骤S7;若不存在Office2007系列文档特征则转至步骤S5;S5、判断电子文档头部是否满足不同类型图片文件的字节特征,若满足,则进一步识别出具体图片文件类型,并转至步骤S7;若不满足,则转至步骤S6;S6、判断文件头部4位字节是否满足pdf文件类型字节特征,若满足,则识别为pdf文件类型,并转至步骤S7;若不满足,则确定该电子文档不可识别,并结束扫描识别;S7、将后缀名被删除或篡改的文件,还原为真实后缀名,然后进入步骤S8;S8、执行文件内容检索,并判断是否为涉密文件,并结束扫描识别。作为优选,所述的步骤S3中当电子文档属于WPSOffice系列文档类型,根据所含字节标记字段识别出的具体所属类型为wps、et、ett、dpt或dps文件;当电子文档属于MicrosoftOffice97-2003系列文档类型,根据所含字节标记识别出的电子文档具体所属类型为doc、xls、ppt或pps文件。作为优选,所述的步骤S4中若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出的电子文档具体所属类型为docx、xlsx、pptx或ppsx文件。作为优选,所述的步骤S5的具体步骤如下:1)判断电子文档头部10位字节中是否满足jfif、jpg、jpeg格式类型图片文件的字节特征,若满足则识别为.jfif、.jpg、.jpeg文件类型,并转至步骤S7;若不满足则转至步骤2);2)判断电子文档头部2位字节中是否满足bmp、dib格式类型图片文件的字节特征,若满足则识别为.bmp、.dib文件类型,并转至步骤S7;若不满足则转至步骤3);3)判断电子文档头部4位字节中是否满足tif格式类型图片文件的字节特征,若满足则识别为.gif文件类型,并转至步骤S7;若不满足则转至步骤4);4)判断电子文档头部4位字节中是否满足png格式类型图片文件的字节特征,若满足则识别为.png文件类型,并转至步骤S7;若不满足则转至步骤5);5)判断电子文档头部5位字节中是否满足pdf格式类型图片文件的字节特征,若满足则识别为.pdf文件类型,并转至步骤S7;若不满足则转至步骤S6。本专利技术的有益效果:与现有技术相比,本专利技术提供的一种后缀名遭篡改的涉密文件自动发现方法,其基于在终端设备上部署一个终端应用程序,利用应用程序对终端计算机操作系统中电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,不同格式电子文档都有其自己独特的存储方式,可通过分类分析电子文档内部存储结构方式分析识别出文档后缀是否修改,依靠电子文档特殊结构分析技术,实现对电子文档后缀篡改分析,并识别电子文档真实的文件类型,进而实现涉密文件自动检测发现。本专利技术的特征及优点将通过实施例结合附图进行详细说明。【附图说明】图1是本专利技术实施例一种后缀名遭篡改的涉密文件自动发现方法的流程图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本专利技术进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。参阅图1,本专利技术实施例提供一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,具体步骤如下:S1、启动终端应用程序,终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别,判断电子文档是否属于正规文档后缀格式,若属于则直接进入步骤S8;若不属于则进入步骤S2。S2、判断电子文档头部8位字节是否满足Office97-2003系列文档或金山系列办公文档特征,若满足则转至步骤S3;若不满足则转至步骤S4。S3、进一步根据电子文档内容中所含字节标记,判断电子文档属于WPSOffice系列文档类型或MicrosoftOffice97-2003系列文档类型,当电子文档属于WPSOffice系列文档类型,根据所含字节标记字段识别出具体所属类型,判定为wps、et、ett、dpt或dps文件,并转至步骤S7;当电子文档属于MicrosoftOffice97-2003系列文档类型,根据所含字节标记识别出电子文档具体所属类型,判定为doc、xls、ppt或pps文件,并转至步骤S7;若既不本文档来自技高网...
一种后缀名遭篡改的涉密文件自动发现方法

【技术保护点】
一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,其特征在于:具体步骤如下:S1、启动终端应用程序,终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别,判断电子文档是否属于正规文档后缀格式,若属于则直接进入步骤S8;若不属于则进入步骤S2;S2、判断电子文档头部8位字节是否满足Office97‑2003系列文档或金山系列办公文档特征,若满足则转至步骤S3;若不满足则转至步骤S4;S3、进一步根据电子文档内容中所含字节标记,判断电子文档属于WPS Office系列文档类型或Microsoft Office97‑2003系列文档类型,当电子文档属于WPS Office系列文档类型,根据所含字节标记字段识别出具体所属类型,并转至步骤S7;当电子文档属于Microsoft Office97‑2003系列文档类型,根据所含字节标记识别出电子文档具体所属类型,并转至步骤S7;若既不属于WPS Office系列文档类型也不属于Microsoft Office97‑2003系列文档类型,则转至步骤S4;S4、判断电子文档头部60位字节中是否存在Office2007系列文档特征,若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出电子文档具体所属类型,并转至步骤S7;若不存在Office2007系列文档特征则转至步骤S5;S5、判断电子文档头部是否满足不同类型图片文件的字节特征,若满足,则进一步识别出具体图片文件类型,并转至步骤S7;若不满足,则转至步骤S6;S6、判断文件头部4位字节是否满足pdf文件类型字节特征,若满足,则识别为pdf文件类型,并转至步骤S7;若不满足,则确定该电子文档不可识别,并结束扫描识别;S7、将后缀名被删除或篡改的文件,还原为真实后缀名,然后进入步骤S8;S8、执行文件内容检索,并判断是否为涉密文件,并结束扫描识别。...

【技术特征摘要】
1.一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,其特征在于:具体步骤如下:S1、启动终端应用程序,终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别,判断电子文档是否属于正规文档后缀格式,若属于则直接进入步骤S8;若不属于则进入步骤S2;S2、判断电子文档头部8位字节是否满足Office97-2003系列文档或金山系列办公文档特征,若满足则转至步骤S3;若不满足则转至步骤S4;S3、进一步根据电子文档内容中所含字节标记,判断电子文档属于WPSOffice系列文档类型或MicrosoftOffice97-2003系列文档类型,当电子文档属于WPSOffice系列文档类型,根据所含字节标记字段识别出具体所属类型,并转至步骤S7;当电子文档属于MicrosoftOffice97-2003系列文档类型,根据所含字节标记识别出电子文档具体所属类型,并转至步骤S7;若既不属于WPSOffice系列文档类型也不属于MicrosoftOffice97-2003系列文档类型,则转至步骤S4;S4、判断电子文档头部60位字节中是否存在Office2007系列文档特征,若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出电子文档具体所属类型,并转至步骤S7;若不存在Office2007系列文档特征则转至步骤S5;S5、判断电子文档头部是否满足不同类型图片文件的字节特征,若满足,则进一步识别出具体图片文件类型,并转至步骤S7;若不满足,则转至步骤S6;S6、判断文件头部4位字节是否满足pdf文件类型字节特征,若满足,则识别为pdf文件类型,并转至步骤S7;若不满足,则确定该电子文档不可识别,并结束扫描识...

【专利技术属性】
技术研发人员:傅如毅陈旭郦鑫段守超
申请(专利权)人:浙江远望信息股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1