基于修改标识符的OOX文本文档隐私信息检测方法技术

技术编号:12312312 阅读:65 留言:0更新日期:2015-11-11 20:09
本发明专利技术涉及一种基于修改标识符的OOX文本文档隐私信息检测方法。该方法的步骤包括:1)将待检测的OOX文本文档进行解压,形成层次化文件结构;2)提取解压得到的document.xml和settings.xml文件中的修改标识符,并将提取的该两个文件的修改标识符分别保存到两个容器中;3)对比两个容器中修改标识符的异同,进而统计出OOX文本文档所携带的总的隐私信息的数量。本发明专利技术可以自动化地对文本文档进行检测,防止利用基于修改标识符的OOX文本文档隐写方法来进行信息隐藏和隐蔽通信,从而避免重要信息的泄露,检测过程中无需人工干预,可以大大节省人力、时间成本。

【技术实现步骤摘要】

本专利技术属于信息隐藏
,针对基于修改标识符的OOX文本文档信息隐藏方法提出了一种针对性的新的检测方法。
技术介绍
在网络飞速发展的今天,信息隐藏技术已经广泛应用于多个领域,用于隐藏个人或企业的隐私信息。在信息隐藏技术中,有多种有效的基于文本的隐写方法可以取得较好的隐蔽效果,例如利用字体格式、字体颜色、同义词替换及不可见字符等方法来进行信息隐藏。其中,有一种隐藏方式主要基于OOX(Office Open XML)文本文档中的“修改标识符”进行隐私信息的携带。OOX文档格式是由微软公司为Office 2007产品开发的技术规范,现已成为国际文档格式标准,兼容前国际标准ODF(Open Document Format)和中国文档标准UOF (Unified Office document Format),于 2006 年 12 月成为 ECMA 标准。在 00X 文本文档格式中包括了一组特殊的元素属性,这些属性几乎分布在整个00X文本文档中,这就是“修改标识符”:每一次00X文本文档被打开编辑时,都会产生一个独一无二的标识符ID号,用户所作的任何一次修改都会用一个标识符ID号进行标识,修改不仅包括内容,而且还包括文档的格式;这个ID号在文档保存之后以“修改标识”属性值的形式储存在00X文本文档中,而且这个ID号是完全随机产生的,与用户及修改时间没有任何关系。这些“修改标识”保存在document, xml文件中,数量较多,而且经过实验发现,替换这些“修改标识”属性值并不会影响00X文本文档的正常显示和使用,所以可以将待隐蔽的隐私信息(或加密后的隐私信息)转换为16进制字符串,然后依次替换这些“修改标识”的属性值即可达到隐藏信息的目的。
技术实现思路
为了防止利用基于修改标识符的00X文本文档隐写方法来进行信息隐藏和隐蔽通信,导致一些重要的信息通过这种方式泄露出去,本专利技术提出了一种针对基于修改标识符的00X文本文档隐私信息检测方法。为了达到检测目的,本专利技术采用了如下所述的技术方案:—种基于修改标识符的00X文本文档隐私信息检测方法,其步骤包括:I)将待检测的00X文本文档进行解压,形成层次化文件结构,该层次化文件结构中包含 document, xml 和 settings, xml 文件;2)提取解压得到的document, xml和settings, xml文件中的修改标识符,并将提取的该两个文件的修改标识符分别保存到两个容器中;3)对比两个容器中修改标识符的异同,进而统计出其中通过隐写工具嵌入的隐私信息的数量。步骤I)主要利用zlib中的Unzip进行解压,此外也可以采用其它解压工具或解压缩开发包代替Unzip。经过研究发现,在00X文本文档解压之后的文件结构中,只有document, xml和settings, xml文件中包含有修改标识符,因此本专利技术主要利用document.xml和settings, xml文件实现隐私信息的检测。步骤2)分别将提取到的修改标识符保存到两个容器中,如Vector向量,此外也可以采用其它模版、结构体或类的容器形式代替Vector向量。优选地,将修改标识符插入到容器中时需要进行去重和排序操作,排序的作用主要是为了后续统计文档所携带的隐私信息量时节省时间。步骤3)中,如果文档中不含有隐私信息,即document, xml中的修改标识没有被修改,那么settings, xml文件中的修改标识一定包含了 document, xml文件中所有修改标识符;如果文档中含有隐私信息,则基于修改标识符的隐写工具一定修改了 document,xml文件中的某一部分修改标识,这样就导致settings, xml中的修改标识无法全部包含document, xml文件中的修改标识。本专利技术通过对比document, xml的修改标识和settings,xml的修改标识,进而统计出隐私信息隐藏的数量。与现有技术相比,本专利技术的有益效果如下:利用基于修改标识符的00X文本文档隐写方法可以用来将一些重要信息或隐私信息隐蔽到00X文本文档之中,并通过网络发送的方式泄露出去,而不会引起察觉。采用人工检查的方法对网络发送的00X文本文档进行手工比对检查是非常费时、费力的工作。通过采用本专利技术所描述的检测方法,可以自动化地对文本文档进行检测,检测过程中无需人工干预,可以大大节省人力、时间成本。本专利技术的技术方案不仅可以用于对计算机、终端设备中存储的00X文本文档进行检查,也可以用于对局域网设备中传输的文档进行检测,还可以广泛应用于政府、企业等组织的网络出入口设备之中,用于对00X文本文档是否携带隐私信息进行检查,此外,也可以应用于电信运营商的相关检测设备与内容分发设备之中,用于对用户上传的00X文本文档是否可能携带有隐私信息进行检查。【附图说明】图1是基于修改标识符的隐写检测流程图。图2是00X文本文档解压之后的文档结构图。图3是基于修改标识符的隐写流程图。图4是document, xml文件修改标识示例图。图5是settings, xml文件修改标识示例图。【具体实施方式】为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本专利技术做进一步说明。本专利技术的
技术实现思路
主要分为三部分,第一部分是对00X文本文档档解压;第二部分是提取解压之后的document, xml和settings, xml文件中的修改标识符,并做相应的排序和去重操作;第三部分是利用整理后的修改标识符进行隐私信息的统计。图1是本专利技术的基于修改标识符的隐写检测的总体流程图,具体包括如下步骤:—、文件解压本专利技术解决的第一个问题是将00X文本文档进行解压,使其形成典型的层次化文件结构。基于修改标识符的隐写检测是针对OOX文本文档进行分析检测,由于OOX文本文档是压缩文件,因此首先需要对其进行解压。具体解压操作如下:I)利用unz0pen64()函数打开OOX文本文档,在函数内部生成一个unz64_s的结构体,这个结构体是使用所有函数的关键。2)使用UnzGoToFirstFile (unzFile,…)函数可以得到OOX文本文档中第一个文件的数据。3)调用unzOpenCurrentFi Ie (unzFile,…)函数,读取文件中的数据,利用unz641ocal_GetCurrentFiIeInfoInternal(unzFile, &s->cur_file_info, &s->cur_file_info_internal, name, 100, NULL, 0, NULL, 0)函数可以得到文件的名字。4)通过strcmpO函数对比得到的文件名是否是“document, xml”和“settings,xml”中的一种。如果判断是其中的一种,通过fwriteO函数写入到相应的路径下。5)调用UnzGoToNextFile (unzFile,…)函数可以得到00X文本文档中下一个的数据文件。循环执行该函数,直到将document, xml和settings, xml文件全部解压出来为止。6)通过unzClose (unzFile,…)函数关闭00X文本文档。图2是00X文本文档解本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN105046159.html" title="基于修改标识符的OOX文本文档隐私信息检测方法原文来自X技术">基于修改标识符的OOX文本文档隐私信息检测方法</a>

【技术保护点】
一种基于修改标识符的OOX文本文档隐私信息检测方法,其步骤包括:1)将待检测的OOX文本文档进行解压,形成层次化文件结构,该层次化文件结构中包含document.xml和settings.xml文件;2)提取解压得到的document.xml和settings.xml文件中的修改标识符,并将提取的该两个文件的修改标识符分别保存到两个容器中;3)对比两个容器中修改标识符的异同,进而统计出OOX文本文档所携带的总的隐私信息的数量。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴槟何晓磊赵险峰刘磊
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1