扫描全盘数据的方法及装置制造方法及图纸

技术编号:24573819 阅读:35 留言:0更新日期:2020-06-21 00:05
本发明专利技术公开了一种扫描全盘数据的方法及装置。其中,该方法包括:对扫描文件进行格式转换,得到文本对象;对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果。本发明专利技术解决了现有技术的终端数据防泄漏系统中普遍采用全盘敏感数据扫描方式,由于该扫描方式效率低且协同能力差,导致识别数据速率慢的技术问题。

The method and device of scanning the whole data

【技术实现步骤摘要】
扫描全盘数据的方法及装置
本专利技术涉及数据安全领域,具体而言,涉及一种扫描全盘数据的方法及装置。
技术介绍
目前,终端数据防泄漏系统,作为传统、成熟的数据安全工具,也逐渐跟随市场需求,慢慢向智能化、协同化的方向发展,以实现更高的保护效率与更好的防护效果。成熟的终端数据防泄漏系统中均应用了全盘敏感数据扫描功能,提前对本地数据进行敏感属性识别,降低实时扫描造成的传输或应用延迟,优化用户的使用感受。现有终端数据防泄漏系统全盘敏感数据扫描功能的执行流程如图1所示,区别于网关式敏感数据扫描,终端数据防泄漏系统中的全盘扫描方式基本均在本地执行,依托终端的本地计算能力,在闲时进行数据识别与标记,从而避免影响用户的正常使用。但是,现在应用的全盘敏感数据扫描方法存在一些缺陷,限制了扫描效率,对全盘扫描这种数据量非常大的识别流程造成了速度损失。第一点,目前的方法均针对完整文件进行扫描识别,并依靠文件哈希、修改时间等一些对象元数据进行索引,避免对相同文件进行二次扫描,从而形成类似扫描文件索引的机制,通过筛选扫描文件的方式提高了全盘扫描的速度。但该方式对具有历史记录的文件修改或相似文件不具有完善的索引识别能力,即索引元数据无法有效过滤这部分文件,全盘扫描时依然会扫描这部分文件内容,一定程度影响了扫描速度。第二点,终端间扫描结果的共享能力及扫描算力的协同能力较差。扫描结果共享仅针对一些静态的扫描文件开展,未能对一些内容动态变化的对象扫描结果进行更有效率的全局性共享。同时,考虑终端间可用算力与可扫描闲时的区别,目前使用的全盘扫描方法没有很好地利用终端间的协同能力,形成互帮互助的效果。因此,目前终端数据防泄漏系统中,针对全盘敏感数据扫描的协同能力总体而言是相对较差的,没有发挥终端的整体能力。综合上述两点,现有的终端数据防泄漏系统中的全盘敏感数据扫描功能在部分指标,尤其是扫描速度指标上依然存在不足,特别是在全盘存在大量扫描文件的情况下,全盘扫描速度不理想,直接或间接影响了用户的正常使用,一定程度降低了使用感受,制约了生产力的持续提高,也在潜移默化中影响了数据安全防护工作的有效开展,较低的扫描效率可能导致用户产生抵触心理,影响数据防泄漏系统正常发挥效用。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种扫描全盘数据的方法及装置,以至少解决现有技术的终端数据防泄漏系统中普遍采用全盘敏感数据扫描方式,由于该扫描方式效率低且协同能力差,导致识别数据速率慢的技术问题。根据本专利技术实施例的一个方面,提供了一种扫描全盘数据的方法,包括:对扫描文件进行格式转换,得到文本对象;对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果。可选地,对扫描文件进行格式转换,得到文本对象,包括:识别上述扫描文件的格式;将上述扫描文件的格式转换为文本格式,得到上述文本对象。可选地,对上述文本对象进行文本对象化分层,包括:获取上述文本对象的元数据信息;使用上述文本对象的元数据信息查找文件索引,获取上述文本对象的层信息以及扫描上述文本对象得到的扫描结果;基于上述文本对象的层信息分析上述文本对象,获取修改后的文本对象的对象层。可选地,使用上述文本对象的元数据信息查找文件索引,获取上述文本对象的层信息以及扫描上述文本对象得到的扫描结果,包括:基于上述文本对象的元数据信息,查找是否存在与上述文本对象关联的层信息,其中,上述层信息为上述文本对象的历史文本对象层;若存在与上述文本对象关联的层信息,确定历史文本内容与当前的上述扫描文件的文本内容是否存在区别;若不存在与上述文本对象关联的层信息,或上述历史文本内容与当前的上述扫描文件的文本内容的区别内容超过预定范围,则确定上述扫描文件为一层。可选地,如果上述历史文本内容与当前的上述扫描文件的文本内容的区别内容没有超过预定范围,确定上述区别内容为一层。可选地,基于扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果,包括:基于上述扫描文件的元数据执行相似度算法,得到计算结果;基于上述计算结果,确定在上述多个对象层中存在变化的对象层中是否命中与上述扫描文件匹配的结果,得到上述扫描结果。可选地,基于上述扫描文件的元数据执行相似度算法,得到计算结果,包括:基于上述相似度算法,对上述对象层包含的文本内容进行计算,获得对象层指纹;基于上述计算结果,确定在上述多个对象层中存在变化的对象层中是否命中与上述扫描文件匹配的结果,得到上述扫描结果,包括:基于全局对象层指纹索引,对上述对象层指纹进行匹配,在命中的情况下执行关键字匹配算法生成上述扫描结果。可选地,在基于扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果之后,上述方法还包括:将对象层的上述扫描结果分发至分组内其他终端,并不断整合形成全局的扫描结果进行共享;将分层的文本对象层整合为单对象层,并在此基础上整合扫描结果并重新发布。根据本专利技术实施例的另一方面,还提供了一种扫描全盘数据的装置,包括:转换模块,用于对扫描文件进行格式转换,得到文本对象;分层处理模块,用于对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;扫描模块,用于基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果。可选地,上述转换模块包括:识别模块,用于识别上述扫描文件的格式;格式转换模块,用于将上述扫描文件的格式转换为文本格式,得到上述文本对象。可选地,上述分层处理模块包括:获取模块,用于获取上述文本对象的元数据信息;查找模块,用于使用上述文本对象的元数据信息查找文件索引,获取上述文本对象的层信息以及扫描上述文本对象得到的扫描结果;分析模块,用于基于上述文本对象的层信息分析上述文本对象,获取修改后的文本对象的对象层。可选地,上述扫描模块包括:查找模块,用于基于上述文本对象的元数据信息,查找是否存在与上述文本对象关联的层信息,其中,上述层信息为上述文本对象的历史文本对象层;第一确定模块,用于若存在与上述文本对象关联的层信息,确定历史文本内容与当前的上述扫描文件的文本内容是否存在区别;第二确定模块,用于若不存在与上述文本对象关联的层信息,或上述历史文本内容与当前的上述扫描文件的文本内容的区别内容超过预定范围,则确定上述扫描文件为一层。可选地,上述装置还包括:第三确定模块,用于如果上述历史文本内容与当前的上述扫描文件的文本内容的区别内容没有超过预定范围,确定上述区别内容为一层。可选地,上述扫描模块包括:计算模块,用于基于上述扫描文件的元数据执行相似度算法,得到计算结果;匹配模块,用于基于上述计算结果,确定在上述多个对象层中存在变化的对象层中是否命中与上述扫描文件匹配的结果,得到上述扫描结果。可选地,上述装置还包括:分本文档来自技高网
...

【技术保护点】
1.一种扫描全盘数据的方法,其特征在于,包括:/n对扫描文件进行格式转换,得到文本对象;/n对所述文本对象进行文本对象化分层,其中,所述文本对象化分层用于将所述文本对象构建为单层的文本对象,得到所述文本对象的多个对象层;/n基于所述扫描文件的元数据,扫描所述多个对象层中存在变化的对象层,得到扫描结果。/n

【技术特征摘要】
1.一种扫描全盘数据的方法,其特征在于,包括:
对扫描文件进行格式转换,得到文本对象;
对所述文本对象进行文本对象化分层,其中,所述文本对象化分层用于将所述文本对象构建为单层的文本对象,得到所述文本对象的多个对象层;
基于所述扫描文件的元数据,扫描所述多个对象层中存在变化的对象层,得到扫描结果。


2.根据权利要求1所述的方法,其特征在于,对扫描文件进行格式转换,得到文本对象,包括:
识别所述扫描文件的格式;
将所述扫描文件的格式转换为文本格式,得到所述文本对象。


3.根据权利要求2所述的方法,其特征在于,对所述文本对象进行文本对象化分层,包括:
获取所述文本对象的元数据信息;
使用所述文本对象的元数据信息查找文件索引,获取所述文本对象的层信息以及扫描所述文本对象得到的扫描结果;
基于所述文本对象的层信息分析所述文本对象,获取修改后的文本对象的对象层。


4.根据权利要求3所述的方法,其特征在于,使用所述文本对象的元数据信息查找文件索引,获取所述文本对象的层信息以及扫描所述文本对象得到的扫描结果,包括:
基于所述文本对象的元数据信息,查找是否存在与所述文本对象关联的层信息,其中,所述层信息为所述文本对象的历史文本对象层;
若存在与所述文本对象关联的层信息,确定历史文本内容与当前的所述扫描文件的文本内容是否存在区别;
若不存在与所述文本对象关联的层信息,或所述历史文本内容与当前的所述扫描文件的文本内容的区别内容超过预定范围,则确定所述扫描文件为一层。


5.根据权利要求4所述的方法,其特征在于,如果所述历史文本内容与当前的所述扫描文件的文本内容的区别内容没有超过预定范围,确定所述区别内容为一层。


6.根据权利要求1-5中任意一项所述的方法,其特征在于,基于扫描文件的元数据,扫描所述多个对象层中存在变化的对象层,得到扫描结果,包括:
基于所述扫描文件的元数据执行相似度算法,得到计算结果;
基于所述计算结果,确定在所述多个对象层中存在变化的对象层中是否命中与所述扫描文件匹配的结果,得到所述扫描结果。


7.根据权利要求6所述的方法,其特征在于,
基于所述扫描文件的元数据执行相似度算法,得到计算结果,包括:基于所述相似度算法,对所述对象层包含的文本内容进行计算,获得对象层指纹;
基于所述计算结果,确定在所述多个对象层中存在变化的对象层中是否命中与所述扫描文件匹配的结果,得到所述扫描结果,包括:基于全局对象层指纹索引,对所述对象层指纹进行匹配,在命中的情况下执行关键字匹配算法生成所述扫描结果。


8.根据权利要求1所述的方法,其特征在于,在基于扫描文件的元数据,扫描所述多个对象层中存在变化的对象层,得到扫描结果之后,所述方法还包括:
将对象层的所述扫描结果分发至分组内其他终端,并不断整合形成全局的扫描结果进行共享;
将分层的文本对象层整合为单对象层,并在...

【专利技术属性】
技术研发人员:李静华王志海喻波秦凯安鹏
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1