基于数据块的敏感数据过滤的方法和系统技术方案

技术编号:11013792 阅读:93 留言:0更新日期:2015-02-05 21:20
本发明专利技术公开了一种基于数据块的敏感数据过滤的方法和系统,涉及数据安全领域。本发明专利技术提供的技术方案,通过将数据划分成数据块,基于数据块,计算敏感数据的特征码和用户访问的数据的特征码,并对两种特征码进行比较,当与敏感数据的特征码相同的用户访问的数据的特征码的数量达到设定的阈值时,则可以判定用户访问的数据即为敏感数据,并禁止用户继续访问,从而实现敏感数据的保护。由于各种格式的文件都可以划分成一定大小的数据块,都可以计算数据块对应的特征码,因此,本发明专利技术可以实现对各种格式的文件进行敏感数据数据的过滤,保证所有格式的文件都不具有泄密风险。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于数据块的敏感数据过滤的方法和系统,涉及数据安全领域。本专利技术提供的技术方案,通过将数据划分成数据块,基于数据块,计算敏感数据的特征码和用户访问的数据的特征码,并对两种特征码进行比较,当与敏感数据的特征码相同的用户访问的数据的特征码的数量达到设定的阈值时,则可以判定用户访问的数据即为敏感数据,并禁止用户继续访问,从而实现敏感数据的保护。由于各种格式的文件都可以划分成一定大小的数据块,都可以计算数据块对应的特征码,因此,本专利技术可以实现对各种格式的文件进行敏感数据数据的过滤,保证所有格式的文件都不具有泄密风险。【专利说明】基于数据块的敏感数据过滤的方法和系统
本专利技术涉及数据安全领域,尤其涉及一种基于数据块的敏感数据过滤的方法和系统。
技术介绍
随着计算机办公的普遍应用,数据安全在各领域中都变得越来越重要,尤其是对于一些保密性强的行业,如果机密性资料外泄,则可能带来严重的后果,甚至带来巨大的损失。 目前,对敏感数据进行敏感词过滤是数据安全领域中常用的一种方法。这种方法需要读取数据流,并对数据流进行解析,读取解析后的数据内容,通过检索数据中的敏感词,判断解析出的数据是否为敏感数据。 由于无法对压缩文件进行解析,所以上述方法不能对压缩文件进行敏感数据过滤,从而使压缩文件具有泄密风险。
技术实现思路
本专利技术的目的在于提供一种基于数据块的敏感数据过滤的方法和系统,从而解决现有技术中存在的前述问题。 为了实现上述目的,本专利技术采用的技术方案如下: 本专利技术实施例一方面提供了一种基于数据块的敏感数据过滤的方法,该方法包括如下步骤: SI,基于数据块,计算敏感数据特征码,构建敏感数据特征码库; S2,监控用户访问数据的行为,监控到用户访问数据的行为时,按照步骤SI中所述计算敏感数据特征码的方法,计算用户访问的数据的特征码; S3,将所述用户访问的数据的特征码与所述敏感数据特征码库比对,获得与所述敏感数据特征码相同的所述用户访问的数据的特征码,并存储累计; S4,当步骤S3中获得与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量达到设定的阈值时,可以判定所述用户访问的数据是敏感数据;当与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量未达到所述设定的阈值时,重复步骤S2-S4,直到用户访问行为结束; S5,若所述用户访问的数据是敏感数据,则禁止用户继续访问数据。 进一步地,步骤S5中,所述禁止用户继续访问数据之前还包括步骤,显示警告信肩、O 其中,所述显示警告信息,具体采用弹出提示框的方式。 进一步地,步骤S5中,所述禁止用户继续访问数据的同时或之后还包括步骤,记录并存储用户访问行为,并将所述用户访问数据的行为信息发送至管理员。 其中,所述将所述用户访问数据的行为信息发送至管理员,具体采用发送邮件的方式。 具体地,所述数据块根据所述敏感数据的大小进行划分。 优选地,所述数据块的大小为4kb。 其中,步骤SI中所述计算敏感数据特征码,具体为,计算敏感数据的MD5值。 其中,步骤S5中,所述禁止用户继续访问数据,具体采用锁定计算机的方式。 本专利技术实施例的另一个方面提供了一种基于数据块的敏感数据过滤的系统,该系统包括: 特征码计算模块:用于基于数据块,计算敏感数据特征码和计算用户访问的数据的特征码; 敏感数据特征码库:用于存储敏感数据特征码; 数据监控模块:用于监控用户访问的数据; 数据比对模块:用于将所述用户访问的数据的特征码与所述敏感数据特征码库比对;还用于比较与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量和设定的阈值。 本专利技术的有益效果是:通过将数据划分成数据块,基于数据块,计算敏感数据的特征码和用户访问的数据的特征码,并对两种特征码进行比较,当与敏感数据的特征码相同的用户访问的数据的特征码的数量达到设定的阈值时,则可以判定用户访问的数据即为敏感数据,并禁止用户继续访问,从而实现敏感数据的保护。由于各种格式的文件都可以划分成一定大小的数据块,都可以计算数据块对应的特征码,因此,本专利技术实施例提供的基于数据块的敏感数据过滤的方法和系统,可以实现对各种格式的文件进行敏感数据数据的过滤,保证所有格式的文件都不具有泄密风险。 【专利附图】【附图说明】 图1是本专利技术实施例提供的基于数据块的敏感数据过滤的方法的流程图。 【具体实施方式】 为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的【具体实施方式】仅仅用以解释本专利技术,并不用于限定本专利技术。 如图1所示,本专利技术实施例提供了一种基于数据块的敏感数据过滤的方法,包括如下步骤: SI,基于数据块,计算敏感数据特征码,构建敏感数据特征码库。 其中,所述数据块根据所述敏感数据的大小进行划分。假如敏感数据是些小文件,比如都是些I兆的小文件,则划分的数据块就可以小一些,反之如果敏感数据是比较大的文件,比如都是几百兆的大文件,则划分的数据块就可以大一些。因为,数据块越小,对应的特征码越多,进行数据过滤时准确率就会越高,越不容易出错,但是,数据块越小,计算特征码的次数越多,则系统的效率越低。所以在划分数据块时,可以参考敏感数据的文件大小。 本专利技术实施例中,所述数据块的大小为4kb。对于大多数的敏感数据而言,可以既保证过滤的精确度,也可以保证计算的效率。 另外,本专利技术实施例中,步骤SI中所述计算敏感数据特征码,具体为,计算敏感数据的MD5值。 由于MD5计算时,将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生一个唯一的MD5信息摘要,即MD5值。所以,对于一个文件,只存在一个MD5值,如果该文件进行了任意的变动,MD5值都会发生变化,故对数据进行MD5计算,得到的MD5值作为数据对应的特征码会更加准确。 在本专利技术实施例中,以MD5值作为敏感数据的数据块对应的特征码,可以准确的标记这些数据块,从而在数据过滤时,可以实现被访问数据是否为敏感数据的准确的判定,而不会出现误判或错判的情况。 如本领域普通技术人员可以理解的,还可以采用其他的本领域常用的特征码和计算特征码的方法。 S2,监控用户访问数据的行为,监控到用户访问数据的行为时,按照步骤SI中所述计算敏感数据特征码的方法,计算用户访问的数据的特征码。 本专利技术实施例中,为了在敏感数据的特征码库中检索用户访问的数据的特征码相同的敏感数据特征码,判定该特征码对应的用户访问数据的数据块是否为敏感数据块,所以在计算用户访问数据的特征码时,采用与敏感数据特征码相同的计算方法和相同的特征码。 在本专利技术实施例中,当步骤SI中的敏感数据特征码为MD5值时,步骤S2中的用户访问的数据的特征码也为MD5值,该MD5值的计算方法也同步骤SI中的计算MD5值的方法。 S3,将所述用户访问的数据的特征码与所述敏感数据特征码库比对,获得与所述敏感数据特征码相同的所述用户访问的数据的特征码,并存储累计; S4,当步骤S3中获得与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量达到设定的阈值时,可以判定所述用户访问的数据是敏感数据;本文档来自技高网...

【技术保护点】
一种基于数据块的敏感数据过滤的方法,其特征在于,包括如下步骤:S1,基于数据块,计算敏感数据特征码,构建敏感数据特征码库;S2,监控用户访问数据的行为,监控到用户访问数据的行为时,按照步骤S1中所述计算敏感数据特征码的方法,计算用户访问的数据的特征码;S3,将所述用户访问的数据的特征码与所述敏感数据特征码库比对,获得与所述敏感数据特征码相同的所述用户访问的数据的特征码,并存储累计;S4,当步骤S3中获得与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量达到设定的阈值时,可以判定所述用户访问的数据是敏感数据;当与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量未达到所述设定的阈值时,重复步骤S2‑S4,直到用户访问行为结束;S5,若所述用户访问的数据是敏感数据,则禁止用户继续访问数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨耀敏赵君翔
申请(专利权)人:北京云巢动脉科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1