用于数据泄露防护的方法和系统技术方案

技术编号:13589573 阅读:90 留言:0更新日期:2016-08-25 16:56
本发明专利技术公开了用于数据泄露防护的方法和系统。包括:一种从文档中提取数据特征以得到第一数据指纹和第二数据指纹的方法,利用所提取的数据特征判断第一文档和第二文档是否相关的判断方法、以及根据相关度判断可疑文档是否包含敏感内容的方法。同时本发明专利技术也提供了相应的提取文档数据特征的设备、判断第一文档和第二文档是否相关的判断设备、以及判断可疑文档是否包含敏感内容的设备。

【技术实现步骤摘要】

本专利技术数据安全
,尤其是用于数据泄露防护的方法和系统
技术介绍
近年来,随着信息技术的飞速发展,数据安全在信息化企业的日常运作过程中显得尤为重要。如果数据遭到恶意篡改或破坏,可能会给企业造成无法挽回的损失。为了提高数据安全性,往往需要设定一些数据安全策略,以对数据进行监控和保护。在当前大数据的环境下,随着企业数据量的增大,如何对不断增加的数据进行快速、有效地监控和保护,成为当前数据安全领域面对的一个重要问题。目前,许多企业为了防止数据的泄漏,在内网中部署了数据泄漏防护(Dataleakage prevention,DLP)系统,以确保敏感数据的安全。数据泄漏防护系统通过软件对敏感数据进行监控和保护,并通过一定的技术手段,防止企业的指定数据或信息资产以违反安全策略规定的形式流出企业,以保证敏感数据不被丢失和泄露。所以在DLP系统中,数据特征的提取和对敏感数据的匹配是甚为关键的一步。传统的DLP系统中通常采用人工设置关键词或者对整个文件生成数据指纹的方式来提取数据特征,前者无法自动完成特征提取,后者当文件很大时,提取的准确性会降低。另外,对于敏感数据的匹配,通常会采用规则匹配和哈希匹配算法,同样地,当面对较大文件时,算法性能和准确度都会严重下降。
技术实现思路
为此,本专利技术提供了用于数据泄露防护的方法和系统,以力图解决或者至少缓解上面存在的至少一个问题。根据本专利技术的一个方面,提供了一种从文档中提取数据特征的方法,其中提取的数据特征包括第一数据指纹和第二数据指纹,包括步骤:按照顺序对文档中的数据进行分块,基于每个数据块中的数据内容来计算该数据块的数据特征串,再组合每个数据块的数据特征串来构造该文档的第一数据指纹;对文档进行分词处理,以便获得词序列,按照顺序对文档的词序列进行分块,基于每个词块中的数据内容来计算该词块的数据特征串,再组合每个词块的数据特征串来构造该文档的第二数据指纹。根据本专利技术的另一方面,提供了一种判断第一文档和第二文档是否相关的判断方法,包括步骤:对第一文档执行如上所述的数据特征提取方法,提取文档的数据特征得到第一特征集合;对第二文档执行如上所述的数据特征提取方法,提取文档的数据特征得到第二特征集合;以及计算第一特征集合与第二特征集合的相似度,若相似度达到预定范围,则认为该第一文档和第二文档相关。根据本专利技术的另一方面,提供了一种判断可疑文档是否包含敏感内容的方法,包括步骤:对受保护文档执行如上所述的数据特征提取方法,提取该文档的数据特征,建立特征库;再提取可疑文档的数据特征,执行上述判断文档是否相关的判断方法,判断可疑文档与特征库中的受保护文档是否相关:若判断可疑文档与受保护文档相关,则认为可疑文档包含敏感内容;若判断可疑文档与受保护文档不相关,则认为可疑文档不包含敏感内容。相应地,本专利技术还提供了从文档中提取数据特征的设备、判断第一文档和第二文档是否相关的判断设备、判断可疑文档是否包含敏感内容的设备。根据本专利技术的再一方面,提供了一种数据泄露防护系统,包括:计算设备,与数据安全防护设备相连;以及数据安全防护设备,包括:文档获取设备、如上所述的敏感内容判断设备、控制策略获取设备和控制设备。基于上文的描述,本方案采用对文档进行分块,提取数据块和词块的数据指纹的方式来提取文档的数据特征。计算每个分块的数据指纹,并且采用局部敏感哈希(LSH)算法来生成数据指纹,能够有效地防止相似数据的泄露,并且当文档很大时,也能保证特征提取的准确性。在特征匹配方面,本方案采用单一匹配数据特征串的相似度(即,单一匹配)或者计算相似数据特征串比重(即,基准匹配)的方式,对文档中的相似内容进行匹配判断,可选地,可以用汉明距离或Jaccard系数表征文档间的相似度。这样,能更加全方位地进行敏感数据匹配,防止敏感数据泄露,进而有效避免各种文档外泄手段。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本专利技术一个实施例的数据泄露防护系统100的示意图;图2A示出了根据本专利技术一个实施例的从文档中提取数据特征的方法200的流程图;图2B示出了根据本专利技术另一个实施例的从文档中提取数据特征的方法200的流程图;图3A示出了根据本专利技术一个实施例的从文档中提取数据特征的设备300的示意图;图3B示出了根据本专利技术另一个实施例的从文档中提取数据特征的设备300的示意图;图4示出了根据本专利技术一个实施例的判断第一文档和第二文档是否相关的判断方法400的流程图;图5示出了根据本专利技术一个实施例的判断第一文档和第二文档是否相关的判断设备500的示意图;图6示出了根据本专利技术一个实施例的判断可疑文档是否包含敏感内容的方法600的流程图;图7示出了根据本专利技术一个实施例的判断可疑文档是否包含敏感内容的设备700的示意图;以及图8示例性地示出了分块处理的示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一个实施例的数据泄露防护系统100的示意图。在企业内部,计算设备110之间通过局域网相连接,这里,计算设备110的组件可以包括但不限于:一个或者多个处理器或者处理单元、系统存储器、连接不同系统组件(包括系统存储器和处理单元)的总线。同时要注意的是,除了传统的计算设备(例如,电脑),适于用来实现本专利技术实施例的计算设备110还包括移动电子设备,包括但不限于移动电话、PDA、平板电脑等,以及处于企业办公环境中的服务器、打印机、CD/DVD等。用于数据泄露防护的数据安全防护设备120布置在该局域网中,通过局域网与所有计算设备110相连接。如图1所示,该防护设备120包括:文档获取设备122、敏感内容判断设备700、控制策略获取设备124、和控制设备126。文档获取设备122适于实时监控处于局域网中的所有计算设备110,当监测到计算设备110发送文档时,获取计算设备110发送的文档内容。这里,文档可以是即时通信的聊天信息,和/或,即时通信传输的图片/文档。敏感内容判断设备700适于判断获取的文档是否包含敏感内容,对于该设备700会在下文进行详细介绍。控制策略获取设备124适于在判断文档是否包含敏感内容的同时,获取与该文档相关的进程对应的控制策略。可选地,控制策略可以有:当指定进程为打印时采取禁止打印的策略,当指定进程为发送文件时采取乱码字符串的策略。控制设备126适于当判断可疑文档包含敏感内容时,根据所获取的控制策略对所述文档的操作行为进行控制。例如,用标识乱码的字符串替换所述文档中需要传输的数据内容中的敏感数据。基于上文对系统100的描述,在本系统中,如何准确地匹配到敏感内容是实现数据安全防护的关键所在,也就是敏感内容判断本文档来自技高网...

【技术保护点】
一种从文档中提取数据特征的方法,包括步骤:按照顺序对所述文档中的数据进行分块,以得到一个或者多个第一预定长度的数据块,其中相邻数据块之间相互重叠第二预定长度;对于所得到的一个或者多个数据块,基于所述每个数据块中的数据内容来计算该数据块的数据特征串;以及组合每个数据块的数据特征串来构造该文档的第一数据指纹以作为该文档的数据特征。

【技术特征摘要】
1.一种从文档中提取数据特征的方法,包括步骤:按照顺序对所述文档中的数据进行分块,以得到一个或者多个第一预定长度的数据块,其中相邻数据块之间相互重叠第二预定长度;对于所得到的一个或者多个数据块,基于所述每个数据块中的数据内容来计算该数据块的数据特征串;以及组合每个数据块的数据特征串来构造该文档的第一数据指纹以作为该文档的数据特征。2.如权利要求1所述的方法,还包括步骤:对所述文档进行分词处理,以便获得词序列;按照顺序对所述文档中的词序列进行分块,以得到一个或者多个第三预定长度的词块,其中相邻词块之间相互重叠第四预定长度;对于所得到的一个或者多个词块,基于所述每个词块中的数据内容来计算该词块的数据特征串;以及组合每个词块的数据特征串来构造该文档的第二数据指纹以作为该文档的数据特征。3.如权利要求2所述的方法,其中所述对文档进行分词处理的步骤包括:采用基于词典的分词算法进行分词处理,其中所述分词算法包含一个词典、两种匹配算法和四个消除歧义的规则。4.如权利要求1-3中任一项所述的方法,其中所述基于数据块中的数据内容来计算该数据块的数据特征串的步骤包括:依次选择所述数据块中第五预定长度的数据子块,其中相邻数据子块之间相互重叠第六预定长度;对于每个数据子块,根据所述数据子块的内容计算第七预定长度的特征值列表;以及基于所有数据子块的特征值列表以构造该数据块的数据特征串。5.一种从文档中提取数据特征的设备,所述设备包括:分块模块,适于按照顺序对所述文档中的数据进行分块,以得到一个或者多个第一预定长度的数据块,其中相邻数据块之间相互重叠第二预定长度;计算模块,适于对所得到的一个或者多个数据块,基于所述每个数据块中的数据内容来计算该数据块的数据特征串;以及特征提取模块,适于组合每个数据块的数据特征串来构造该文档的第一数据指纹以作为该文档的数据特征。6.一种判断第一文档和第二文档是否相关的判断方法,所述方法包括步骤:对所述第一文档执行如权利要求1-4中任一项所述的方法,提取文档的数据特征得到第一特征集合,其中所述第一特征集合包括:第一文档的第一数据指纹和/或第二数据指纹;对所述第二文档执行如权利要求1-4中任一项所述的方法,提取文档的数据特征得到第二特征集合,其中所述第二特征集合包括:第二文档的第一数据指纹和/或第二数据指纹;以及...

【专利技术属性】
技术研发人员:李唱康靖陈虎
申请(专利权)人:宝利九章北京数据技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1