用于数据泄露防护的方法和系统技术方案

技术编号：13589573 阅读：90 留言：0更新日期：2016-08-25 16:56

本发明专利技术公开了用于数据泄露防护的方法和系统。包括：一种从文档中提取数据特征以得到第一数据指纹和第二数据指纹的方法，利用所提取的数据特征判断第一文档和第二文档是否相关的判断方法、以及根据相关度判断可疑文档是否包含敏感内容的方法。同时本发明专利技术也提供了相应的提取文档数据特征的设备、判断第一文档和第二文档是否相关的判断设备、以及判断可疑文档是否包含敏感内容的设备。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术数据安全
，尤其是用于数据泄露防护的方法和系统。
技术介绍
近年来，随着信息技术的飞速发展，数据安全在信息化企业的日常运作过程中显得尤为重要。如果数据遭到恶意篡改或破坏，可能会给企业造成无法挽回的损失。为了提高数据安全性，往往需要设定一些数据安全策略，以对数据进行监控和保护。在当前大数据的环境下，随着企业数据量的增大，如何对不断增加的数据进行快速、有效地监控和保护，成为当前数据安全领域面对的一个重要问题。目前，许多企业为了防止数据的泄漏，在内网中部署了数据泄漏防护(Dataleakage prevention,DLP)系统，以确保敏感数据的安全。数据泄漏防护系统通过软件对敏感数据进行监控和保护，并通过一定的技术手段，防止企业的指定数据或信息资产以违反安全策略规定的形式流出企业，以保证敏感数据不被丢失和泄露。所以在DLP系统中，数据特征的提取和对敏感数据的匹配是甚为关键的一步。传统的DLP系统中通常采用人工设置关键词或者对整个文件生成数据指纹的方式来提取数据特征，前者无法自动完成特征提取，后者当文件很大时，提取的准确性会降低。另外，对于敏感数据的匹配，通常会采用规则匹配和哈希匹配算法，同样地，当面对较大文件时，算法性能和准确度都会严重下降。
技术实现思路
为此，本专利技术提供了用于数据泄露防护的方法和系统，以力图解决或者至少缓解上面存在的至少一个问题。根据本专利技术的一个方面，提供了一种从文档中提取数据特征的方法，其中提取的数据特征包括第一数据指纹和第二数据指纹，包括步骤：按照顺序对文档中的数据进行分块，基于每个数据块中的数据内容来计算该数据块...

【技术保护点】
一种从文档中提取数据特征的方法，包括步骤：按照顺序对所述文档中的数据进行分块，以得到一个或者多个第一预定长度的数据块，其中相邻数据块之间相互重叠第二预定长度；对于所得到的一个或者多个数据块，基于所述每个数据块中的数据内容来计算该数据块的数据特征串；以及组合每个数据块的数据特征串来构造该文档的第一数据指纹以作为该文档的数据特征。

【技术特征摘要】
1.一种从文档中提取数据特征的方法，包括步骤：按照顺序对所述文档中的数据进行分块，以得到一个或者多个第一预定长度的数据块，其中相邻数据块之间相互重叠第二预定长度；对于所得到的一个或者多个数据块，基于所述每个数据块中的数据内容来计算该数据块的数据特征串；以及组合每个数据块的数据特征串来构造该文档的第一数据指纹以作为该文档的数据特征。2.如权利要求1所述的方法，还包括步骤：对所述文档进行分词处理，以便获得词序列；按照顺序对所述文档中的词序列进行分块，以得到一个或者多个第三预定长度的词块，其中相邻词块之间相互重叠第四预定长度；对于所得到的一个或者多个词块，基于所述每个词块中的数据内容来计算该词块的数据特征串；以及组合每个词块的数据特征串来构造该文档的第二数据指纹以作为该文档的数据特征。3.如权利要求2所述的方法，其中所述对文档进行分词处理的步骤包括：采用基于词典的分词算法进行分词处理，其中所述分词算法包含一个词典、两种匹配算法和四个消除歧义的规则。4.如权利要求1-3中任一项所述的方法，其中所述基于数据块中的数据内容来计算该数据块的数据特征串的步骤包括：依次选择所述数据块中第五预定长度的数据子块，其中相邻数据子块之间相互重叠第六预定长度；对于每个数据子块，根据所述数据子块的内容计算第七预定长度的特征值列表；以及基于所有数据子块的特征值列表以构造该数据块的数据特征串。5.一种从文档中提取数据特征的设备，所述设备包括：分块模块，适于按照顺序对所述文档中的数据进行分块，以得到一个或者多个第一预定长度的数据块，其中相邻数据块之间相互重叠第二预定长度；计算模块，适于对所得到的一个或者多个数据块，基于所述每个数据块中的数据内容来计算该数据块的数据特征串；以及特征提取模块，适于组合每个数据块的数据特征串来构造该文档的第一数据指纹以作为该文档的数据特征。6.一种判断第一文档和第二文档是否相关的判断方法，所述方法包括步骤：对所述第一文档执行如权利要求1-4中任一项所述的方法，提取文档的数据特征得到第一特征集合，其中所述第一特征集合包括：第一文档的第一数据指纹和/或第二数据指纹；对所述第二文档执行如权利要求1-4中任一项所述的方法，提取文档的数据特征得到第二特征集合，其中所述第二特征集合包括：第二文档的第一数据指纹和/或第二数据指纹；以及...

【专利技术属性】
技术研发人员：李唱，康靖，陈虎，
申请(专利权)人：宝利九章北京数据技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人