The invention discloses a system and method for determining a text containing confidential data. The invention relates to a system and a method for preventing the loss of confidential data in a computer system. The technology includes: searching one or more keywords in text data, then calculating the density of keywords in text data based on one or more keywords matching with text data. This technology classifies text data into classified data based on whether the density of keywords exceeds the threshold. If the density of keywords exceeds the threshold, the system can prevent the use of text data containing confidential data in various ways.
【技术实现步骤摘要】
确定包含机密数据的文本的系统和方法
本专利技术总体涉及数据安全领域,更具体地,涉及通过确定包含机密数据的文本来防止信息泄露的系统和方法。
技术介绍
由于近来越来越多的网络犯罪和越来越多的信息窃取,越来越需要防止信息泄露(有时也称为数据丢失防护或者数据泄露防护(DLP))的系统。DLP系统的主要问题之一是防止个人数据(文本)和机密数据(文本)的泄露,诸如护照数据、驾驶执照数据、银行卡数据等的泄露。为了检测个人数据和机密数据,通常采用这样的方法,其包括检测彼此并列的多个关键字。例如,对于护照,关键字是字“series”和护照系列号、字“number”和护照号码数字、字组合“dateofissue”和护照的实际签发日期。然而,实际上,某些关键字可能不存在、其它关键字之间的距离可能很大或者不可预测以及关键字本身可能涉及不同类型的机密数据。例如,在字“series”之后,可能会出现特定产品的条形码,该条形码可能会被错认为是护照号码。在这种情况下,已知技术产生误报或虚假警报,即这样一种情况:文本被确定为包含机密数据,尽管事实上该本文并不包含机密数据。因此,数据丢失防护技术需要 ...
【技术保护点】
1.一种用于防止计算机系统中的数据丢失的方法,其中,所述方法包括:在文本数据中搜索多个关键字,以确定与所述文本数据匹配的一个或多个关键字;基于与所述文本数据匹配的所述一个或多个关键字,计算所述文本数据中的关键字的密度;基于所述关键字的密度是否超过阈值,确定所述文本数据包含机密数据;以及阻止使用包含机密数据的所述文本数据。
【技术特征摘要】
2017.07.06 US 15/642,6591.一种用于防止计算机系统中的数据丢失的方法,其中,所述方法包括:在文本数据中搜索多个关键字,以确定与所述文本数据匹配的一个或多个关键字;基于与所述文本数据匹配的所述一个或多个关键字,计算所述文本数据中的关键字的密度;基于所述关键字的密度是否超过阈值,确定所述文本数据包含机密数据;以及阻止使用包含机密数据的所述文本数据。2.根据权利要求1所述的方法,其中,基于与所述文本数据匹配的所述一个或多个关键字计算所述文本数据中的所述关键字的密度,还包括:确定匹配的所述关键字中的字符的数量;确定所述文本数据的字符的总数量;以及将所述文本数据中的所述关键字的密度计算为匹配的所述关键字中的所述字符的数量与所述文本数据的所述字符的总数量的比值。3.根据权利要求2所述的方法,其中,所述文本数据的所述字符的总数量不包括空格字符和非字母数字字符中的至少一者。4.根据权利要求1所述的方法,其中,基于与所述文本数据匹配的所述一个或多个关键字计算所述文本数据中的所述关键字的密度还包括:确定匹配的关键字的数量;确定所述文本数据的字的总数量;以及将所述文本数据中的所述关键字的密度计算为所述匹配的关键字的数量与所述文本数据的所述字的总数量的比值。5.根据权利要求1所述的方法,其中,基于与每个匹配的关键字相关联的加权因子来计算所述文本数据中的所述关键字的密度。6.根据权利要求5所述的方法,其中,匹配的第一关键字的所述加权因子的值取决于匹配的第二关键字在所述文本数据中的出现次数。7.根据权利要求1所述的方法,还包括:将所述文本数据划分成多个第一长度的子文本,并且针对每个子文本计算相应的关键字的密度。8.一种用于防止计算机系统中的数据丢失的系统,其中,所述系统包括:存储器设备;以及至少一个处理器,所述处理器配置成:在文本数据中搜索多个关键字,以确定与所述文本数据匹配的一个或多个关键字;基于与所述文本数据匹配的所述一个或多个关键字,计算所述文本数据中的关键字的密度;基于所述关键字的密度是否超过阈值,确定所述文本数据包含机密数据;以及阻止使用包含机密数据的所述文本数据。9.根据权利要求8所述的系统,其中,配置成基于与所述文本数据匹配的所述一个或多个关键字计算所述文本数据中的所述关键字的密度的所述处理器还配置成:确定匹配的所述关键字中的字符的数量;确定所述文本数据的字符的总数量;以及将所述文本数据中的所述关键字的密度计算为匹配的所述关键字中的所述字符的数量与所述文本数据的所述字符的总数量的比值。10.根据权利要求9所述的系统,其中,所述文本数据的所述字符的总数量不包括空格字符和非字母数字字符中的至少一者。11.根据权利要求8所述的系统,其中,...
【专利技术属性】
技术研发人员:德米特里·S·多洛戈伊,
申请(专利权)人:卡巴斯基实验室股份制公司,
类型:发明
国别省市:俄罗斯,RU
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。