当前位置: 首页 > 专利查询>迈克菲公司专利>正文

用于保护指定数据组合的系统和方法技术方案

技术编号:9411091 阅读:80 留言:0更新日期:2013-12-05 07:49
本发明专利技术公开了一种方法,包括:从数据文件的记录中提取多个数据元;将所述多个数据元标记化成多个标记;将所述多个标记存储在登记列表的第一元组中;选择所述多个标记中的一个作为用于所述第一元组的标记关键字,其中所述标记关键字比所述第一元组中的所述多个标记中的其它每个标记更不频繁地出现在所述登记列表中。还在实施例中公开并要求保护相应的其它装置和方法。

【技术实现步骤摘要】
【国外来华专利技术】用于保护指定数据组合的系统和方法相关美国申请信息本申请与WilliamDeninger等人共同转让给其受让人的、于2009年1月23日递交的、专利技术名称为“SYSTEMANDMETHODFORINTELLIGENTSTATEMANAGEMENT”、共同未决的美国临时专利申请序列No.12/358,399(代理人案号004796.1042)相关。该申请的公开内容被视为本文的一部分并且以引用方式全部并入本文。
本专利技术一般涉及数据管理领域,并且更特别地,涉及用于保护指定数据组合的系统和方法。
技术介绍
计算机网络已变成现代商业不可或缺的工具。企业能够利用网络来进行通信,并且还能够以各种形式存储数据并且将数据存储在各个位置处。关键信息频繁地在商业企业网络上传播。一些联邦和州的规定提供了通过各种组织或商业覆盖特定类型信息的散播的限制。因此,除了业主信息可能丢失以及对商业造成负面影响之外,企业还可能面临由于一些数据的无意或故意泄漏的法律责任。现代企业经常采用多种工具来控制这种信息的散播,并且许多这样的工具试图阻止局外人、入侵者和未经授权的人员存取或接收机密的、有价值的或其它敏感信息。通常地,这些工具可包括防火墙、入侵检测系统和分组嗅探器设备。提供配备有能够保护并控制重要信息的移动的有效数据管理系统的系统或协议的能力对于安全专业人员、部件制造商、服务提供商和系统管理者等都是很大的挑战。附图说明为了提供对本专利技术及其特征和优点的更全面的理解,参照以下结合附图进行的说明,其中相似的附图标记表示相似的部分,其中:图1为根据本公开的一个实施例的用于在网络环境中保护指定数据组合的系统的示例性实现的简化框图;图2为可用于根据本公开的数据组合保护系统的实施例的计算机的简化框图;图3为根据本公开的一个实施例的数据组合保护系统中的登记系统的框图;图4为根据本公开的一个实施例的数据组合保护系统中的各种数据文件结构的框图;图5为根据本公开的登记系统的一个方面的示例性数据输入和输出的简化框图;图6A、图6B和图7为示出与登记系统相关联的一系列示例步骤的简化流程图;图8示出了根据本公开的一个实施例的与登记系统处理相关联的示例性场景中的文件内容;图9为根据本公开的一个实施例的数据组合保护系统中的检测系统的框图;图10为根据本公开的检测系统的一个方面的示例性数据输入和输出的简化框图;图11-12为示出与检测系统相关联的一系列示例步骤的简化流程图;以及图13示出了根据本公开的一个实施例的与检测系统处理相关联的示例性场景中的文件内容。具体实施方式概述一个示例性实施例中的方法包括:从数据文件的记录中提取多个数据元;将多个数据元标记化(tokenize)成多个标记;以及将多个标记存储在登记列表的第一元组中。该方法还包括:选择多个标记中的一个作为用于第一元组的标记关键字,其中所述标记关键字比第一元组中的其它每个标记更不频繁地出现于登记列表中。在更具体的实施例中,至少一个数据元为具有与预定义的表达模式匹配的字符模式的表达元,其中预定义的表达模式表示至少两个词语字和词语字之间的分隔符。在其它具体的实施例中,至少一个数据元是由一个或多个连续必要字符的字符模式限定的词语。其它更具体的实施例包括通过识别预定义的定界符来确定记录的末尾。另一示例性实施例中的方法包括:从对象提取多个数据元;将多个数据元标记化成多个对象标记;以及识别登记列表中的第一元组。该方法还包括:确定第一元组中的多个关联标记中的每一个是否对应于对象标记中的至少一个。另外,该方法包括:如果第一元组中的多个关联标记和多个对象标记之间的对应量满足预定阈值,则确认事件。在更具体的实施例中,当第一元组中的关联标记中的每个对应于多个对象标记中的至少一个时,满足预定阈值。示例性实施例图1是示出用于在示例性网络100中登记和检测指定数据组合的数据组合保护系统10的示例性实现的简化框图。数据组合保护系统10可以包括多个网络元件,例如具有登记系统22的网络装置(appliance)12以及分别具有检测系统24、26和28的多个网络装置14、16和18。这些网络装置12、14、16和18能够由数据保护管理器32借助于诸如网络装置30的另一网络元件管理,或者与诸如网络装置30的另一网络元件耦合。另外,网络安全平台140可提供用于网络100的现有的网络安全基础结构,并且可与数据组合保护系统10适当地集成。图1所示的网络环境可通常被配置或布置成表示能够交换分组的任何通信架构。这种配置可以包括诸如图1中为示例目的而显示的既定商业实体的单独部门(例如,市场部152、销售部154、生产部156)。另外,还可以在网络100中设置诸如电子邮件网关162、web网关164、交换机172、防火墙174和至少一个客户端设备130的其它共同的网络元件。网络100还可配置为通过防火墙174与诸如因特网180的其它网络交换分组。数据组合保护系统10能够帮助组织保护机密数据免于从网络环境无意和有意的披露。数据组合保护系统10的实施例能够用于登记数据元的指定组合,并且用于检测网络环境的对象内的登记数据组合。例如,当组合以识别个体时是足够有区分性并且可能暴露关于个体的机密或敏感信息的数据元,能够通过数据组合保护系统10被登记为组合并且能够在网络中的对象中被检测到。系统10能够创建登记列表,其中,以登记列表中的单独的元组或记录表示数据元的每个指定组合或集合。能够对具有一个或多个数据元集合的任何数据文件执行创建登记列表中的这些元组的登记操作,每个数据元集合通过预定义的定界符与其它数据元集合定界。登记列表能够由关键字索引,其中每个关键字对应于以元组表示的数据元中的一个。数据组合保护系统10能够执行检测操作以找到网络环境中的对象(例如,文字处理文件、电子表格、数据库、电子邮件文件、明文文件、任何人类语言文本文件等)中的一个或多个登记的数据元组合。对象可在网络中被捕获并且被格式化以便于传输(例如,HTML、FTP、SMTP、Webmail等)或存储在数据库、文件系统或其它存储仓库中。在一个实施例中,当在对象中检测到登记的数据元组合(即,以登记列表的一个元组表示)中的所有数据元时,可对事件加标志或进行确认,并且可防止传送对象和/或可以将对象报告给网络操作员或其它被授权人以进行监控并采取任何适当的补救措施。在其它实施例中,如果在对象中找到登记的数据元组合的特定阈值量,则可确认一个事件。为了示出数据组合保护系统10的技术,重要的是理解诸如图1所示的网络的既定网络中可能存在的活动和安全考虑。下面的基础性信息可被视为正确地解释本公开的基础。仅为说明的目的而认真提供这种信息,因此,不应被解释为以任何方式限制本公开的宽泛范围及其可能的应用。许多安全环境中的挑战是控制机密电子数据的能力。在一个示例性的安全问题中,许多组织收集并存储能够用于识别可能与组织相关联或者可能仅为普通公共机构或其各部门的成员的个体的数据。该敏感数据可以包括例如姓名、社会安全号码、信用卡号码、地址、电话号码、出生日期、国籍、账号、雇员、婚姻状况等。对象中的仅敏感数据元或者甚至对象中的少量敏感数据元可能不具有充分的区别性以识别特定的人或透露机密信息。然而,随着对象内与特定人相关联的敏感数据元的数量本文档来自技高网...
用于保护指定数据组合的系统和方法

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.11.04 US 12/939,3401.一种由处理器在网络环境中执行的方法,包括:从数据文件的记录中提取多个数据元;将所述多个数据元标记化成多个标记;将所述多个标记存储在登记列表的第一元组中;选择所述多个标记中的一个作为用于对所述第一元组进行索引的标记关键字,其中所述标记关键字出现的总次数比所述第一元组的其它每个标记出现的总次数少,其中所述标记关键字出现的总次数和所述其它每个标记出现的总次数是基于所述登记列表中的多个元组确定的;以及生成具有多个索引的索引表,每个索引对应于唯一的标记关键字,所述索引表包括对应于所述第一元组的标记关键字的第一索引,其中,当所述登记列表的两个或更多个元组由所述标记关键字索引时,所述第一索引包括指示在两个或更多个元组的登记列表中的各自位置的两个或更多个唯一的偏移,其中所述两个或更多个元组中的每个均包括各自的多个标记,并且各自的多个标记包括所述标记关键字。2.如权利要求1所述的方法,其中所述多个数据元中的至少一个是由一个或多个连续必要字符的字符模式限定的词语。3.如权利要求1所述的方法,其中至少一个数据元是由与预定义的表达模式匹配的字符模式限定的表达元,所述预定义的表达模式表示至少两个词语和所述词语之间的分隔符。4.如权利要求1所述的方法,其中所述多个标记中的每个标记是对应数据元的数值表示。5.如权利要求1所述的方法,还包括:通过识别指示所述记录的末尾的预定义的定界符来确定所述记录的末尾。6.如权利要求1所述的方法,其中所述登记列表的每个元组仅与一个或多个数据文件的一条记录相关联。7.如权利要求1所述的方法,其中所述索引包括与第一偏移相关联的文档标识符,所述文档标识符表示包含所述记录的数据文件。8.如权利要求1所述的方法,其中选择所述多个标记中的一个作为用于所述第一元组的标记关键字还包括:生成包括每个标记在所述登记列表中的出现总数的计数表;以及搜索所述计数表以识别所述多个标记中相对于所述第一元组中的其它每个标记具有最低出现总数的一个标记。9.如权利要求1所述的方法,其中生成所述索引表包括将所述唯一的标记关键字强制进入具有模数的存储器的边界,其中所述边界由素数限定。10.一种用于保护指定数据组合的装置,包括:一个或多个登记模块,其用于生成具有多个元组的登记列表,每个元组表示指定数据元组合;以及处理器,其用于执行与所述一个或多个登记模块相关联的操作,包括:从数据文件的记录中提取多个数据元;将所述多个数据元标记化成多个标记;将所述多个标记存储在所述登记列表的第一元组中;选择所述多个标记中的一个作为用于对所述第一元组进行索引的标记关键字,其中所述标记关键字出现的总次数比所述第一元组的其它每个标记出现的总次数少,其中所述标记关键字出现的总次数和所述其它每个标记出现的总次数是基于所述登记列表中的多个元组确定的;以及生成具有多个索引的索引表,每个索引对应于唯一的标记关键字,所述索引表包括对应于所述第一元组的标记关键字的第一索引,其中,当所述登记列表的两个或更多个元组由所述标记关键字索引时,所述第一索引包括指示在两个或更多个元组的登记列表中的各自位置的两个或更多个唯一的偏移,其中所述两个或更多个元组中的每个均包括各自的多个标记,并且各自的多个标记包括所述标记关键字。11.如权利要求10所述的装置,其中至少一个数据元是由与预定义的表达模式匹配的字符模式限定的表达元,所述预定义的表达模式表示至少两个词语和词语之间的分隔符。12.如权利要求10所述的装置,其中所述处理器用于执行另外的操作,包括:通过识别指示所述记录的末尾的预定义的定界符来确定所述记录的末尾。13.如权利要求12所述的装置,其中所述登记列表的每个元组仅与一个或多个数据文件的一条记录相关联。14.如权利要求10所述的装置,其中选择所述多个标记中的一个作为用于所述第一元组的标记关键字还包括:生成包括每个标记在所述登记列表中的出现总数的计数表;以及搜索所述计数表以识别所述多个标记中相对于所述第一元组中的其它每个标记具有最低出现总数的一个标记。15.如权利要求10所述的装置,其中生成所述索引表包括将所述唯一的标记关键字强制进入具有模数的存储器的边界,其中所述边界由素数限定。16.一种由处理器在网络环境中执行的方法,包括:识别数据文件的记录中的第一数据元的起始;如果开始于所述第一数据元的起始处的第一字符串与预定义的表达模式匹配,则确定所述第一数据元为表达元,所述预定义的表达模式表示至少两个词语和所述两个词语之间的分隔符;提取所述表达元;将所述表达元标记化成第一标记;将所述第一标记存储在登记列表的第一元组中;选择所述第一标记作为用于索引所述第一元组的标记关键字,其中所述标记关键字出现的总次数比所述第一元组的一个或多个其它标记中的每一个出现的总次数少,其中所述标记关键字出现的总次数和所述一个或多个其它标记中的每一个出现的总次数是基于所述登记列表中的多个元组确定的;以及生成具有多个索引的索引表,每个索引对应于唯一的标记关键字,所述索引表包括对应于所述第一元组的标记关键字的第一索引,其中生成所述索引表包括将所述唯一的标记关键字强制进入具有模数的存储器的边界,其中所述边界由素数限定。17.如权利要求16所述的方法,还包括:在对所述表达元进行标记化之前对所述表达元进行规格化。18.如权利要求17所述的方法,其中所述规格化包括从所述表达元中去除所述分隔符。19.如权利要求16所述的方法,其中所述预定义的表达模式是多个预定义的表达模式中与开始于所述第一数据元的起始处的任意字符串匹配的最长的一个。20.如权利要求16所述的方法,还包括:识别所述记录中的第二数据元的起始;确定所述第二数据元为词语,其中多个预定义的表达模式中没有一个与开始于所述第二数据元的起始处的第二字符串匹配;提取所述词语;将所述词语标记化成第二标记;以及将所述第二标记存储在所述登记列表的所述第一元组中。21.如权利要求16所述的方法,其中预定义的定界符将所述数据文件中的各连续记录对分隔开。22.如权利要求16所述的方法,其中预定义的定界符位于所述数据文件中的记录的末尾,所述预定义的定界符选自由分号、换行、回车、冒号和句号组成的组。23.如权利要求16所述的方法,其中所述登记列表的每个元组仅与所述数据文件的一条记录相关联。24.如权利要求16所述的方法,其中所述至少两个词语中的每个均由一个或多个连续必要字符的字符模式限定。25.如权利要求...

【专利技术属性】
技术研发人员:R·P·S·阿胡贾W·J·德宁格尔
申请(专利权)人:迈克菲公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1