当前位置: 首页 > 专利查询>贝宝公司专利>正文

敏感数据库信息的检测制造技术

技术编号:34239173 阅读:16 留言:0更新日期:2022-07-24 08:51
计算机系统执行扫描以识别数据库中对应于多个指定输出类中的一个或多个的数据项。扫描包括:确定数据库的一部分的元数据,以及为存储在数据库的该部分中的一组数据项生成数据配置文件。该生成包括对该组数据项执行基于字符的分析。扫描还包括通过利用多类神经网络分类器来识别该组数据项是否对应于多个指定输出类之一,该多类神经网络分类器被训练为使用多个特征执行识别,多个特征包括从元数据和数据配置文件中提取的特征。计算系统基于多类神经网络分类器的输出识别多个指定输出类中对应于该组数据项的特定输出类。对应于该组数据项的特定输出类。对应于该组数据项的特定输出类。

Detection of sensitive database information

【技术实现步骤摘要】
【国外来华专利技术】敏感数据库信息的检测


[0001]本公开总地涉及计算机系统操作,并且更具体地涉及识别计算机系统内的敏感数据对象。

技术介绍

[0002]企业、政府机构、学校系统或任何其他形式的大型多用户实体可能依赖企业计算系统来为多个用户提供计算基础设施。企业计算系统通常包括提供计算能力的一台或多台服务器计算机和为这些用户提供网络可访问信息存储的一个或多个数据库。随着企业计算系统的增长,由服务和用户创建并存储在一个或多个数据库中的可访问信息的数量也在增长。基于允许存储在每个数据库中的信息的类型,企业计算系统内的各种数据库可能具有不同的安全规则。对于特定数据库,这些安全规则可以包括识别允许存储在特定数据库中的数据的类型,以及为每种类型指定特定存储格式,例如,如果使用特定加密算法来加密信息,则用户名和密码可被允许,而信用卡或其他财务信息可被禁止存储在该特定数据库中。实施安全规则的一个原因是在数据库泄露的情况下限制对个别信息的访问。
[0003]当未经授权的用户获得对受限数据库的访问权时,就会发生数据库泄露,例如黑客获得对公司的用户帐户数据库的访问权,这有可能使得黑客能够访问个人用户帐户。全球正在颁布数据保护法,以激励管理具有敏感信息的数据库的实体提高其安全标准,从而减少存储在其数据库中的敏感信息的暴露。实体未能遵守这些数据保护法可能会导致罚款和/或诉讼。
附图说明
[0004]图1图示了企业计算系统的实施例的框图。
[0005]图2示出了根据一些实施例的风险分析扫描系统的示例的框图。
[0006]图3包括两个表格,分别描绘一组安全规则和一组扫描模型。
[0007]图4是根据一些实施例的示出用于执行风险分析扫描的示例方法的流程图。
[0008]图5示出了用于在特定安全区域内执行风险分析扫描的方法的实施例的流程图。
[0009]图6描绘了用于由仓储区域接收风险分析扫描的结果的方法的实施例的流程图。
[0010]图7图示了用于由仓储区域更新位于多个安全区域内的安全规则的方法的实施例的流程图。
[0011]图8示出了用于对存储在特定数据库中的数据对象执行风险分析扫描的方法的实施例的流程图。
[0012]图9是根据一些实施例的示出计算机系统的框图。
[0013]图10描绘了包括计算机系统和数据库的计算机网络的实施例的框图。
[0014]图11图示了由神经网络分类器扫描数据对象的实施例的框图。
[0015]图12示出了元数据提取管线的实施例的框图。
[0016]图13描绘了数据配置文件转换管线的实施例的框图。
[0017]图14图示了规则引擎管线的实施例的框图。
[0018]图15是图示根据一些实施例的用于执行对数据库中的数据项的扫描的示例方法的流程图。
[0019]图16示出了用于操作元数据提取管线的方法的实施例的流程图。
[0020]图17是根据一些实施例的描绘用于操作数据配置文件转换管线的示例方法的流程图。
具体实施方式
[0021]近年来,大规模数据库泄露事件已成为全球新闻。在某些泄露中,敏感数据没有使用适当的安全级别进行保护,从而使黑客能够访问和利用诸如用户帐户凭据或信用卡信息之类的信息。随着企业处理的数据量的增加,这个问题也越来越严重。一些企业计算系统可以包括多个数据库,这些数据库组合起来能够包括由多个用户(在某些情况下为数千甚至数百万用户)存储的数太字节数据。因此,负责根据已建立的安全规则审查和维护信息的适当存储的系统管理员面临着如下挑战:充分扫描存储在每个数据库中的信息以确定每个数据项是否根据相应数据库的安全规则存储。本专利技术人已经认识到对如下技术的希求:该技术能够提高系统管理员扫描在诸如企业计算系统之类的计算系统中跨多个数据库存储的大量信息的能力。
[0022]本文公开了用于扫描存储在第一数据库和第二数据库中的多个数据对象的技术,该第一数据库在具有第一组安全规则的第一安全区域内,并且该第二数据库在具有第二组安全规则的第二安全区域内。“区域”指的是一个或多个数据仓储(例如数据库或其他存储器)的集合,这一个或多个数据仓储具有某一共同特性(例如,它们由特定网络设备控制,位于共同的位置、根据一组策略规则进行操作等)。“安全区域”指的是根据一组安全规则进行管理的区域。系统管理员或其他授权实体例如基于已存储或将存储在包括在特定安全区域中的数据仓储中的信息类型来为该特定区域建立一组规则。计算机网络中可能存在多个不同的安全区域,每个区域可能具有不同组的安全规则。对给定安全区域的一组安全规则的更改会更改给定安全区域中一个或多个数据库的安全规则。在一个示例中,计算机系统执行第一数据库的第一扫描以确定存储在第一数据库中的数据对象是否符合第一组安全规则。然后,计算机系统执行第二数据库的第二扫描以确定存储在第二数据库中的数据对象是否符合第二组安全规则。在完成扫描之后,计算机系统将第一和第二扫描的结果传送到仓储区域(即,用于存储结果的区域,可以是任何合适的数据仓储)以供系统管理员查看。由于被扫描的数据对象可能包括敏感信息,因此可以仅传送结果而无需将实际数据对象传送到仓储区域。
[0023]为了执行对一个或多个数据库的扫描,设想了利用神经网络分类器来识别与一组指定输出类中的一个或多个相对应的数据项的技术。如本文所使用的,“输出类”是指具有一个或多个共同特性并且可由神经网络识别的数据的类型或类别。一种这样的技术包括执行扫描以识别数据库中对应于多个指定输出类中的一个或多个的数据项。该扫描包括确定数据库的一部分的元数据,以及为存储在数据库的该部分中的一组数据项生成数据配置文件(profile)。从元数据和数据配置文件提取的特征被发送到多类神经网络分类器,该多类神经网络分类器被训练为识别该组数据项是否与多个指定输出类之一相对应。基于神经网
络分类器的输出,可以识别对应于该组数据项的特定输出类。
[0024]在随后的相关联的附图和相关描述中,在图1

图3中公开了用于扫描数据库以识别属于多个指定输出类之一的数据的系统的架构。图4

图8提供了用于操作这种系统架构的方法的示例。图9公开了可以用作系统架构的一部分的计算系统的示例。图10

图14图示了用于利用神经网络来执行对一个或多个数据库的扫描以识别所存储的数据的类别的可能技术。在一些情况下,参考图1到图9公开的架构实施例可以使用图10

图17的实施例来实现,但不受此限制。类似地,虽然参考图10

图17公开的神经网络实施例可以在图1到图9的实施例的上下文中使用,但其他应用也是可能的。
[0025]用于检测敏感数据库信息的架构
[0026]图1中图示了企业计算系统的实施例的框图。如图所示,企业计算系统100包括安全区域105a和105b,以及仓储区域107。安全区域105a和105b中的每一个包括数据库110a和110b中相应的一个,每个数据库存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:由计算机系统执行扫描以识别数据库中与多个指定输出类中的一个或多个输出类对应的数据项,该扫描包括:确定所述数据库的一部分的元数据,其中所述元数据包括模式信息;为存储在所述数据库的该部分中的一组数据项生成数据配置文件,其中所述生成包括对该组数据项执行基于字符的分析;通过利用多类神经网络分类器识别该组数据项是否与所述多个指定输出类之一对应,该多类神经网络分类器被训练为使用多个特征执行所述识别,所述多个特征包括从所述元数据和所述数据配置文件中提取的特征;以及基于所述多类神经网络分类器的输出,识别所述多个指定输出类中与该组数据对象对应的特定输出类。2.根据权利要求1所述的方法,其中,所述扫描还包括:将一组规则中的每个规则应用到存储在所述数据库的该部分中的该组数据项,其中每个规则表示与所述多个指定输出类之一相对应的正则表达式;并且其中,所述多个特征包括从该组规则的应用而提取的特征。3.根据权利要求1所述的方法,其中所述数据库的该部分是包括多个列的表格,其中该组数据项是所述多个列之一,并且其中所确定的元数据包括表名、列名、和列数据类型。4.根据权利要求3所述的方法,其中,所述多个指定输出类中的每个输出类具有用于该输出类的通用列名和通用表名的预定义列表,并且其中从所述元数据中提取所述特征包括:针对每个输出类,为每个通用列名和通用表名生成特征,其中所述生成是通过针对该输出类将基于字符的神经网络分类器分别应用于所述通用列名和通用表名的预定义列表来执行的。5.根据权利要求4所述的方法,其中每个输出类具有可接受数据类型的预定义列表,并且其中从所述元数据中提取所述特征包括:为每个输出类生成表明所述数据库的列是否包括用于该输出类的可接受数据类型的特征。6.根据权利要求1所述的方法,其中,为执行所述基于字符的分析,所述扫描还包括:确定该组数据项的每个数据项中所包括的字符的字母数字组成。7.根据权利要求6所述的方法,其中,为执行所述基于字符的分析,所述扫描还包括:针对该组数据项确定该组内的数据项的字符组成的分布。8.根据权利要求7所述的方法,其中,为执行所述基于字符的分析,所述扫描还包括:将所述字符组成的分布应用到相似性神经网络分类器,该相似性神经网络分类器被训练为识别所述分布与所述多个指定输出类中的每个指定输出类的相似性;将所述字符组成的分布应用到相异性神经网络分类器,该相异性神经网络分类器被训练为识别所述分布与所述多个指定输出类中的每个指定输出类的相异性;并且其中,所述多个特征包括从将所述字符组成的分布应用到所述相似性神经网络分类器和所述相异性神经网络分类器中而提取的特征。9.一种非暂态计算机可读介质,其上存储有指令,所述指令能由计算机系统执行以执行操作,所述操作包括:
执行扫描以将数据库中的一组数据项与多个指定输出类之一进行匹配,其中所述扫描包括:从该组数据项提取元数据,其中该元数据包括模式信息;为该组数据项生成数据配置文件,其中所述生成包括对该组数据项集执行基于字符的分析;使用多类神经网络分类器识别该组数据项与所述多个指定输出类中的每个指定输出类的相似性,其中所述多类神经网络分类器被训练为使用...

【专利技术属性】
技术研发人员:安奇卡
申请(专利权)人:贝宝公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1