用于私密和安全数据链接的上下文数据脱敏的系统和方法技术方案

技术编号:35678922 阅读:16 留言:0更新日期:2022-11-23 14:19
本技术涉及上下文数据脱敏和注册的方法和系统。数据脱敏过程可以包括对摄取的数据进行分类,处理数据,和对数据进行令牌化,同时维护摄取的数据的安全性/隐私。数据脱敏过程可以包括数据配置,所述数据配置包括生成所摄取数据的匿名化标签,验证所摄取数据的属性,将所述属性标准化为标准化格式,以及通过一个或多个规则引擎处理所述数据。一个规则引擎可以包括地址标准化,所述地址标准化生成标准地址列表,可以在不对外传输客户端数据的情况下提供对所摄取数据列的洞察。脱敏的数据可以作为数据脱敏过程的一部分进行令牌化,以安全地维护对摄取数据的印象并生成对摄取数据的洞察。护对摄取数据的印象并生成对摄取数据的洞察。护对摄取数据的印象并生成对摄取数据的洞察。

【技术实现步骤摘要】
【国外来华专利技术】用于私密和安全数据链接的上下文数据脱敏的系统和方法
[0001]相关申请交叉引用
[0002]本申请要求2020年1月29日提交的美国临时申请第16/776,293号的权益和优先权,上述专利申请的全部内容通过引用并入本文。


[0003]本公开涉及数据处理,并且,特别地,安全和私密地处理数据以产生对所述数据的洞察(insight)。

技术介绍

[0004]多种实体可以在多种计算设备上数字化地维护大量数据。例如,一个组织可以在一系列互连的服务器上维护多列数据。通常可能需要检查这些大量数据以确定对数据多种特征的多种洞察。然而,检索和处理大量数据可能是计算资源密集型的。
[0005]在许多情况下,客户端数据可以从客户端计算设备传输到外部计算设备以进行数据检查。但是,客户端数据会包含敏感/私密信息,例如包含个人身份信息(PII)的客户端数据。在这种情况下,向外部传输客户端数据可能会使此敏感数据易受到未经授权的访问。因此,在限制对客户端数据的外部访问的同时,可能需要识别客户端数据的特征。
附图说明
[0006]对于本领域技术人员来说,通过研究结合了附图的具体实施方式,本技术的多种特征和特性将变得更加清楚。本技术的实施例在附图中以示例而非限制的方式进行说明,其中相同的参考标记可表示相同的元素。
[0007]图1是可以实施当前实施例的网络结构示例。
[0008]图2是示出了数据脱敏(data masking)过程示例的框图。
[0009]图3是示出了数据编目/分类过程示例的框图。
[0010]图4是示出了数据的元数据处理的示例过程的框图。
[0011]图5是示出了数据剖析(data profiling)过程示例的框图。
[0012]图6是示出了令牌化过程示例的框图。
[0013]图7是在数据脱敏过程中对数据进行安全分类和令牌化的示例方法的框图。
[0014]图8是示出了处理系统的示例的框图,所述处理系统至少可以实施本文描述的一些操作。
[0015]附图所描绘的多种实施例仅用于说明目的。本领域技术人员将认识到,在不背离技术原理的情况下可以采用替代性的实施例。因此,虽然附图中示出了具体实施例,该技术适应于多种修改。
具体实施方式
[0016]许多实体(例如公司,组织)维护大量数据。这些数据可以存储在计算设备的多种
注册表或数据库中。在许多情况下,这些实体可能需要跨不同数据集识别和匹配记录并获得对数据集的洞察。例如,一个组织,考虑到多个相似的数据集,可能会尝试在相似的数据集中识别并且选择高质量和准确的数据集。
[0017]然而,在许多情况下,检查所有数据集以检测洞察会是计算资源密集型的。例如,检索和显示多个数据集可能是对计算资源的低效使用。此外,在许多情况下,这些数据集可能会被发送到外部设备以进行处理。然而,当这些数据集包含敏感数据(例如,包含个人身份信息(PII)的数据)时,将此类数据传输到外部设备可能会使数据容易受到未经授权的访问。因此,实体可以限制来自与实体关联的计算设备对数据的传输/访问。
[0018]本实施例涉及上下文数据脱敏,其在运行时对基础数据的安全性有所增强。特别地,数据匿名化过程可以对代表底层数据中包括的一种数据类型的摄取的数据进行分类,脱敏,并且令牌化,从而在维护数据隐私/安全的同时安全地维护所述数据。
[0019]所述数据可以按类型,域,子域,商业实体,数据类,和/或数据组级别进行分类,以便在数据脱敏过程中摄取数据。在数据摄取过程中,可以根据对数据分类的授权以进行数据脱敏和/或令牌化。可以运行数据脱敏来令牌化跨注册数据源的数据。所述数据脱敏过程可以安全地运行(例如,通过位于客户端网络防火墙后面的节点/应用程序)。经过令牌化和上下文脱敏的数据可以存储在网络可访问的服务器系统中以进行资产匹配。所述存储的数据可用于生成对数据质量的多种洞察,同时维护数据的安全性/隐私性。
[0020]所述数据脱敏过程可能包括在客户端计算设备上对客户端数据的自动审查/检查。可以生成匿名和令牌化的数据的私密印象。所述数据的印象可以提供与客户端数据相关的信息,而不会被追踪到客户端数据。数据脱敏可以使用类来匹配数据类型。类的示例可以包括名字,地址,电话号码,出生日期,社会安全号码等。然而,任何合适类型的类都可以与摄取的数据相关联。识别数据类可以用于提供对数据的洞察,而无需将源数据传输到外部计算设备。
[0021]所述数据脱敏过程可以包括数据配置过程,该数据配置过程可以包括生成被分类数据的匿名化标签,所述匿名化标签可以提供对摄取的元数据的洞察,而不会使底层数据(例如,包括个人身份信息(PII)的数据)被识别。
[0022]所述数据脱敏过程可以包括验证客户端数据的属性,将所述属性标准化为标准化格式,并通过一个或多个规则引擎处理所述数据。
[0023]在所述数据脱敏过程中处理的数据可以由网络可访问的服务器系统进行令牌化和维护。基于令牌化的数据,可以在不访问/传输底层数据本身的情况下生成对所述底层数据的洞察。这可以提高数据隐私性和安全性,因为可以基于所述数据生成洞察,而无需通过网络将数据发送到外部计算设备。
[0024]所述数据脱敏可以产生对要生成的数据的私密和安全的洞察。洞察的一个示例可以包括实体洞察,示出源系统内的重复以及记录级别的源重叠率之间的重叠。另一个洞察的示例可以包括域内和跨域的数据属性的重复或多个例子,包括百分比重叠。作为进一步的示例,洞察可以包括来自规范化和标准化的数据质量报告(标准相对非标准的百分比是多少)或基于标签处理的趋势(例如,具有相同地址的记录)。
[0025]下面描述的实施例代表了使本领域技术人员能够实施这些实施例的必要信息并示出实施这些实施例的最佳模式。在根据附图阅读以下描述后,本领域技术人员将理解本
公开的概念并且将认识到本文未具体阐述的这些概念的应用。这些概念和应用包括在本公开和所附权利要求的范围内。
[0026]描述实施例可能参考特定的计算机程序,系统配置,网络等。然而,本领域技术人员将认识到这些特征同样可应用于其他计算机程序类型,系统配置,网络类型等。例如,尽管术语“Wi

Fi网络”可用于描述网络,但相关实施例可以部署在另一种类型的网络中。
[0027]此外,本公开的技术可以使用专用硬件(例如,电路),用软件和/或固件合适地编程的可编程电路,或专用硬件和可编程电路的组合来实施。因此,实施例可能包括机器可读介质,所述介质具有可用于对计算设备(例如,计算设备或网络可访问的服务器系统)进行编程的指令,以如本文所述地检查数据和处理数据。
[0028]名词解释
[0029]本文使用的术语的目的仅用于描述实施例,并不旨在限制本公开的范围。在上下文允许的情况下,使用单数或复数形式的词也可以分别包括复数或单数形式。
[0030]如本文所使用的,除非另有明确说明,否则诸如“处理”,“计算(co本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对数据进行安全分类和令牌化的计算机实现方法,所述方法包括:摄取对应于客户端的数据集;检查所述数据集以识别分类器,所述分类器表示所述数据集中包括的属性的特征;检索特定于客户端的加密信息和特定于客户端的配置信息,其中包括表示所述数据集中包含的信息类型的匿名标签列表;识别所述匿名标签列表中包含的标签,所述标签与基于所述已识别的分类器的所述属性中的信息类型相对应;处理所述数据集的所述属性以生成经修改的属性,所述经修改的属性被修改为标准化格式;以及生成所述经修改的属性的令牌化版本,包括:使用包含在所述特定于客户端的加密信息中的散列盐和加密密钥,对所述经修改的属性进行散列处理,以生成散列的经修改的属性;将所述标签与包括一系列特定于客户端的标记的标记存储进行比较,以识别与所述标签对应的第一标记;以及生成包括所述第一标记的经修改的属性的上下文令牌。2.根据权利要求1所述的计算机实施方法,其中所述数据集中包含数据的至少一部分包括个人身份信息(PII)。3.根据权利要求1所述的计算机实施方法,其中所述分类器包括域分类器,子域分类器,属性分类器,和实体分类器中的任何一种。4.根据权利要求1所述的计算机实施方法,其中所述特定于客户端的加密信息从安全服务器中检索,所述特定于客户端的加密信息使用散列消息认证码(HMAC)协议进行加密或通过TLS协议传输,并且其中所述散列盐包括计算机生成的SHA2 512/256令牌,以及AES256加密密钥。5.根据权利要求1所述的计算机实施方法,其中处理所述数据集的所述属性以生成所述经修改的属性还包括:检索与所述属性对应的一组验证规则和一组标准化规则,所述一组验证规则提供表示所述属性是否对应于所述标签,并且所述一组标准化规则提供将所述属性修改为所述标准化格式的规则;将所述属性与所述一组验证规则进行比较,以确定所述属性是否对应于所述标签;以及响应于确定所述属性对应于所述标签,根据所述一组标准化规则将所述属性修改为所述标准化格式。6.根据权利要求1所述的计算机实施方法,其中处理所述数据集的所述属性以生成所述经修改的属性还包括:使用一系列规则引擎处理所述属性,所述一系列规则引擎包括:名称引擎,所述名称引擎响应于确定所述属性表示名称,将所述属性与关联名称列表中包含的常见关联名称相关联;以及地址库引擎,所述地址库引擎响应于确定所述属性表示地址,将所述属性添加到与客户端相关联的地址库中。
7.根据权利要求1所述的计算机实施方法,还包括:使用Base64编码方案将所述散列的经修改的属性从64个字符的令牌压缩为44个字符的字符串。8.根据权利要求1所述的计算机实施方法,还包括:使用所述特定于客户端的加密信息中包含的特定于客户端的加密密钥,对所述散列的经修改的属性进行加密。9.根据权利要求1所述的计算机实施方法,还包括:响应于识别所述标签,根据所述标签和所述属性生成所述数据集的第一组洞察;响应于生成所述经修改的属性,根据所述经修改的属性为所述数据集生成第二组洞察;以及将所述第一组洞察和所述第二组洞察存储在网络可访问的服务器系统中。10.一种由计算节点执行以生成令牌化的客户端数据印象的方法,所述方法包括:从客户端节点获取对应于客户端的数据流,所述数据流包括一系列数据集;对于所述数据流中包含的每个数据集
‑‑
检查所述数据集以识别表示所述数据集中包含的属性特征的分类器;识别与所述数据集相对应的特定于客户端的标签列表中包含的标签;使用一系列规则引擎处理所述属性,所述一系列规则引擎被配置为根据所述一系列规则引擎修改所述属性;以及生成包含所述经修改的属性的令牌化版本的令牌;以及将为所述数据流生成的令牌发送到被配置为维护所述生成的令牌的网络可访问服务器系统。11.根据权利要求10所述的方法,还包括:从安全服务器中检索特定于客户端的加密信息,所述加密信息包括散列代码和特定于客户端的加密密钥;以及检索特定于客户端的配置信息,所述配置信息包括表示所述数据集中包含的信息类型的特定于客户端的标签的列表,其中每个标签被配置为匿名化与所述数据流相关的信息,使得使用所述标签识别与所述数据流相关的信息只能使用所述特定于客户端的配置信息来识别。12.根据权利要求11所述的方法,其中为所述经修改的属性生成所述令牌化版本包括:使用...

【专利技术属性】
技术研发人员:萨蒂恩德
申请(专利权)人:科里布拉有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1