合规实体合并和访问制造技术

技术编号:35436978 阅读:29 留言:0更新日期:2022-11-03 11:45
所公开的实施例提供了一种用于管理数据合并的系统。在操作期间,所述系统基于在第一数据集和第二数据集中的字段的比较,生成在来自第一数据提供者的第一数据集中的第一集合实体与来自第二数据提供者的第二数据集中的第二集合的实体之间的匹配。接下来,所述系统修改用于结合第一数据集和第二数据集的结合查询以包括表示针对第一数据集或第二数据集的合规规则的算子。所述系统执行经修改的结合查询以产生遵守所述合规规则的结合数据集,并且将与结合数据集相关的数据存储在平台内,所述平台在逻辑上将所述数据与额外数据集隔离开。在处理对所述数据的查询期间,所述系统修改所述查询以包括对数据强制执行访问控制策略的额外算子。略的额外算子。略的额外算子。

【技术实现步骤摘要】
【国外来华专利技术】合规实体合并和访问


[0001]所公开的实施例涉及用于合并数据的技术。更具体而言,所公开的实施例涉及用于管理合规实体合并和访问的平台。

技术介绍

[0002]拥有大量用户的组织常常为用户存储和/或管理大量数据。例如,具有数亿成员的在线网络能够维护与成员的简档和/或活动相关的拍字节(PB)级数据。
[0003]有时,为了遵守法规和/或政策,需要更新用户数据和/或其他类型的数据。例如,数据集中的搜索数据、位置数据、个人可识别信息(PII)和/或其他字段需要混淆和/或转换,以符合对应用户的隐私和/或退出偏好。当数据集跨组织共享和/或组合时,数据集中的数据可能另外地受制于多组隐私和/或合规规则,其使组织代表对数据的保护、访问或使用变得复杂。
附图说明
[0004]图1示出了根据所公开的实施例的系统的示意图。
[0005]图2示出了根据所公开的实施例的用于管理数据合并的系统。
[0006]图3A示出了根据所公开的实施例的用于连接查询的示例性关系算子树。
[0007]图3B示出了根据所公开的实施例的用于连接查本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:基于在来自第一数据提供者的第一数据集中的第一集合的字段与来自第二数据提供者的第二数据集中的第二集合的字段的比较,生成在所述第一数据集中的第一集合的实体与所述第二数据集中的第二集合的实体之间的匹配;修改用于结合所述第一数据集和所述第二数据集的结合查询以包括一个或多个算子,所述一个或多个算子表示针对所述第一数据集或所述第二数据集的一个或多个合规规则,其中,所述结合查询包括由所生成的匹配表示的结合谓词;执行经修改的结合查询以从所述第一数据集和所述第二数据集产生遵守所述一个或多个合规规则的结合数据集;将与所述结合数据集相关的数据存储在平台内,所述平台在逻辑上将所述结合数据集与不是来自所述第一数据提供者和所述第二数据提供者的一个或多个额外数据集隔离开;以及在对所存储的数据的查询的处理期间,修改所述查询以包括针对所述数据而强制执行一个或多个访问控制策略的一个或多个额外算子。2.根据权利要求1所述的方法,其中:存储与所述结合数据集相关的所述数据包括在所述平台中存储从所述结合数据集中的一个或多个字段产生的导出数据集;以及修改所述查询以包括针对所述结合数据集而强制执行所述访问控制策略的所述一个或多个额外算子包括:向所述导出数据集的查询添加针对对其执行所述查询的实体而强制执行访问控制策略的算子。3.根据权利要求2所述的方法,其中,将所述导出数据集存储在所述平台中包括基于针对所述导出数据集的模式而将所述导出数据集存储在所述平台内的一个或多个数据存储中。4.根据权利要求3所述的方法,其中,基于针对所述导出数据集的所述模式而将所述导出数据集存储在所述一个或多个数据存储中包括:基于所述模式来识别所述导出数据集中的可搜索字段和所述导出数据集中的独有字段;将来自所述导出数据集的所述可搜索字段的第一集合的值存储在搜索索引中;以及将所述导出数据集中的所述独有字段的第二集合的值存储在键

值存储中。5.根据权利要求1所述的方法,其中,生成在所述第一集合的实体与所述第二集合的实体之间的所述匹配包括:将机器学习模型应用到由所述第一集合的实体和所述第二集合的实体共享的所述字段,以产生从所述第一集合的实体和所述第二集合的实体中选择的实体对之间的匹配分数;以及基于所述匹配分数而生成在所述第一集合的实体与所述第二集合的实体之间的匹配。6.根据权利...

【专利技术属性】
技术研发人员:A
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1