使用基于语义的数据链接增强隐私数据集的方法和系统技术方案

技术编号:33627576 阅读:61 留言:0更新日期:2022-06-02 01:15
公开了用于跨越多个数据集链接关于个体实体的信息的技术。接收具有与实体的至少一个属性相对应的一些信息的目标数据集。对目标数据集执行语义处理以提取信息的语义表示和对应的属性,其用于在至少一个其他数据集中搜索在目标数据集中不存在的与实体的至少一个属性相对应的附加信息,其用于用与实体相对应的附加信息来增强目标数据集。迭代地重复该过程,其中每个后续的迭代包括在先前的迭代的搜索中找到的信息的语义表示,直到在用现在被增强的目标数据集的语义表示来搜索多个数据集时没有找到关于实体的附加信息为止。在一些实施例中,所增强的目标数据集被用于确定实体的隐私风险。隐私风险。隐私风险。

【技术实现步骤摘要】
使用基于语义的数据链接增强隐私数据集的方法和系统


[0001]本专利技术一般涉及数据隐私管理领域,尤其涉及用于数据隐私管理的数据聚合技术。

技术介绍

[0002]信息或数据隐私是数据的收集和传播之间的关系、技术、隐私的公共期望以及围绕它们的法律和政治问题。数据隐私的重大挑战在于,它在试图保护个人的隐私偏好和个人可识别信息时依赖于数据。计算机安全、数据安全和信息安全领域都设计和使用软件、硬件和人力资源来解决数据隐私。
[0003]自然语言处理(有时被缩写为NLP)被认为是语言学、计算机科学和与计算机和人类语言之间的交互有关的人工智能的一个领域。尤其是如何对计算机编程以处理和分析大量的自然语言数据。
[0004]语义相似性是被应用于术语或文档集的度量,其中各项之间的距离是基于它们的语义内容或含义的相似性而不是词典上的相似性。这些是用于通过数字描述来近似语言单元、概念或实例之间的语义关系的强度的数学工具,而数字描述是通过比较支持它们的含义或描述它们的性质的信息而获得的。在高度一般性下,语义相似性、语义距离和语义相关性通常意味着“术语X本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:接收目标数据集,所述目标数据集包括与多个实体相对应的多个子集,其中,给定子集包括指示给定对应实体的至少一个属性的信息;对于所述给定子集,确定与所述给定实体的所述至少一个属性相对应的语义表示;以及使用所述目标数据集的所确定的语义表示作为初始参数,迭代地增强所述目标数据集,直到确定在所识别的辅助数据集中不存在与从所述目标数据集中省略的属性相对应的所述给定实体的语义表示为止,其包括:至少部分地基于所述目标数据集的所确定的语义表示,识别包括指示与所述给定实体相对应的属性的信息的辅助数据集,确定在所述辅助数据集中存在的所述给定实体的属性的语义表示,确定在所识别的辅助数据集中存在的与从目标数据集中省略的属性相对应的所述给定实体的至少一个语义表示,以及用所确定的与从所述目标数据集中省略的属性相对应的语义表示来增强所述目标数据集。2.根据权利要求1所述的计算机实现的方法,还包括:至少部分地基于所增强的目标数据集,生成所述给定实体的识别...

【专利技术属性】
技术研发人员:S
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1