【技术实现步骤摘要】
使用基于语义的数据链接增强隐私数据集的方法和系统
[0001]本专利技术一般涉及数据隐私管理领域,尤其涉及用于数据隐私管理的数据聚合技术。
技术介绍
[0002]信息或数据隐私是数据的收集和传播之间的关系、技术、隐私的公共期望以及围绕它们的法律和政治问题。数据隐私的重大挑战在于,它在试图保护个人的隐私偏好和个人可识别信息时依赖于数据。计算机安全、数据安全和信息安全领域都设计和使用软件、硬件和人力资源来解决数据隐私。
[0003]自然语言处理(有时被缩写为NLP)被认为是语言学、计算机科学和与计算机和人类语言之间的交互有关的人工智能的一个领域。尤其是如何对计算机编程以处理和分析大量的自然语言数据。
[0004]语义相似性是被应用于术语或文档集的度量,其中各项之间的距离是基于它们的语义内容或含义的相似性而不是词典上的相似性。这些是用于通过数字描述来近似语言单元、概念或实例之间的语义关系的强度的数学工具,而数字描述是通过比较支持它们的含义或描述它们的性质的信息而获得的。在高度一般性下,语义相似性、语义距离和语义相关 ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法,包括:接收目标数据集,所述目标数据集包括与多个实体相对应的多个子集,其中,给定子集包括指示给定对应实体的至少一个属性的信息;对于所述给定子集,确定与所述给定实体的所述至少一个属性相对应的语义表示;以及使用所述目标数据集的所确定的语义表示作为初始参数,迭代地增强所述目标数据集,直到确定在所识别的辅助数据集中不存在与从所述目标数据集中省略的属性相对应的所述给定实体的语义表示为止,其包括:至少部分地基于所述目标数据集的所确定的语义表示,识别包括指示与所述给定实体相对应的属性的信息的辅助数据集,确定在所述辅助数据集中存在的所述给定实体的属性的语义表示,确定在所识别的辅助数据集中存在的与从目标数据集中省略的属性相对应的所述给定实体的至少一个语义表示,以及用所确定的与从所述目标数据集中省略的属性相对应的语义表示来增强所述目标数据集。2.根据权利要求1所述的计算机实现的方法,还包括:至少部分地基于所增强的目标数据集,生成所述给定实体的识别...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。