自动检测自由文本中的个人信息制造技术

技术编号:27820122 阅读:19 留言:0更新日期:2021-03-30 10:34
本发明专利技术涉及自动检测自由文本中的个人信息,包括:对数字文本文档自动应用命名实体识别(NER)算法,以检测出现在数字文本文档中的命名实体,其中命名实体选自由以下各项组成的组:至少一个个人类型实体,以及至少一个非个人类型实体;通过对包含检测到的命名实体的数字文本文档的句子应用词性(POS)标记算法和依赖性解析算法,自动检测命名实体之间的至少一种关系;自动估计命名实体之间的至少一种关系是否表示个人信息;以及自动发出估计结果的通知。知。知。

【技术实现步骤摘要】
自动检测自由文本中的个人信息


[0001]本专利技术涉及自动文本分析领域。

技术介绍

[0002]最近全球范围内信息隐私法规的增加已经产生了各种技术,这些技术评估数字存储的信息是否符合这种法规。此外,对敏感数据存储的安全攻击的增长也推动了这些技术的发展,因此组织可以分配资源来保护高风险数据库和存储系统。
[0003]这样的技术通过使用复杂的数据分类技术、漏洞扫描和风险评分,提供了关于遵守GDPR、PCI、HIPAA、CCPA、LGPD和其他法规的风险评估工具。
[0004]这样的工具之一是IBM公司的Security Guardium Analyzer,该工具旨在通过分析内部部署和云数据库来查找并向用户提供优先的风险信息,从而帮助识别受监管的数据风险。它包括分类引擎,该引擎搜索数据库表内的数据、执行漏洞扫描并发现当前威胁。
[0005]相关技术的前述示例和与之相关的限制旨在进行说明而不是排他性的。通过阅读说明书和研究附图,相关领域的其他限制对于本领域技术人员将变得显而易见。

技术实现思路

[0006]结合系统、工具和方法来描述和说明以下实施例及其方面,所述系统、工具和方法是示例性和说明性的,而并不限制范围。
[0007]一个实施例涉及一种方法,该方法包括操作至少一个硬件处理器以:将命名实体识别(named-entity recognition)NER算法自动应用于数字文本文档,以检测出现在数字文本文档中的命名实体,其中命名实体选自由以下各项组成的组:至少一个个人类型实体,以及至少一个非个人类型实体;通过对包含检测到的命名实体的数字文本文档的句子应用词性(parts-of-speech)POS标记算法和依赖性解析算法,自动检测命名实体之间的至少一种关系;自动估计命名实体之间的至少一种关系是否表示个人信息;以及自动发出估计结果的通知。
[0008]另一实施例涉及一种系统,该系统包括:(a)至少一个硬件处理器;(b)一种计算机可读存储介质,其上包含程序代码,该程序代码可由所述至少一个硬件处理器执行以:将命名实体识别(NER)算法自动应用于数字文本文档,以检测出现在数字文本文档中的命名实体,其中命名实体选自由以下各项组成的组:至少一个个人类型实体,以及至少一个非个人类型实体;通过对包含检测到的命名实体的数字文本文档的句子应用词性(POS)标记算法和依赖项解析算法,自动检测命名实体之间的至少一种关系;自动估计命名实体之间的至少一种关系是否表示个人信息;并自动发出估计结果的通知。
[0009]另一实施例涉及一种计算机程序产品,该计算机程序产品包括具有包含在其上的程序代码的计算机可读存储介质,该程序代码可由至少一个硬件处理器执行以:将命名实体识别(NER)算法自动应用于数字文本文档,以检测出现在数字文本文档中的命名实体,其中命名实体选自由以下各项组成的组:至少一个个人类型实体,以及至少一个非个人类型
实体;通过对包含检测到的命名实体的数字文本文档的句子应用词性(POS)标记算法和依赖项解析算法,自动检测命名实体之间的至少一种关系;自动估计命名实体之间的至少一种关系是否表示个人信息;并自动发出估计结果的通知。
[0010]在一些实施例中,该方法还包括,或者该程序代码还可以执行以:在数字文本文档中,用至少一个个人类型实体的名字的名词替换与至少一个个人类型实体有关的代词。
[0011]在一些实施例中,该方法还包括,或者该程序代码还可以执行以:在自动应用NER算法之前,通过以下至少一项自动预处理数字文本文档:检测数字文本文档的主要语言,从而选择NER算法以匹配主要语言;从数字文本文档中删除以下至少一项:空白和技术字符;以及更正数字文本文档中的拼写错误。
[0012]在一些实施例中,至少一个非个人类型实体选自由以下各项组成的组:组织、对象、位置、国籍、时间、日期、地址、艺术品、事件、婚姻状况、职业、金钱、语言和数量。
[0013]在一些实施例中,该方法进一步包括,或者该程序代码还可以执行以:将不同的命名实体识别(NER)算法自动应用于数字文本文档;并应用一个或多个预定义规则来解决由NER算法与不同的NER算法检测到的命名实体之间的一个或多个冲突。
[0014]在一些实施例中,该方法还包括,或者该程序代码还可以执行以:过滤命名实体并且合并至少一些命名实体。
[0015]在一些实施例中,所述对命名实体之间的至少一个关系的所述自动检测还包括:利用所应用的依赖性解析算法的结果来确定将每个句子中的每两个命名实体连接起来的依赖性路径;选择位于依赖性路径内的文本表达(textual expression);以及将每个文本表达与从预定义的一组关系类型中选择的关系类型相关联。
[0016]在一些实施例中,所述自动估计包括基于以下各项计算数字文本文档的隐私分数,或至少一个个人类型实体中的每一个的隐私分数:与关系类型相关联的第一组预定义分数,其中第一组的每个分数表示相应关系类型是个人信息的一部分的可能性;以及与命名实体相关联的第二组预定义分数,其中第二组的每个分数指示相应的命名实体是个人信息的一部分的可能性。
[0017]在一些实施例中,该方法还包括,或者该程序代码还可以执行以:自动检测至少一个个人类型实体包括至少一部分人名;自动将NER算法应用于训练集,该训练集包含多个包含全名的其他数字文本文档,以检测多个个人类型实体和多个非个人类型实体;通过将词性(POS)标记算法和依赖项解析算法应用于多个其他数字文本文档的句子,每个句子都包含多个个人类型实体和多个非个人类型实体中的至少两个命名实体,以自动检测多个个人类型实体与多个非个人类型实体之间的关系;自动生成训练知识图,该训练知识图的节点包括相互关联的多个个人类型实体和多个非个人类型实体的节点,并且其边包括关系中的各个关系;自动生成特定知识图,该知识图的节点包括相互关联的至少一个个人类型实体和至少一个非个人类型实体的节点,并且其边包括至少一个关系中的各个关系;通过交叉引用特定知识图和训练知识图,自动确定至少一个个人类型实体的至少一个全名。
[0018]在一些实施例中,所述交叉引用基于以下各项中的至少一项:图形匹配技术以及布尔可满足性问题(SAT)表示和求解技术。
[0019]除了上述示例性方面和实施例之外,通过参考附图并通过研究以下详细描述,其他方面和实施例将变得显而易见。
附图说明
[0020]在附图中示出了示例性实施例。为了方便和清楚地表示,通常选择附图中所示的部件和特征的尺寸,并且不一定按比例显示。这些附图在下面列出。
[0021]图1是根据一个实施例的用于自动检测自由文本中的个人信息的系统的框图;
[0022]图2是根据一个实施例的用于自动检测自由文本中的个人信息的方法的流程图;
[0023]图3是根据一个实施例的示例性NER、POS标记和依赖性解析结果的图示;
[0024]图4是根据一个实施例的用于仅隐式地推断在数字文本文档中提及的个人类型实体的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括操作至少一个硬件处理器以:自动将命名实体识别(NER)算法应用于数字文本文档,以检测出现在所述数字文本文档中的命名实体,其中所述命名实体选自自由以下各项组成的组:至少一个个人类型实体,以及至少一个非个人类型实体;通过对包含检测到的命名实体的所述数字文本文档的句子应用词性(POS)标记算法和依赖项解析算法,自动检测所述命名实体之间的至少一种关系;自动估计所述命名实体之间的至少一种关系是否表示个人信息;以及自动发出估计结果的通知。2.根据权利要求1所述的方法,还包括:操作至少一个硬件处理器,以在所述数字文本文档中用所述至少一个个人类型实体的名字的名词替换与所述至少一个个人类型实体有关的代词。3.根据权利要求1所述的方法,还包括操作至少一个硬件处理器以:在自动应用NER算法之前,通过以下至少一项自动预处理所述数字文本文档:(a)检测所述数字文本文档的主要语言,从而选择NER算法以匹配所述主要语言;(b)从数字文本文档中移除以下至少一项:空白和技术字符;以及(c)更正所述数字文本文档中的拼写错误。4.根据权利要求1所述的方法,其中所述至少一个非个人类型实体选自由以下各项组成的组:组织、对象、位置、国籍、时间、日期、地址、艺术品、事件、婚姻状况、职业、金钱、语言和数量。5.根据权利要求1所述的方法,还包括操作至少一个硬件处理器以:将不同的命名实体识别(NER)算法自动应用于所述数字文本文档;以及应用一个或多个预定义规则来解决由所述NER算法和不同的NER算法检测到的命名实体之间的一个或多个冲突。6.如权利要求1所述的方法,还包括操作至少一个硬件处理器以过滤所述命名实体并合并至少一些所述命名实体。7.根据权利要求1所述的方法,其中所述自动检测所述命名实体之间的至少一个关系还包括:利用所应用的依赖性解析算法的结果来确定将每个句子中的每两个命名实体连接起来的依赖性路径;选择位于依赖性路径内的文本表达;以及将每个所述文本表达与从预定义的一组关系类型中选择的关系类型相关联。8.根据权利要求7所述的方法,其中所述自动估计包括基于以下内容来计算所...

【专利技术属性】
技术研发人员:A
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1