当前位置: 首页 > 专利查询>奥多比公司专利>正文

用于防止敏感数据在线公开的机器学习模型制造技术

技术编号:33370608 阅读:16 留言:0更新日期:2022-05-11 22:36
本公开的实施例涉及用于防止敏感数据在线公开的机器学习模型。系统和方法使用将机器学习模型与内容编辑工具一起使用来防止或减轻敏感数据的无意公开和传播。通过将经训练机器学习模型应用于经由界面的输入字段接收的一组非结构化文本数据,可以标识与私人信息相关联的实体。通过标识实体之间的连接来计算针对文本数据的隐私得分,实体之间的连接根据累积隐私风险对隐私得分做出贡献,隐私得分指示私人信息的潜在暴露。界面被更新为包括将输入字段内的一组非结构化文本数据的目标部分与输入字段内的一组非结构化文本数据的其他部分区分开的指示符,其中对目标部分的修改改变由隐私得分指示的私人信息的潜在暴露。由隐私得分指示的私人信息的潜在暴露。由隐私得分指示的私人信息的潜在暴露。

【技术实现步骤摘要】
用于防止敏感数据在线公开的机器学习模型


[0001]本公开一般涉及使用人工智能来防止敏感数据的无意泄露。更具体地,但不作为限制,本公开涉及用于将机器学习模型与内容编辑工具一起使用以实时防止或减轻敏感数据的无意公开和传播的技术。

技术介绍

[0002]用于处理文本的人工智能技术在各种内容编辑工具中有用。作为一个示例,当用户输入内容进行在线搜索时,机器学习模型用于预测下一个字词。作为另一个示例,机器学习被用在在线文字处理软件中来建议改变以改善文本内容的可读性。
[0003]然而,这些类型的内容编辑工具通常存在敏感信息(诸如个人标识信息)可能被无意公开的风险。例如,用户可以在在线论坛中输入看似无害的信息,诸如指出用户是“来自佛罗里达州的软件工程师”,其可以与其他在线内容结合使用来标识该用户。在一些情况下,某些内容编辑工具的在线性质展现了允许该敏感数据一旦被无意公开就会被迅速传播的独特风险,有时不可撤销。随着个人发布到因特网的信息量迅速增加,由于个人标识信息的暴露而引起的隐私问题也迅速增加。看似无害的数据元素在聚合时可以提供他们从未打算发布或意识到可以通过他们与因特网的互动获得的某人的完整视图。

技术实现思路

[0004]某些实施例涉及用于使用机器学习模型来实时标记潜在的隐私泄露的技术。
[0005]在一些方面,一种计算机实现的方法包括:由内容取回子系统检测被录入到图形界面的输入字段中的一组非结构化文本数据的录入;响应于检测到录入并且利用自然语言处理子系统,通过至少将经训练机器学习模型应用于输入字段中的一组非结构化文本数据,来标识与私人信息相关联的多个实体;由评分子系统通过标识实体之间的连接来计算针对文本数据的隐私得分,实体之间的连接根据累积隐私风险对隐私得分做出贡献,隐私得分指示由一组非结构化文本数据对私人信息的潜在暴露;以及由报告子系统将图形界面更新为包括指示符,指示符将输入字段内的一组非结构化文本数据的目标部分与输入字段内的一组非结构化文本数据的其他部分区分开,其中对目标部分的修改改变由隐私得分指示的私人信息的潜在暴露。
[0006]在一些方面,方法还包括:由内容取回子系统检测对被录入到图形界面的输入字段中的一组非结构化文本数据的修改;响应于检测到修改并且利用自然语言处理子系统,通过至少将经训练机器学习模型应用于输入字段中的经修改的文本数据,来标识与私人信息相关联的经修改的多个实体;由评分子系统基于经修改的实体,来计算针对文本数据的经修改的隐私得分;以及由报告子系统基于经修改的隐私得分来更新图形界面。
[0007]在一些方面,方法还包括:由内容取回子系统接收与非结构化文本数据相关联的图像或视频;以及由媒体处理子系统处理图像或视频,以标识元数据,其中标识的元数据的至少一个子集被进一步输入到机器学习模型,以标识实体。
[0008]在一些方面,一组非结构化文本数据是第一组非结构化文本数据并且多个实体是第一多个实体,并且方法还包括:在接收第一组非结构化文本数据之前:由内容取回子系统检测被录入到输入字段中的第二组非结构化文本数据的录入;以及响应于检测到录入并且利用自然语言处理子系统,通过至少将经训练机器学习模型应用于输入字段中的第二组非结构化文本数据,来标识与私人信息相关联的第二多个实体,其中评分子系统基于第一多个实体和第二多个实体之间的连接,来计算隐私得分。
[0009]在一些方面,经更新的图形界面还显示隐私得分的指示。在一些方面,机器学习模型包括神经网络,并且方法还包括通过以下来训练神经网络:由训练子系统从第一数据库取回针对与隐私风险相关联的第一实体类型的第一训练数据;由训练子系统从第二数据库取回针对与隐私风险相关联的第二实体类型的第二训练数据;以及由训练子系统使用第一训练数据和第二训练数据来训练神经网络,以标识第一实体类型和第二实体类型。
[0010]在一些方面,方法还包括:由自然语言处理子系统确定针对所标识的实体的实体类型;以及基于所确定的实体类型,由评分子系统向图模型中的实体之间的链接分配权重,其中隐私得分基于权重。
[0011]在一些方面,一种计算系统包括:内容取回子系统,被配置为:检测向图形界面的输入字段中的非结构化文本数据的录入;自然语言处理子系统,被配置为:通过至少将经训练机器学习模型应用于非结构化文本数据,来标识与私人信息相关联的多个实体;评分子系统,被配置为:通过将图模型应用于多个实体来标识实体之间的连接来计算针对文本数据的隐私得分,实体之间的连接根据累积隐私风险对隐私得分做出贡献,隐私得分指示由非结构化文本数据对私人信息的潜在暴露;以及报告子系统,被配置为:将图形界面更新为包括指示符,指示符将输入字段内的非结构化文本数据的目标部分与输入字段内的非结构化文本数据的其他部分区分开,目标部分引起由隐私得分指示的私人信息的潜在暴露。
[0012]在一些方面,一种非瞬态计算机可读介质,其上存储有指令,所述指令由处理设备可执行,以执行操作,操作包括:检测被录入到图形界面的输入字段中的一组非结构化文本数据的录入;用于计算针对文本数据的隐私得分的步骤,隐私得分指示由一组非结构化文本数据对私人信息的潜在暴露;以及基于隐私得分来更新指示符,指示符将输入字段内的一组非结构化文本数据的目标部分与输入字段内的一组非结构化文本数据的其他部分区分开。
[0013]提及这些说明性实施例不是为了限制或限定本公开,而是为了提供示例以帮助其理解。在详细描述中讨论了另外的实施例,并且在那里提供了进一步的描述。
附图说明
[0014]当参考附图阅读以下具体实施方式时,可以更好地理解本公开的特征、实施例和优点。
[0015]图1描绘了根据本公开的某些实施例的计算环境的一个示例,其中内容编辑工具使用机器学习模型来指示用于实时解决潜在隐私泄露的内容修改。
[0016]图2描绘了根据本公开的某些实施例的用于实时更新内容编辑工具的界面来指示将减少私人信息的暴露的潜在编辑的过程的一个示例。
[0017]图3A

图3D图示了根据本公开的某些实施例的使用图2中描绘的过程所生成的图
形界面的序列的一个示例。
[0018]图4描绘了根据本公开的某些实施例的用于训练如在图2的过程中使用的机器学习模型的过程的一个示例。
[0019]图5描绘了根据本公开的某些实施例的执行本文描述的某些操作的计算系统的一个示例。
[0020]图6描绘了根据本公开的某些实施例的执行本文描述的某些操作的云计算环境的一个示例。
具体实施方式
[0021]本公开包括用于将机器学习模型与内容编辑工具一起使用以实时防止或减轻敏感数据的无意公开和传播的系统和方法。如上所述,在线服务和其他内容编辑工具展现无意中公开敏感数据的风险,这些敏感数据可以经由因特网或其他数据网络迅速传播。本文描述的某些实施例通过使用机器学习模型来在编辑阶段期间检测潜在有问题的内容并且指示对内容的潜在修改来解决该风险,该潜在修改将减少敏感数据的公开。例如,这样的实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:由内容取回子系统检测被录入到图形界面的输入字段中的一组非结构化文本数据的录入;响应于检测到所述录入并且利用自然语言处理子系统,通过至少将经训练机器学习模型应用于所述输入字段中的所述一组非结构化文本数据,来标识与私人信息相关联的多个实体;由评分子系统通过标识所述实体之间的连接来计算针对所述文本数据的隐私得分,所述实体之间的所述连接根据累积隐私风险对所述隐私得分做出贡献,所述隐私得分指示由所述一组非结构化文本数据对所述私人信息的潜在暴露;以及由报告子系统将所述图形界面更新为包括指示符,所述指示符将所述输入字段内的所述一组非结构化文本数据的目标部分与所述输入字段内的所述一组非结构化文本数据的其他部分区分开,其中对所述目标部分的修改改变由所述隐私得分指示的所述私人信息的所述潜在暴露。2.根据权利要求1所述的方法,还包括:由所述内容取回子系统检测对被录入到所述图形界面的所述输入字段中的所述一组非结构化文本数据的修改;响应于检测到所述修改并且利用所述自然语言处理子系统,通过至少将所述经训练机器学习模型应用于所述输入字段中的经修改的所述文本数据,来标识与私人信息相关联的经修改的多个实体;由所述评分子系统基于经修改的所述实体,来计算针对所述文本数据的经修改的隐私得分;以及由报告子系统基于所述经修改的隐私得分来更新所述图形界面。3.根据权利要求1所述的方法,还包括:由所述内容取回子系统接收与所述非结构化文本数据相关联的图像或视频;以及由媒体处理子系统处理所述图像或所述视频,以标识元数据,其中所标识的所述元数据的至少一个子集被进一步输入到所述机器学习模型,以标识所述实体。4.根据权利要求1所述的方法,其中所述一组非结构化文本数据是第一组非结构化文本数据并且所述多个实体是第一多个实体,所述方法还包括:在接收所述第一组非结构化文本数据之前:由所述内容取回子系统检测被录入到所述输入字段中的第二组非结构化文本数据的录入;以及响应于检测到所述录入并且利用所述自然语言处理子系统,通过至少将所述经训练机器学习模型应用于所述输入字段中的所述第二组非结构化文本数据,来标识与所述私人信息相关联的第二多个实体,其中所述评分子系统基于所述第一多个实体和所述第二多个实体之间的连接,来计算所述隐私得分。5.根据权利要求1所述的方法,其中经更新的所述图形界面还显示所述隐私得分的指示。
6.根据权利要求1所述的方法,其中所述机器学习模型包括神经网络,所述方法还包括通过以下来训练所述神经网络:由训练子系统从第一数据库取回针对与隐私风险相关联的第一实体类型的第一训练数据;由所述训练子系统从第二数据库取回针对与隐私风险相关联的第二实体类型的第二训练数据;以及由所述训练子系统使用所述第一训练数据和所述第二训练数据来训练所述神经网络,以标识所述第一实体类型和所述第二实体类型。7.根据权利要求1所述的方法,还包括:由所述自然语言处理子系统确定针对所标识的所述实体的实体类型;以及基于所确定的所述实体类型,由所述评分子系统向图模型中的实体之间的链接分配权重,其中所述隐私得分基于所述权重。8.一种计算系统,包括:内容取回子系统,被配置为:检测向图形界面的输入字段中的非结构化文本数据的录入;自然语言处理子系统,被配置为:通过至少将经训练机器学习模型应用于非结构化文本数据,来标识与私人信息相关联的多个实体;评分子系统,被配置为:通过将图模型应用于所述多个实体来标识所述实体之间的连接,来计算针对所述文本数据的隐私得分,所述实体之间的所述连接根据累积隐私风险对所述隐私得分做出贡献,所述隐私得分指示由所述非结构化文本数据对所述私人信息的潜在暴露;以及报告子系统,被配置为:将所述图形界面更新为包括指示符,所述指示符将所述输入字段内的所述非结构化文本数据的目标部分与所述输入字段内的所述非结构化文本数据的其他部分区分开,所述目标部分引起由所述隐私得分指示的所述私人信息的所述潜在暴露。9.根据权利要求8所述的计算系统,其中:所述内容取回子系统还被配置为:检测对被录入到所述图形界面的所述输入字段中的文本数据...

【专利技术属性】
技术研发人员:I
申请(专利权)人:奥多比公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1