当前位置: 首页 > 专利查询>奥多比公司专利>正文

用于防止敏感数据在线公开的机器学习模型制造技术

技术编号:33370608 阅读:37 留言:0更新日期:2022-05-11 22:36
本公开的实施例涉及用于防止敏感数据在线公开的机器学习模型。系统和方法使用将机器学习模型与内容编辑工具一起使用来防止或减轻敏感数据的无意公开和传播。通过将经训练机器学习模型应用于经由界面的输入字段接收的一组非结构化文本数据,可以标识与私人信息相关联的实体。通过标识实体之间的连接来计算针对文本数据的隐私得分,实体之间的连接根据累积隐私风险对隐私得分做出贡献,隐私得分指示私人信息的潜在暴露。界面被更新为包括将输入字段内的一组非结构化文本数据的目标部分与输入字段内的一组非结构化文本数据的其他部分区分开的指示符,其中对目标部分的修改改变由隐私得分指示的私人信息的潜在暴露。由隐私得分指示的私人信息的潜在暴露。由隐私得分指示的私人信息的潜在暴露。

【技术实现步骤摘要】
用于防止敏感数据在线公开的机器学习模型


[0001]本公开一般涉及使用人工智能来防止敏感数据的无意泄露。更具体地,但不作为限制,本公开涉及用于将机器学习模型与内容编辑工具一起使用以实时防止或减轻敏感数据的无意公开和传播的技术。

技术介绍

[0002]用于处理文本的人工智能技术在各种内容编辑工具中有用。作为一个示例,当用户输入内容进行在线搜索时,机器学习模型用于预测下一个字词。作为另一个示例,机器学习被用在在线文字处理软件中来建议改变以改善文本内容的可读性。
[0003]然而,这些类型的内容编辑工具通常存在敏感信息(诸如个人标识信息)可能被无意公开的风险。例如,用户可以在在线论坛中输入看似无害的信息,诸如指出用户是“来自佛罗里达州的软件工程师”,其可以与其他在线内容结合使用来标识该用户。在一些情况下,某些内容编辑工具的在线性质展现了允许该敏感数据一旦被无意公开就会被迅速传播的独特风险,有时不可撤销。随着个人发布到因特网的信息量迅速增加,由于个人标识信息的暴露而引起的隐私问题也迅速增加。看似无害的数据元素在聚合时可以提供他们从未打算发布或意本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:由内容取回子系统检测被录入到图形界面的输入字段中的一组非结构化文本数据的录入;响应于检测到所述录入并且利用自然语言处理子系统,通过至少将经训练机器学习模型应用于所述输入字段中的所述一组非结构化文本数据,来标识与私人信息相关联的多个实体;由评分子系统通过标识所述实体之间的连接来计算针对所述文本数据的隐私得分,所述实体之间的所述连接根据累积隐私风险对所述隐私得分做出贡献,所述隐私得分指示由所述一组非结构化文本数据对所述私人信息的潜在暴露;以及由报告子系统将所述图形界面更新为包括指示符,所述指示符将所述输入字段内的所述一组非结构化文本数据的目标部分与所述输入字段内的所述一组非结构化文本数据的其他部分区分开,其中对所述目标部分的修改改变由所述隐私得分指示的所述私人信息的所述潜在暴露。2.根据权利要求1所述的方法,还包括:由所述内容取回子系统检测对被录入到所述图形界面的所述输入字段中的所述一组非结构化文本数据的修改;响应于检测到所述修改并且利用所述自然语言处理子系统,通过至少将所述经训练机器学习模型应用于所述输入字段中的经修改的所述文本数据,来标识与私人信息相关联的经修改的多个实体;由所述评分子系统基于经修改的所述实体,来计算针对所述文本数据的经修改的隐私得分;以及由报告子系统基于所述经修改的隐私得分来更新所述图形界面。3.根据权利要求1所述的方法,还包括:由所述内容取回子系统接收与所述非结构化文本数据相关联的图像或视频;以及由媒体处理子系统处理所述图像或所述视频,以标识元数据,其中所标识的所述元数据的至少一个子集被进一步输入到所述机器学习模型,以标识所述实体。4.根据权利要求1所述的方法,其中所述一组非结构化文本数据是第一组非结构化文本数据并且所述多个实体是第一多个实体,所述方法还包括:在接收所述第一组非结构化文本数据之前:由所述内容取回子系统检测被录入到所述输入字段中的第二组非结构化文本数据的录入;以及响应于检测到所述录入并且利用所述自然语言处理子系统,通过至少将所述经训练机器学习模型应用于所述输入字段中的所述第二组非结构化文本数据,来标识与所述私人信息相关联的第二多个实体,其中所述评分子系统基于所述第一多个实体和所述第二多个实体之间的连接,来计算所述隐私得分。5.根据权利要求1所述的方法,其中经更新的所述图形界面还显示所述隐私得分的指示。
6.根据权利要求1所述的方法,其中所述机器学习模型包括神经网络,所述方法还包括通过以下来训练所述神经网络:由训练子系统从第一数据库取回针对与隐私风险相关联的第一实体类型的第一训练数据;由所述训练子系统从第二数据库取回针对与隐私风险相关联的第二实体类型的第二训练数据;以及由所述训练子系统使用所述第一训练数据和所述第二训练数据来训练所述神经网络,以标识所述第一实体类型和所述第二实体类型。7.根据权利要求1所述的方法,还包括:由所述自然语言处理子系统确定针对所标识的所述实体的实体类型;以及基于所确定的所述实体类型,由所述评分子系统向图模型中的实体之间的链接分配权重,其中所述隐私得分基于所述权重。8.一种计算系统,包括:内容取回子系统,被配置为:检测向图形界面的输入字段中的非结构化文本数据的录入;自然语言处理子系统,被配置为:通过至少将经训练机器学习模型应用于非结构化文本数据,来标识与私人信息相关联的多个实体;评分子系统,被配置为:通过将图模型应用于所述多个实体来标识所述实体之间的连接,来计算针对所述文本数据的隐私得分,所述实体之间的所述连接根据累积隐私风险对所述隐私得分做出贡献,所述隐私得分指示由所述非结构化文本数据对所述私人信息的潜在暴露;以及报告子系统,被配置为:将所述图形界面更新为包括指示符,所述指示符将所述输入字段内的所述非结构化文本数据的目标部分与所述输入字段内的所述非结构化文本数据的其他部分区分开,所述目标部分引起由所述隐私得分指示的所述私人信息的所述潜在暴露。9.根据权利要求8所述的计算系统,其中:所述内容取回子系统还被配置为:检测对被录入到所述图形界面的所述输入字段中的文本数据...

【专利技术属性】
技术研发人员:I
申请(专利权)人:奥多比公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1