当前位置: 首页 > 专利查询>SAP欧洲公司专利>正文

保护隐私的同时在分布式客户数据上的机器学习制造技术

技术编号:26342898 阅读:37 留言:0更新日期:2020-11-13 20:39
计算机实施的系统和计算机实施的方法包括以下。在训练代理处接收对训练机器学习ML模型的请求。用于训练模型的匿名化数据由训练代理从多个数据源的每个单独数据源获得。通过数据科学模式访问匿名化数据,匿名化数据由来自每个单独数据源的生产数据的敏感信息的匿名化提供。对匿名化数据的访问被提供给数据供应商,用于使用匿名化数据训练ML模型。

Privacy preserving machine learning on distributed customer data

【技术实现步骤摘要】
保护隐私的同时在分布式客户数据上的机器学习
本公开涉及机器学习。
技术介绍
当使用生产数据例如而不是制造的测试数据时,机器学习技术可以提供改进的结果。然而,生产数据可能包括是私人的或敏感的信息。受益于机器学习技术的客户,诸如公司或企业,可能具有关于提供私人或敏感信息的担心。私人信息可以包括例如个人可识别信息(personallyidentifiableinformation,PII),诸如姓名、地址、电话号码、帐号、和计算机凭证。敏感信息可以包括例如账户余额、其它数字量或测量、和人口统计信息。作为结果,客户避免向创建模型的供应商提供他们的数据,因为这些数据可能包含隐私相关或一般敏感的信息。
技术实现思路
本公开描述了用于在维护对隐私的最小影响的同时在分布式客户数据上执行机器学习的技术。在实施方式中,计算机实施的方法包括:在训练代理处接收对训练机器学习模型ML的请求;由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据,其中通过匿名化来自每个单独数据源的生产数据的敏感信息来提供通过数据科学模式访问的匿名化数据;并本文档来自技高网...

【技术保护点】
1.一种计算机实施的方法,包括:/n在训练代理处接收对训练机器学习ML模型的请求;/n由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据,通过数据科学模式访问的匿名化数据由来自每个单独数据源的生产数据的敏感信息的匿名化提供;并且/n向数据供应商提供对匿名化数据的访问,用于使用匿名化数据训练ML模型。/n

【技术特征摘要】
20190513 US 16/410,0761.一种计算机实施的方法,包括:
在训练代理处接收对训练机器学习ML模型的请求;
由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据,通过数据科学模式访问的匿名化数据由来自每个单独数据源的生产数据的敏感信息的匿名化提供;并且
向数据供应商提供对匿名化数据的访问,用于使用匿名化数据训练ML模型。


2.根据权利要求1所述的计算机实施的方法,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供对匿名化数据的请求;
从多个数据源的每个单独数据源接收匿名化数据;并且
将匿名化数据存储在由训练代理维护的高速缓存中,其中,向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。


3.根据权利要求1所述的计算机实施的方法,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供模型;
从多个数据源的每个单独数据源接收更新的模型,其中,更新的模型由单独数据源使用在单独数据源处运行的机器学习模型训练并且使用对于单独数据源本地地可用的匿名化数据创建;
对于多个数据源的其它单独数据源重复提供和接收;并且
由训练代理向数据供应商提供更新的模型。


4.根据权利要求1所述的计算机实施的方法,进一步包括:
基于生产数据的生产数据模式创建数据科学模式,其中,数据科学模式提供对生产数据的只读访问,并且其中,数据科学模式提供限于对生产数据中的非个性化数据的访问,而不复制非个性化数据;并且
使用数据科学模式以提供对生产数据的访问。


5.根据权利要求4所述的计算机实施的方法,进一步包括:
向每个单独数据源处的用户提供对数据科学模式的访问用于查看。


6.根据权利要求2所述的计算机实施的方法,进一步包括:
缩放匿名化数据中的数值以移除可追溯到单独数据源的数值。


7.根据权利要求1所述的计算机实施的方法,进一步包括:
将生产数据中的字段映射到全局唯一标识符GUID以移除可追溯到单独数据源的值;并且
将GUID与匿名化数据存储。


8.根据权利要求1所述的计算机实施的方法,进一步包括:
创建用于接收生产数据的子集的流水线;
读取生产数据用于对于训练ML模型需要的训练数据;
将训练数据存储在对于流水线可访问的数据库表中;并且
使用数据科学模式提供对数据库表的访问。


9.一种存储一个或多个指令的非暂时性计算机可读介质,指令由计算机系统可运行以执行操作,操作包括:
在训练代理处接收对训练机器学习ML模型的请求;
由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据,通过数据科学模式访问的匿名化数据由来自每个单独数据源的生产数据的敏感信息的匿名化提供;并且
向数据供应商提供对匿名化数据的访问,用于使用匿名化数据训练ML模型。


10.根据权利要求9所述的非暂时性计算机可读介质,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供对匿名化数据的请求;
从多个数据源的每个单独数据源接收匿名化数据;并且
将匿名化数据存储在由训练代理维护的高速缓存中,其中,向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。


11.根据权利要求9所述的非暂时性计算机可读介质,其中,获得匿名化数据包括:
...

【专利技术属性】
技术研发人员:P埃伯莱因V德里森
申请(专利权)人:SAP欧洲公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1