为多个数据方提供数据模型的方法及装置制造方法及图纸

技术编号:23445672 阅读:61 留言:0更新日期:2020-02-28 19:53
本说明书实施例提供了为多个数据方提供数据模型的方法和装置。根据一个实施方式,先利用多个数据方分别提供的用户数据训练第一模型,确定第一模型的多个模型参数,然后分别确定各个数据方所提供的用户数据对第一模型的各个数据贡献度,接着,按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案,以根据各个提供方案向相应数据方提供第一模型。该实施方式用于多方安全计算时,可以在保护各个数据方的私有数据的基础上,激励各个数据方提供高质量的数据,达到共享数据的目的,从而提高训练的数据模型的有效性。

Methods and devices of providing data models for multiple data parties

【技术实现步骤摘要】
为多个数据方提供数据模型的方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及利用多个数据方的数据为多个数据方提供数据模型的方法及装置。
技术介绍
随着大数据化的发展趋势,数据共享已成为具有研究价值和实用性问题。数据共享通常是指多个数据方,在保护各自数据隐私的情况下,共同进行数据挖掘或机器学习工作,以期挖掘出数据中更大的价值的内容。举例而言,三个金融平台(如三个银行)作为三个数据方,各自拥有若干用户的征信数据,可以联合起来训练一个综合的征信模型,用于在向用户放贷等业务的参考。各数据方在向其他数据方提供自己的数据的时候,除了自身数据提供给其他数据方是否安全,各数据方会考虑的问题包括,其他数据方会不会用假数据或低质量数据欺骗自己。如何才能激励各个参与方都能将高质量训练数据贡献出来,以训练出全局较优的模型,是实践中值得思考的问题。
技术实现思路
本说明书一个或多个实施例描述的利用多个数据方的数据进行模型训练的方法及装置,可以用于解决
技术介绍
部分提到的一个或多个问题。根据第一方面,提供了一种为多个数据方提供数据模本文档来自技高网...

【技术保护点】
1.一种为多个数据方提供数据模型的方法,其中,所述方法包括:/n利用所述多个数据方分别提供的用户数据训练第一模型,确定第一模型的多个模型参数;/n分别确定各个数据方所提供的用户数据对所述第一模型的各个数据贡献度,其中,单个数据方所提供的用户数据的数据贡献度基于所述第一模型和利用其他数据方所提供的用户数据训练的第二模型确定,所述第一模型和所述第二模型包含相同的算法;/n按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案,以根据各个提供方案向相应数据方提供所述第一模型。/n

【技术特征摘要】
1.一种为多个数据方提供数据模型的方法,其中,所述方法包括:
利用所述多个数据方分别提供的用户数据训练第一模型,确定第一模型的多个模型参数;
分别确定各个数据方所提供的用户数据对所述第一模型的各个数据贡献度,其中,单个数据方所提供的用户数据的数据贡献度基于所述第一模型和利用其他数据方所提供的用户数据训练的第二模型确定,所述第一模型和所述第二模型包含相同的算法;
按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案,以根据各个提供方案向相应数据方提供所述第一模型。


2.根据权利要求1所述的方法,其中,所述单个数据方所提供的用户数据的数据贡献度,基于测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的对比结果确定,所述对比结果包括,测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的差值,或者测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的比值,所述数据贡献度与所述对比结果正相关。


3.根据权利要求2所述的方法,其中,所述评价指标根据准确度、召回率、误差率中的至少一项确定。


4.根据权利要求1所述的方法,其中,所述提供方案包括对所述第一模型的多个模型参数添加随机扰动,所述多个数据方包括第一数据方,所述按照各个数据贡献度的大小,确定分别针对各个数据方提供第一模型的各个提供方案包括:
按照各个数据贡献度的大小,确定针对所述第一数据方,进行随机扰动的扰动参数;
按照所确定的扰动参数对所述第一模型的多个模型参数添加随机扰动,并将经过随机扰动后的第一模型提供给所述第一数据方。


5.根据权利要求4所述的方法,其中,针对所述第一数据方的随机扰动在所述多个模型参数上的扰动量满足高斯分布,且高斯分布的均值为预定值,方差与所述第一数据方的数值贡献度负相关。


6.根据权利要求1所述的方法,其中,所述提供方案包括单个数据方额外提供的资源份额,所述按照各个数据贡献度的大小,确定分别针对各个数据方提供第一模型的各个提供方案包括:
按照单个数据方的数据贡献度的大小,确定所述单个数据方额外提供的各个资源份额,其中,单个数据方额外提供的资源份额与所述单个数据方对应的数据贡献度负相关。


7.根据权利要求1所述的方法,其中,所述按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案包括:
将各个数据贡献度分别与参考数据贡献度进行对比;
根据对比结果确定分别针对各个数据方提供数据模型的各个提供方案。


8.根据权利要求7所述的方法,其中,所述参考数据贡献度是预先设定的参考值,或者各个数据贡献度中的最大值。


9.根据权利要求7所述的方法,其中,单个数据贡献度与所述参考数据贡献度的对比结果包括以下至少一项:
所述参考数据贡献度与单个数据贡献度的差值;
单个数据贡献度与所述参考数据贡献度的比值。...

【专利技术属性】
技术研发人员:陈超超王力周俊
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1