一种基于共享数据的模型训练方法及装置制造方法及图纸

技术编号:20448742 阅读:48 留言:0更新日期:2019-02-27 02:53
公开了一种基于共享数据的模型训练方法及装置。数据挖掘方可以根据多个数据提供方提供的数据进行联合训练,并且在模型训练过程中,具体的参数迭代更新的操作是在数据提供方完成,因此数据提供方并不需要向数据挖掘方提供具体数据、仅需将每次参数更新的结果上传至数据挖掘方。

A Model Training Method and Device Based on Shared Data

A model training method and device based on shared data are disclosed. Data mining parties can conduct joint training according to data provided by multiple data providers, and in the process of model training, the operation of iteration updating of specific parameters is completed by data providers. Therefore, data providers do not need to provide specific data to data mining parties, only upload the results of each parameter updating to data mining parties.

【技术实现步骤摘要】
一种基于共享数据的模型训练方法及装置
本说明书实施例涉及数据挖掘
,尤其涉及一种基于共享数据的模型训练方法及装置。
技术介绍
在大数据时代,通过对海量数据进行挖掘,可以获得各种形式的有用信息,因此数据的重要性不言而喻。不同的机构都拥有各自的数据,但是任何一家机构的数据挖掘效果,都会受限于其自身拥有的数据数量和种类。针对该问题,一种直接的解决思路是:多家机构相互合作,将数据进行共享,从而实现更好的数据挖掘效果,实现共赢。然而对于数据拥有方而言,数据本身是一种具有很大价值的资产,而且出于保护隐私、防止泄露等需求,数据拥有方往往并不愿意直接把数据提供出来,这种状况导致“数据共享”在现实中很难实际运作。因此,如何在充分保证数据安全的前提下实现数据共享,已经成为行业内备受关注的问题。
技术实现思路
针对上述技术问题,本说明书实施例提供一种基于共享数据的模型训练方法及装置,技术方案如下:根据本说明书实施例的第一方面,提供一种基于共享数据的模型训练方法,数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数,其中:数据挖掘方维护公用参数集Wglobal;每个数据提供方u分别维护本文档来自技高网...

【技术保护点】
1.一种基于共享数据的模型训练方法,数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数,其中:数据挖掘方维护公用参数集Wglobal;每个数据提供方u分别维护自有参数集Wu;所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:数据提供方u从数据挖掘方下载公用参数,利用下载结果替换本地维护的自有参数集Wu;利用本地数据以及模型参数更新算法,对替换后得到的自有参数集Wu进行更新;将更新结果上传至数据挖掘方,使得数据挖掘方利用数据提供方上传的更新结果更新公用参数集Wglobal。

【技术特征摘要】
1.一种基于共享数据的模型训练方法,数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数,其中:数据挖掘方维护公用参数集Wglobal;每个数据提供方u分别维护自有参数集Wu;所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:数据提供方u从数据挖掘方下载公用参数,利用下载结果替换本地维护的自有参数集Wu;利用本地数据以及模型参数更新算法,对替换后得到的自有参数集Wu进行更新;将更新结果上传至数据挖掘方,使得数据挖掘方利用数据提供方上传的更新结果更新公用参数集Wglobal。2.根据权利要求1所述的方法,所述从数据挖掘方下载公用参数,包括:数据提供方u从数据挖掘方下载公用参数子集Wglobal→u;其中,Wglobal→u的参数数量Ndownloadu小于Wglobal的参数数量N。3.根据权利要求2所述的方法,所述从数据挖掘方下载公用参数,包括:不同数据提供方从数据挖掘方下载针对不同特征的公用参数子集。4.根据权利要求2所述的方法,所述从数据挖掘方下载公用参数,包括:数据提供方u在每次迭代过程中,从数据挖掘方下载针对不同特征的公用参数子集。5.根据权利要求1所述的方法,所述将更新结果上传至数据挖掘方,包括:将更新后得到的参数值上传至数据挖掘方;或者将更新过程中参数的变化值上传至数据挖掘方。6.根据权利要求1所述的方法,所述将更新结果上传至数据挖掘方,包括:数据提供方u确定自有参数子集Wu→global,将Wu→global对应的参数更新结果上传至数据挖掘方;其中,Wu→global的参数数量Nuploadu小于Wu的参数数量N。7.根据权利要求6所述的方法,所述确定自有参数子集Wu→global,包括:对更新过程中Wu各参数的变化值大小进行排序,选择变化值较大的一个或多个变化值所对应的参数构成Wu→global。8.根据权利要求1所述的方法,所述将更新结果上传至数据挖掘方,包括:将更新结果截断至预设的数值范围后,上传至数据挖掘方;或者对更新结果进行添加噪声处理后,上传至数据挖掘方。9.一种基于共享数据的模型训练装置,数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数,其中:数据挖掘方维护公用参数集Wglobal;每个数据提供方u分别维护自有参数集Wu,;所述装置包括以下用于实现迭代训练的模块:公用参数下载模块,用于数据提供方u从数据挖掘方下载公用参数,利用下载结果替换本地维护的自有参数集Wu;自有参数更新模块,用于利用本地数据以及模型参数更新算法,...

【专利技术属性】
技术研发人员:赵沛霖李龙飞周俊李小龙
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1