一种基于共享数据的模型训练方法及装置制造方法及图纸

技术编号:20448743 阅读:24 留言:0更新日期:2019-02-27 02:53
公开了一种基于共享数据的模型训练方法及装置。该方案用于根据海量数据样本训练数据模型,其中数据样本来源于多个数据提供方,由于不同的数据提供方可以分别从不同的维度提供数据样本特征,因此将各个数据提供方的共享的数据整合后,可以形成特征维度更丰富的数据样本,从而训练出效果更佳的数据模型,同时可以保证数据共享的安全性问题。

A Model Training Method and Device Based on Shared Data

A model training method and device based on shared data are disclosed. The scheme is used to train data model according to massive data samples, in which data samples come from multiple data providers. Because different data providers can provide data sample features from different dimensions, after integrating the data shared by different data providers, data samples with richer feature dimensions can be formed, thus better data models can be trained. Type B can also ensure the security of data sharing.

【技术实现步骤摘要】
一种基于共享数据的模型训练方法及装置
本说明书实施例涉及数据挖掘
,尤其涉及一种基于共享数据的模型训练方法及装置。
技术介绍
在大数据时代,通过对海量数据进行挖掘,可以获得各种形式的有用信息,因此数据的重要性不言而喻。不同的机构都拥有各自的数据,但是任何一家机构的数据挖掘效果,都会受限于其自身拥有的数据数量和种类。针对该问题,一种直接的解决思路是:多家机构相互合作,将数据进行共享,从而实现更好的数据挖掘效果,实现共赢。然而对于数据拥有方而言,数据本身是一种具有很大价值的资产,而且出于保护隐私、防止泄露等需求,数据拥有方往往并不愿意直接把数据提供出来,这种状况导致“数据共享”在现实中很难实际运作。因此,如何在充分保证数据安全的前提下实现数据共享,已经成为行业内备受关注的问题。
技术实现思路
针对上述技术问题,本说明书实施例提供一种基于共享数据的模型训练方法及装置,技术方案如下:根据本说明书实施例的第一方面,提供一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu,并将gradu上传至数据挖掘方,其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值;数据挖掘方获得各数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。根据本说明书实施例的第二方面,提供一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;将gradu上传至数据挖掘方,以使得数据挖掘方利用各数据提供方u上传的gradu以及参数更新公式对Wglobal进行更新;所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。根据本说明书实施例的第三方面,提供一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:数据挖掘方向各数据提供方u提供Wu,以使得数据提供方u利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;接收数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。根据本说明书实施例的第四方面,提供一种基于共享数据的模型训练系统,包括数据挖掘方和数据提供方,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;所述数据挖掘方和数据提供方利用以下步骤进行迭代训练,直到满足模型训练要求:任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu,并将gradu上传至数据挖掘方,其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值;数据挖掘方获得各数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。根据本说明书实施例的第五方面,提供一种基于共享数据的模型训练装置,应用于数据提供方;其中数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;所述装置包括以下用于实现迭代训练的模块:参数下载模块,用于从数据挖掘方下载Wu;梯度值计算模块,用于利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度值;梯度值上传模块,用于将gradu上传至数据挖掘方,以使得数据挖掘方利用各数据提供方u上传的gradu以及参数更新公式对Wglobal进行更新;所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。根据本说明书实施例的第六方面,提供一种基于共享数据的模型训练装置,应用于数据挖掘方,所述数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;所述装置包括以下用于实现迭代训练的模块:参数提供模块,用于向各数据提供方u提供Wu,以使得数据提供方u利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;梯度值接收模块,用于接收数据提供方u上传的gradu;参数更新模块,用于利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。本说明书实施例所提供的技术方案,一方面,数据提供方上传到数据挖掘方的仅仅是梯度值,并不包含原始数据;另一方面,对模型本身也进行了加噪处理,保证不会泄密,同时可以保证加噪后的模型训练结果和原始结果相比并无太大损失。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是数据共享合作模式示意图;图2是本说明书实施例的模型训练系统的架构的示意图;图3是本说明书实施例的一种训练方法的流程示意图;图4是本说明书实施例的另一种训练方法的流程示意图;图5是本说明书实施例的一种模型训练装置的结构示意图;图6是本说明书实施例的另一种模型训练装置的结构示意图;图7是本说明书实施例的一种计算机设备的结构示意图。具体实施方式为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本文档来自技高网...

【技术保护点】
1.一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu,并将gradu上传至数据挖掘方,其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值;数据挖掘方获得各数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。

【技术特征摘要】
1.一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu,并将gradu上传至数据挖掘方,其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值;数据挖掘方获得各数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。2.根据权利要求1所述的方法,所述JN(w)由J(w)和N(w)共同确定,其中N(w)为噪声项,且n为参与运算的样本数量,w为长度为L的向量,L为Wglobal中包含的参数总数,beta=η*φ,η为从标准高斯分布中采样出的长度为L的向量,φ为从α=L、的伽马分布中采样出的标量,ε和c为设定的噪声参数。3.根据权利要求2所述的方法,JN(w)=J(w)+N(w),所述J(w)为不包含正则化的代价函数,或者所述J(w)为包含正则化的代价函数。4.根据权利要求2所述的方法,所述J(w)为包含正则化的代价函数:其中λ为2范数的约束系数;则所述5.根据权利要求4所述的方法,所述参数更新公式为:其中a为设定的学习率,betau为beta中对应于Wu的分量。6.一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;将gradu上传至数据挖掘方,以使得数据挖掘方利用各数据提供方u上传的gradu以及参数更新公式对Wglobal进行更新;所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。7.一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:数据挖掘方向各数据提供方u提供Wu,以使得数据提供方u利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;接收数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更...

【专利技术属性】
技术研发人员:李龙飞
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1