【技术实现步骤摘要】
本申请涉及大数据,尤其涉及模型训练过程中的数据交互方法、装置、介质及程序产品。
技术介绍
1、随着人工智能技术的迅猛发展,海量数据的涌现成为了一种常态。然而,这些数据往往分散存储于各个不同的地方,彼此之间难以互通,这就形成了所谓的“数据孤岛”现象。为了打破数据孤岛,通常采用联邦学习算法在各参与方不直接进行数据交换的情况下对分散的数据进行协同学习和模型训练,从而实现对分散的数据资源的充分利用,构建一个更强大、更准确的模型。
2、在现有技术中,通常采用xgboost,即一种适用于横向联邦学习的机器学习算法,无需进行原始数据交换,仅通过各参与方交互各自数据的梯度信息来协同训练模型,实现模型的优化。然而,参与方在交互过程中存在潜在的隐私泄露风险。攻击者可能通过分析交互的梯度信息,推断出参与方的原始数据的敏感信息,如用户的个人特征、行为模式等,进而侵犯用户的隐私。
3、为了避免上述问题,各参与方通常采用同态加密的梯度保护方法,通过在安全聚合时在数据上添加随机数来混淆原始值,使在数据传输和聚合的过程中,攻击者无法获取到梯度信
...【技术保护点】
1.一种模型训练过程中的数据交互方法,其特征在于,所述方法应用于第一参与方设备,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定本地训练集对应的梯度数据,包括:
3.根据权利要求1所述的方法,其特征在于,对所述梯度数据进行拆分处理,以获得多个子梯度数据,包括:
4.根据权利要求1所述的方法,其特征在于,所述交互子梯度数据的数量与第二参与方设备的数量相同;
5.根据权利要求1所述的方法,其特征在于,所述目标模型为XGBoost模型,当前次训练过程为对XGBoost模型中当前决策树的构建过程。
...
【技术特征摘要】
1.一种模型训练过程中的数据交互方法,其特征在于,所述方法应用于第一参与方设备,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定本地训练集对应的梯度数据,包括:
3.根据权利要求1所述的方法,其特征在于,对所述梯度数据进行拆分处理,以获得多个子梯度数据,包括:
4.根据权利要求1所述的方法,其特征在于,所述交互子梯度数据的数量与第二参与方设备的数量相同;
5.根据权利要求1所述的方法,其特征在于,所述目标模型为xgboost模型,当前次训练过程为对xgboost模型中当前决策树的构建过程。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,所述目...
【专利技术属性】
技术研发人员:袁博文,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。