【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质
[0001]本专利技术实施例涉及数据安全
,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
[0002]目前,将保证本地训练数据不公开的前提下,可以实现多个参与方协同训练一个共享的机器学习模型的系统称作联邦学习系统。其中,参与方由多个数据拥有方和任务发起方构成。
[0003]任务发起方会向联邦学习系统提交一个任务请求,需要数据拥有方利用自己拥有的数据参与计算,并得到全局模型参数。为了衡量数据拥有方的数据对全局模型的价值贡献,任务发起方会自己对数据拥有方发起一些参数的计算,确定数据拥有方的贡献参数,这些参数会直接影响数据拥有方在参与任务后的收益。
[0004]可见,数据拥有方仅可以被动接任务发起方发送的贡献参数,如何确定可靠性更高的数据拥有方对应的贡献参数,成为亟需解决的问题。
技术实现思路
[0005]本专利技术实施例的目的是提供一种数据处理方法、装置、电子设备及存储介质,用于提高数据拥有方的贡献参数的可靠性。
[000 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于联邦学习系统,所述联邦学习系统包括N个数据拥有方和任务发起方,所述方法包括:第一数据拥有方确定M个数据验证子集;其中,所述M个数据验证子集的数据为:所述第一数据拥有方拥有的部分数据;M为大于1的正整数;所述第一数据拥有方向所述任务发起方发送贡献参数计算任务,并分别随机不放回的选取所述M个数据验证子集中一个数据验证子集分别发送给所述任务发起方,分别接收所述任务发起方反馈的M个贡献参数;其中,所述贡献参数任务指示所述任务发起方联合除所述第一数据拥有方外的N
‑
1个数据拥有方和一个数据验证子集进行贡献参数计算;N为大于1的正整数;所述第一数据拥有方确定所述M个贡献参数的总参数,如果确定所述M个贡献参数的总参数与所述任务发起方预先发送的贡献参数满足预设校验条件,确定所述任务发起方发送的贡献参数校验通过;其中,所述预先发送的贡献参数为所述任务发起方,对所述第一数据拥有方建立联邦学习模型所使用的数据自主计算所确定的。2.如权利要求1所述的方法,其特征在于,所述第一数据拥有方确定M个数据验证子集,包括:所述第一数据拥有方确定目标数据选取方式;所述目标数据选取方式为随机选取一个项目对应的多项特征数据或随机选取多个项目的一项特征数据;所述第一数据拥有方根据所述目标数据选取方式,从所述第一拥有方的数据中选取数据集;所述第一数据拥有方根据所述数据集,确定M个数据验证子集。3.如权利要求2所述的方法,其特征在于,所述第一数据拥有方根据所述数据集,确定M个数据验证子集,包括:所述第一数据拥有方根据预设数据长度,将所述数据集划分为M个数据验证子集;其中,所述预设数据长度基于数据集的数据量和随机选择算法对应确定。4.如权利要求1
‑
3任一所述的方法,其特征在于,所述贡献参数包括数据贡献量评分、数据质量评分以及数据定价中的一项或多项。5.如权利要求1
‑
3任一所述的方法,其特征在于,如果确定所述M个贡献参数的总参数与所述任务发起方预先发送的贡献参数不满足预设校验条件,所述方法还包括:所述第一数据拥有方向所述任务发起方发送第一提示信息,所述第一提示信息用于指示所述任务发起方对所述第一数据拥有方参与所述任务发起方建立联邦学习模型的数据重新计算贡献参数,以确定校验失败原因;或,所述第一数据拥有...
【专利技术属性】
技术研发人员:章枝宪,于文青,李鑫超,杨诗友,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。