基于最优联邦方选择的联邦学习方法、设备及系统技术方案

技术编号:34451641 阅读:55 留言:0更新日期:2022-08-06 16:53
本发明专利技术公开了基于最优联邦方选择的联邦学习方法及系统,所述方法包括:获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备进行本次联邦学习任务;判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就返回上一步。步。步。

【技术实现步骤摘要】
基于最优联邦方选择的联邦学习方法、设备及系统


[0001]本专利技术涉及机器学习
,特别是涉及基于最优联邦方选择的联邦学习方法、设备及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]联邦学习作为机器学习新兴研究方向,融合了分布式系统、密码学等多学科知识,能帮助多个机构在满足用户隐私保护、数据使用合规合法的要求下,进行机器学习建模,实现多个参与者模型的协同训练与优化更新。联邦学习保证各个参与方的私有数据不出本地,参与者仅需在本地执行联邦学习模型的训练任务,通过加密机制下的参数交换方式,在不违反数据隐私保护法律法规的情况下,建立公共模型,并保证此模型的效果优于各个参与方独自训练的模型。因建立模型时数据本身不移动,并不会泄露用户隐私或影响数据安全,且建好的模型在各自的区域仅为本地的目标服务。
[0004]联邦学习虽然可以有效缓解数据安全问题、合理利用分散在各个企业内部数据及硬件资源,但是自身也面临数据异构、联邦学习不易使用的问题。首先是数据异构问题。联邦学习中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于最优联邦方选择的联邦学习方法,其特征是,应用于云端计算设备,包括:获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;接收数据使用方提交的数据集选择指令;其中,被选择的数据集用于执行本次联邦训练任务;根据数据使用方所选择的数据集以及联邦方状态数据库中的信息,采用最优联邦方计算设备选择算法,选择若干个联邦方计算设备进行本次联邦学习任务;判断被选择的各个联邦方计算设备的工作状态,若工作状态正常,就生成配置文件,并将配置文件发送给联邦方计算设备,联邦方计算设备根据配置文件进行联邦训练,输出联邦训练后的模型,将联邦训练后的模型反馈给数据使用方;若工作状态不正常,就返回上一步。2.如权利要求1所述的基于最优联邦方选择的联邦学习方法,其特征是,获取所有联邦方计算设备的数据集元信息,存放至联邦方状态数据库中;所述数据集元信息包括数据集名称、数据集属性名以及数据集中数据条数。3.如权利要求1所述的基于最优联邦方选择的联邦学习方法,其特征是,所述数据集元信息,用于规定联邦方数据集应具备的元信息内容及格式,数据集元信息,包括强制类元信息、可选类元信息和自生成类元信息,各类元信息经过处理后存放至联邦方状态数据库中。4.如权利要求1所述的基于最优联邦方选择的联邦学习方法,其特征是,所述联邦方状态数据库,存储各个联邦方计算设备所拥有的数据集元信息及评分信息,供最优联邦方计算设备选择算法使用;联邦方状态数据库,包括:联邦方元信息表、邻居表、最优联邦方表。5.如权利要求4所述的基于最优联邦方选择的联邦学习方法,其特征是,所述联邦方元信息表,用于存储所有联邦方拥有数据集的元信息,联邦方元信息的字段,包括:联邦方标识、数据集标识、数据集所属问题分类、数据集质量评分;其中,联邦方标识,用于标识各个联邦方计算设备;其中,数据集标识,用于标识联邦方内的各个数据集;其中,数据集质量评分,使用公式(1)进行评分,根据实际需求进行替换,问题类别字段用于表示数据集所属问题类别,此处使用医疗领域的GB/T14396

2016标准分类;Q
ds
=ω
i
*(1

M
error
/M
total
)+ω
j
*(1

N
error
/N
total
)
ꢀꢀꢀ
(1)其中,M
error
、N
error
分别代表本联邦方及邻居联邦方的数据集中含有异常值和空值的行数,M
total
、N
total
分别代表本联邦方及邻居联邦方的数据集总行数,w
i
、w
j
分别代表本联邦方及邻居联邦方数据集质量所占权重,Q
ds
代表数据集质量评分。6.如权利要求4所述的基于最优联邦方选择的联邦学习方法,其特征是,所述邻居表,以联邦方为单位进行存储,即不同联邦方具有不同的邻居;邻居表中维护其所属联邦方的邻居关系;邻居表的字段,包括:联邦方标识、数据集标识、邻居联邦方标识、邻居数据集标识、所属问题分类、是否可用邻居、连通性、网络质量评分;其中,所属问题分类,是确定如何建立相邻关系的主要因素,两个联邦方间网络联通或具有同属某一类问题的数据集不足以保证双方称为邻居关系,需要对数据集进行字段名称、字段类型匹配,匹配成功则表示双方为可用邻居;联邦方标识,用于标识各个联邦方;
数据集标识,用于标识联邦方内的各个数据集;邻居联邦方标识,用于表示该联邦方的邻居联邦方;邻居数据集标识,用于标识该联邦方邻居联邦方内的数据集;连通性,表示该联邦方数据集是否可与其邻居联邦方数据集匹配以共同进行联邦学习;网络质量评分,使用公式(2)对联邦方到邻居联邦方的网络进行评分;Q
net
=ω
b
*B
curr
/B

【专利技术属性】
技术研发人员:马兴敏蒋鑫龙陈益强杨晓东赵绪浩李宜兵
申请(专利权)人:济南中科泛在智能计算研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1