联邦机器学习的方法和服务器技术

技术编号:34236240 阅读:20 留言:0更新日期:2022-07-24 08:15
本发明专利技术提供了一种使用至少一个处理器的联邦机器学习的方法,所述方法包括:将当前全局机器学习模型传输到复数个数据源中的每一个;分别从所述复数个数据源接收复数个训练更新,所述复数个训练更新中的每一个由相应的所述数据源响应于接收到的所述全局机器学习模型而生成;并且分别基于接收到的所述复数个训练更新以及与所述复数个数据源相关联的复数个数据质量参数来更新所述当前全局机器学习模型,以生成更新的全局机器学习模型。还提供了用于联邦机器学习的相应的服务器。了用于联邦机器学习的相应的服务器。了用于联邦机器学习的相应的服务器。

【技术实现步骤摘要】
【国外来华专利技术】联邦机器学习的方法和服务器


[0001]本专利技术总体上涉及一种联邦机器学习的方法及其服务器。

技术介绍

[0002]有监督的深度学习算法为各种分类任务(例如图像分类任务)提供了最先进的性能。这些任务的传统途径可能包括三个步骤:(a)集中大型数据存储库,(b)获取这些数据的基本事实注释,以及(c)使用基本事实注释来训练卷积神经网络(CNN)进行分类,然而,这个框架带来了重大的实际挑战。
[0003]特别是,数据隐私以及安全问题给创建大型中央数据存储库以进行训练带来了困难。最近的工作已经开发出分散的联邦学习途径,可以在不共享敏感信息的情况下跨多个数据源训练深度学习模型。这些现有的联邦学习途径已经被证明是成功的,但仍然可能存在不准确和/或不可靠的问题,具体取决于它们所训练的数据源。
[0004]因此,需要提供一种联邦机器学习的方法及其系统,以寻求克服或至少改善现有联邦机器学习途径或方法中的一个或多个缺陷,例如但不限于,提高联邦机器学习的准确性和/或可靠性。正是在这种背景下开发了本专利技术。

技术实现思路

[0005]根据本专利技术的第一方面,提供了一种使用至少一个处理器的联邦机器学习的方法,该方法包括:
[0006]将当前全局机器学习模型传输到复数个数据源中的每一个;
[0007]分别从复数个数据源接收复数个训练更新,复数个训练更新中的每一个由相应的数据源响应于接收到的全局机器学习模型而生成;并且
[0008]分别基于接收到的复数个训练更新以及与复数个数据源相关联的复数个数据质量参数更新当前全局机器学习模型,以生成更新的全局机器学习模型。
[0009]根据本专利技术的第二方面,提供了一种用于联邦机器学习的服务器,包括:
[0010]存储器;和
[0011]至少一个处理器,通信地耦合到存储器并被配置为:
[0012]将当前全局机器学习模型传输到复数个数据源中的每一个;
[0013]分别从复数个数据源接收复数个训练更新,复数个训练更新中的每一个由相应的数据源响应于接收到的全局机器学习模型而生成;并且
[0014]分别基于接收到的复数个训练更新以及与复数个数据源相关联的复数个数据质量参数更新当前全局机器学习模型,以生成更新的全局机器学习模型。
[0015]根据本专利技术的第三方面,提供了一种计算机程序产品,包含在一个或多个非暂时性计算机可读存储介质中,包括可由至少一个处理器执行以执行联邦机器学习的方法的指令,该方法包括:
[0016]将当前全局机器学习模型传输到复数个数据源中的每一个;
[0017]分别从复数个数据源接收复数个训练更新,复数个训练更新中的每一个由相应数据源响应于接收到的全局机器学习模型而生成;并且
[0018]分别基于接收到的复数个训练更新以及与复数个数据源相关联的复数个数据质量参数更新当前全局机器学习模型,以生成更新的全局机器学习模型。
附图说明
[0019]通过以下仅作为示例的书面描述并结合附图,本专利技术的实施例对于本领域的普通技术人员来说将会更好理解并且显而易见,其中:
[0020]图1描绘了根据本专利技术的各种实施例的使用至少一个处理器的联邦机器学习的方法的流程图;
[0021]图2描绘了根据本专利技术的各种实施例的用于联邦机器学习的服务器的示意框图;
[0022]图3描绘了示例计算机系统,仅作为示例,参照图2描述的服务器可以包含在该示例计算机系统中;
[0023]图4描绘了根据本专利技术的各种实施例的用于联邦机器学习的系统的示意框图;
[0024]图5描绘了根据本专利技术的各种示例实施例的联邦机器学习方法的概述;
[0025]图6描绘了根据本专利技术的各种示例实施例的联邦机器学习的示例方法(或算法);
[0026]图7A描绘了根据本专利技术的各种示例实施例的根据用于确定第一数据质量因子的第一技术的三个示例;
[0027]图7B描绘了根据本专利技术的各种示例实施例的根据用于确定第二数据质量因子的第二技术的两个示例;以及
[0028]图8描绘了根据本专利技术的各种示例实施例的用于在实验中评估集中托管的、联邦的以及加权的联邦学习途径或方法的示例过程的流程图;以及
[0029]图9描绘了根据本专利技术的各种示例实施例的为噪声模拟分配错误标签的可能性的过程的概述。
具体实施方式
[0030]本专利技术的各个实施例提供了一种联邦机器学习的方法及其服务器。
[0031]如
技术介绍
中所述,最近的工作已经开发出分散的联邦学习途径,可以在不共享敏感信息的情况下跨多个数据源训练深度学习模型。这些现有的联邦学习途径已经证明是成功的,但仍然可能存在不准确和/或不可靠的问题,具体取决于它们所训练的数据源。特别地,根据本专利技术的各种实施例,可以确定,这些现有的联邦学习途径要么假设多个数据源中的每一个都提供相同质量的数据(标签数据),要么没有考虑到多个数据源之间的数据的不同质量,导致不准确和/或不可靠。
[0032]例如但不限于,根据各种实施例,需要注意的是,医学成像、驾驶员辅助系统、远程传感设备以及众包社交媒体系统领域中的各种应用在跨数据源的数据质量方面表现出高度可变性。在某些情况下,例如,由于图像伪影、采集参数的差异或设备标准,输入数据特征是高度可变的。在其他情况下,例如,由于标签通常对应于不同的专家意见以及判断,并受到人为错误的影响,标签质量可能是可变的,并且基本事实标签可能难以定义。
[0033]本领域已知,标签数据可以包括特征(或数据特征)以及标签。例如但不限于,在机
器学习中,特征可以是指数据中的信息,这些信息可能对预测任务具有预测力(例如,有助于预测或预测能力),并且也可以称为输入数据特征。标签可以指关于相关联的特征的预测任务的基本事实结果。例如,关于特征质量,所有设备以及采集条件可能无法产生相同质量的图像。举例来说,以1T和3T下操作的医用磁共振(MR)图像扫描仪可能会导致针对特定诊断需求的非常不同的特征质量。此外,关于标签质量,所有专家的知识、技能、经验、判断力、专业化以及声誉可能都不相同。此外,数据注释者的注意力以及疲劳程度可能会有所不同,从而导致标签质量存在差异。例如,在医学成像领域,在对相同样本进行评估时,专家可能经常会与其同事甚至(在以后)与其自己意见相左。在一些复杂的应用程序中,甚至可能期望专家进行不同的评估,专家之间的不一致率可能非常高。因此,本专利技术的各种实施例确定标签质量可能在数据源、专家以及读数之间显著变化。
[0034]在这点上,本专利技术的各种实施例确认,执行联邦学习的现有努力可能在其解释以及适应跨多个数据源的数据质量以及分布的差异的能力方面受到高度限制。因此,各种实施例涉及对数据不确定性(例如,包括标签不确定性和/或特征不确定性)、弱监督学习、联邦学习以及多视图学习进行建模的努力。
[0035]在不使用机器学习的系统中,数据隐私涉及收集消费者/企业数据以及这些数据的未来使用。在使用系统时收集数据。另一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用至少一个处理器的联邦机器学习的方法,所述方法包括:将当前全局机器学习模型传输到复数个数据源中的每一个;分别从所述复数个数据源接收复数个训练更新,所述复数个训练更新中的每一个由相应的所述数据源响应于接收到的所述全局机器学习模型而生成;并且分别基于接收到的所述复数个训练更新以及与所述复数个数据源相关联的复数个数据质量参数来更新所述当前全局机器学习模型,以生成更新的全局机器学习模型。2.根据权利要求1所述的方法,其中,所述复数个训练更新中的每一个是由相应的所述数据源基于接收到的所述全局机器学习模型以及由相应的所述数据源存储的标签数据生成的。3.根据权利要求2所述的方法,其中,所述复数个训练更新中的每一个包括所述当前全局机器学习模型和由相应的所述数据源基于所述当前全局机器学习模型以及由相应的所述数据源存储的标签数据进行训练的本地机器学习模型之间的差异。4.根据权利要求1所述的方法,其中,所述更新所述当前全局机器学习模型包括分别基于与所述复数个数据源相关联的所述复数个数据质量参数确定所述复数个训练更新的加权平均值。5.根据权利要求2所述的方法,其中,所述由相应的所述数据源存储的标签数据包括特征和标签,与相应的所述数据源相关联的数据质量参数包括与所述特征相关联的特征质量参数和与所述标签相关联的标签质量参数中的至少一种。6.根据权利要求5所述的方法,其中,所述复数个数据质量参数中的一个或多个分别基于第一数据质量因子、第二数据质量因子以及第三数据质量因子中的至少一个,其中所述第一数据质量因子涉及对应数据源的质量,所述第二数据质量因子涉及由所述对应数据源存储的标签数据的质量,所述第三数据质量因子涉及数据不确定性的统计推导。7.根据权利要求6所述的方法,其中,所述第一数据质量因子基于以下至少一个:与所述数据源关联的信誉级别,由所述对应数据源存储的标签数据的一个或多个数据注释者的能力级别,以及与用于生成由所述对应数据源存储的标签数据的注释方法的类型相关联的方法值,其中,所述标签数据的特征与图像相关,所述第二数据质量因子基于图像采集特征以及图像中图像伪影水平中的至少一个。8.根据权利要求1所述的方法,还包括:将多个数据源分箱成复数个质量范围;并且从所述多个数据源中选择所述复数个数据源。9.根据权利要求1所述的方法,其中,所述复数个数据质量参数为复数个数据质量指标。10.一种用于联邦机器学习的服务器,包括:存储器,至少一个处理器,通信地耦合到所述存储器并被配置为:将当前全局机器学习模型传输到复数个数据源中的每一个;分别从所述复数个数据源接收复数个训练更新,所述复数个训练更新中的每一个由相应的所述数据源响应于接收到的所述全局机器学习模型而生成;并且分别基于接收...

【专利技术属性】
技术研发人员:P
申请(专利权)人:新加坡科技研究局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1