分散式人工智能(AI)/机器学习训练系统技术方案

技术编号：34237083 阅读：15 留言：0更新日期：2022-07-24 08:25

描述了一个分散式训练平台，用于训练人工智能(AI)模型，其中训练数据(例如医学图像)分布在多个站点(节点)上，且由于保密、法律或其它原因，每个站点的数据不能被共享或离开站点，因此无法复制到中央位置进行训练。该方法包括：在每个节点处本地训练教师模型，然后将每个教师模型移动到中央节点，并使用它们以使用迁移数据集训练学生模型。通过使用节点之间的区域间对等连接来设置云服务以使这些节点以单个集群的方式出现，有利于实现这一点。在一个变体中，可以在每个节点处使用多个经过训练的教师模型训练学生模块。在另一个变体中，训练多个学生模型，其中由每个教师模型在其被训练的节点处训练每个学生模型，且一旦训练了多个学生模型，就从多个经过训练的学生模型生成系综模型。可以使用损失函数加权和节点下采样实现负载均衡，以提高准确度和时间/成本效率。率。率。

Decentralized artificial intelligence (AI) / machine learning training system

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】分散式人工智能(AI)/机器学习训练系统
[0001]优先权文件
[0002]本申请要求2019年9月23日提交的专利技术名称为“分散式机器学习训练系统(DECENTRALISED MACHINE LEARNING TRAINING SYSTEM)”的澳大利亚临时专利申请第2019903539号的优先权，其全部内容通过引用合并于此。

[0003]本专利技术涉及一种人工智能和机器学习计算系统。在特定形式中，本专利技术涉及用于训练AI/机器学习计算系统的方法和系统。

技术介绍

[0004]传统的计算机视觉技术识别图像的关键特征并将其表示为固定长度的向量描述。这些特征通常是“低级”特征，例如对象边缘。这些特征提取方法(SIFT、SURF、HOG、ORB等)由研究人员针对每个关注领域(医学、科学、通用图像等)手工设计，具有一定程度的重叠和可重用性。通常，特征提取器由一个特征提取矩阵组成，该矩阵在N
×
N个图像块上进行卷积。块的大小取决于所使用的技术。但是，手工制作准确特征不可能考虑更微妙的线索如纹理和场景或背景上下文。
[0005]另一方面，包括深度学习和机器学习技术在内的人工智能(AI)提出了从大型数据集中“学习”好的特征和表示(即“描述”)的问题。计算机视觉中，当前的标准方法是使用卷积神经网络(CNN)来学习这些特征表示。类似地，对于特征提取方法，在N
×
N个图像块(大小取决于配置)上应用卷积。然而，并非是手工制作权重矩阵，而是对卷积的参数进行优化以实现某些目标...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在包括多个节点的分布式数据集上训练人工智能(AI)模型的方法，其中，每个节点包括一个节点数据集，且这些节点不能访问其它节点数据集，包括：生成多个经过训练的教师模型，其中每个教师模型是在一个节点处在所述节点数据集上本地训练的深度神经网络模型；将所述多个经过训练的教师模型移动到中央节点，其中移动教师模型包括将表示所述教师模型的一组权重发送到所述中央节点；使用知识蒸馏，并使用所述多个经过训练的教师模型和迁移数据集，训练学生模型。2.如权利要求1所述的方法，其中，在将所述多个经过训练的教师模型移动到中央节点之前，对每个经过训练的教师笔记执行合规性检查，以检查所述模型不包含来自其被训练的那个节点的私有数据。3.如权利要求1或2所述的方法，其中，所述迁移数据集是从所述多个节点数据集内提取的约定传输数据。4.如权利要求1或2所述的方法，其中，所述迁移数据集为包括多个节点迁移数据集的分布式数据集，其中节点迁移数据集是节点本地的。5.如权利要求1或2所述的方法，其中，所述迁移数据集是从所述多个节点数据集中提取的约定传输数据和多个节点迁移数据集的混合，其中，节点本地迁移数据集是节点本地的。6.如前述权利要求中任一项所述的方法，其中，所述节点存在于多个分离的、地理上孤立的地点。7.如前述权利要求中任一项所述的方法，其中，训练所述学生模型的步骤包括：在每个所述节点处使用所述节点数据集，并使用所述多个经过训练的教师模型，训练所述学生模型。8.如权利要求7所述的方法，其中，在使用所述多个经过训练的教师模型训练所述学生模型之前，该方法还包括：通过在每个所述节点之间建立多个区域间对等连接，形成用于训练所述学生模型的单个训练集群，且其中所述迁移数据集包括每个所述节点数据集。9.如权利要求7或8所述的方法，其中，在每个所述节点处训练所述学生模型后，将所述学生模型发送到主节点，将所述学生模型的副本发送到每个所述节点并分配为工作者节点，所述主节点在每个批次之后收集并平均所有工作者节点的权重，以更新所述学生模型。10.如权利要求9所述的方法，其中，在将所述学生模型发送到所述主节点之前，对所述学生模型执行合规性检查，以检查所述模型不包含来自其被训练的那个节点的私有数据。11.如前述权利要求中的任一项所述的方法，其中，所述训练所述学生模型的步骤包括：训练多个学生模型，其中每个学生模型在第一节点处为教师模型，其是通过将所述学生模型移动到另一个节点并在该节点处使用所述节点数据集并使用所述教师模型训练学生模型，而在其它节点处由多个教师模型训练的，且一旦多个学生模型都被训练了，就从所述多个经过训练的学生模型生成系综模型。12.如权利要求11所述的方法，其中，在训练多个学生模型之前，该方法还包括：通过在每个所述节点之间建立多个区域间对等连接，形成用于训练所述学生模型的单
个训练集群。13.如权利要求11或12所述的方法，其中，在将所述学生模型移动到另一个节点之前，对学生模型执行合规性检查，以检查所述模型不包含来自其被训练的那个节点的私有数据。14.如权利要求11所述的方法，其中，每个学生模型在其已经在预定阈值数量的节点处被训练之后被训练。15.如权利要求11所述的方法，其中，每个学生模型在其已经在至少阈值数量的节点处针对预定数量的数据进行训练之后被训练。16.如权利要求11所述的方法，其中，每个学生模型在其已经在所述多个节点中的每一个节点处被训练之后被训练。17.如权利要求11所述的方法，其中，所述系综模型是使用平均投票法获得的。18.如权利要求11所述的方法，其中，所述系综模型是使用加权平均获得的。19.如权利要求11所述的方法，其中，所述系综模型是使用专家层混合(学习加权)获得的。20.如权利要求11所述的方法，其中，所述系综模型是使用蒸馏法获得的，其中从所述多个学生模型中蒸馏出最终模型。21.如权利要求2、10或13所述的方法，其中，对模型执行合规检查包括：检查所述模型是否已经记住了数据的具体示例。22.如权利要求21所述的方法，其中，如果所述合规检查返回FALSE值，则在具有不同参数的数据上重新训练所述模型，直到得到满足所述合规检查的模型，或者如果尝试N次都没有得到模型，则要么丢弃所述模型，要么加密所述模型并共享所述模型，如果数据政策允许来自相应节点的数据的加密共享。23.如前述权利要求中任一项所述的方法，还包括：使用加权来调整蒸馏损失函数以补偿每个节点处的数据点数量的差异。24.如权利要求23所述的方法，其中，所述蒸馏损失函数具有以下形式：Loss(x,y)＝CrossEntropyLoss(S(x),y)+D(S(x),T(x)其中CrossEntropyLoss是损失函数，x表示要最小化的一批训练数据，y是与所述批次x的每个元素相关联的目标(真实值)，S(x)和T(x)是从所述学生模型和教师模型获得的分布，D是散度度量。25.如前述权利要求中任一项所述的方法，其中，一个纪元包括每个节点数据集的完整训练阶段(full training pass)，且在每个纪元期间，每个工作者对可用样本数据集的子集进行采样，其中所述子集大小基于最小数据集的大小,且根据最大数据集的大小与最小数据集的大小的比值增加纪元的数量。26.如前述权利要求中任一项所述的方法，其中，将所述多个节点分成k个集群，其中k小于节点总数，且在每个集群中分别地执行如权利要求1至25中任一项所述的方法以生成k个集群模型，其中每个集群模型保存在集群代表节点上，在所述k个集群代表节点上执行如权利要求1至25中任一项所述的方法，其中所述多个节点包括所述k个集群代表节点。27.如权利要求26所述的方法，其中，创建一个或多个节点的附加层，且通过...

【专利技术属性】
技术研发人员：J，
申请(专利权)人：普雷萨根私人有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人