当前位置: 首页 > 专利查询>复旦大学专利>正文

一种多智能体在线进化学习的机器学习方法技术

技术编号:34525773 阅读:13 留言:0更新日期:2022-08-13 21:16
本发明专利技术属于机器学习技术领域,具体为一种多智能体在线进化学习的机器学习方法。本发明专利技术方法包括:在OEL场景中,在局部区域内,有多个智能体模型在实时获取感知数据,同时结合少量的有标注数据进行不断的学习与智能体模型更新;多个智能体模型通过交互学习实现知识迁移;每个智能体模型都在面临大量的无标注non

【技术实现步骤摘要】
一种多智能体在线进化学习的机器学习方法


[0001]本专利技术属于机器学习
,具体涉及多智能体在线进化学习的机器学习方法。

技术介绍

[0002]半监督学习(Semi

supervised Learning,SSL)可以基于少量的标注数据,利用大量的未标记数据进行自我训练和持续进化,该特性使SSL成为处理不断变化的实时感知数据的潜在有效方法。在边缘计算的实时感知环境中,来自真实世界的不断变化的感知数据流具有非独立同分布(non

i.i.d)的特性,机器学习模型基于其现有知识,通过多模型交互判别与自我训练的方法,对大量新增感知数据的有效的利用以促使各模型进行实时调优,这类方法即线进化学习。例如,典型的现代物联网(IoT)应用中,多智能体SSL体系结构可以通过在模型之间共享知识来帮助解决对大量无标签non

i.i.d数据的有效利用,从而实现多智能体模型的适应环境与实时泛化的问题。
[0003]基于深度神经网络的半监督学习(SSL)算法在多个数据库挑战任务中取得了出色的结果。这些任务主要研究在有标记数据有限的情况下,如何使用同分布的无标记数据进行模型训练。然而,如今大多数先进的深度学习应用都依赖于大量有标记数据集来训练有效的机器学习模型,这些方法依赖巨大的计算能力和不断更新的数据标注,以保证模型的泛化能力。这导致各类基于机器学习模型的应用灵活性较差,无法根据感知数据进行模型的实时更新与调优。与全监督方法相比,SSL模型可以使用少量带注释的数据进行自主训练,同时获得具有竞争力或更好的结果,这使SSL成为适应不断发展和不稳定数据流下的模型自主学习的一种有效方法。
[0004]随着边缘智能技术的发展,具有独立通信和计算能力的各种边缘设备日益增多,使得边缘模型的交互和训练成为可能。然而,在现实环境中,边缘设备实时获取的大量未标记数据通常是不稳定的,且这些数据分布具备高度时变性。为了在不断变化的数据环境中保持模型泛化能力以提供定制化的识别服务,边缘模型需要在数据流非独立同分布的情况下,通过多模型的协作判断,不断进行性能和泛化性优化。在线进化学习(Onlineevolutivelearning,OEL)即是这样一种机器学习场景,在不依赖统一云端模型的基础上,边缘模型可以通过实时判别信息交互进行在线自主训练。
[0005]尽管基于SSL的边缘模型可以适用于OEL系统,但目前多数先进的SSL方法没有充分考虑使用non

i.i.d数据流进行学习的问题。同时,现有的方法往往使用伪标记和一致性正则化技术作为关键组成部分,并集成较为复杂的数据处理流程,以更好地完成不同的任务。这使得基于一般SSL的模型难以广泛部署,并且在数据分布频繁变化的感知环境中可能导致性能下降。

技术实现思路

[0006]本专利技术的目的在于提供一种多智能体在线进化学习的机器学习方法,以克服现有
OEL系统中部署SSL的边缘模型的不足。
[0007]本专利技术研究了多智能体在线进化SSL机制,该机制能够有效地利用边缘模型之间的信息交互和训练过程中的额外知识,确保模型在面对non

i.i.d无标记数据流时获得稳定的性能提升和良好的泛化能力。据此,本专利技术提出了基于交互式学习、软监督一致性正则化和无监督样本挖掘的在线进化SSL算法,称为相互匹配算法(MutualMatch,MM),简记为MM算法。通过在训练过程中充分利用SSL带来的额外知识和模型之间的交互协作,MM在相同的在线进化实验场景设置下,在模型准确性和收敛效率方面超过了多个顶级SSL算法。MM简化了模型设计的复杂性,遵循统一且易于扩展的架构,这有利于处理标记数据不足和数据分布频繁变化的应用任务。
[0008]本专利技术提供的多智能体在线进化学习的机器学习方法,其流程参见图1所示。在OEL场景中,在局部区域内,有多个边缘智能体模型在实时获取感知数据,同时结合少量的有标注数据进行不断的学习与智能体模型更新。多个智能体模型可以通过交互学习实现知识迁移,每个智能体模型都在面临大量的无标注non

i.i.d感知数据,如何结合多个智能体模型的自身能力对这些感知数据进行有效的联合处理是解决OEL的重点。具体步骤如下:
[0009](一)定义与建立OEL环境
[0010]问题定义:给定一个分类任务,对于每个智能体模型,设表示一个批次的B个有标签数据,其中x
i
为训练样本,y
i
为对应的标签。设为一个批次的μB个未标记样本,其中μ为超参数,表示每一次迭代中未标记的训练样本与标记的训练样本的比例。在本系统中,每个批次的数据的量相比于的量较少,且中包含部分与非独立同分布的数据。有标记和无标记的数据在每个训练步骤中将同时发送给模型;其中每个批次的未标记数据只使用一次,表示不断更新的感知环境,因此形成在线进化学习的过程模拟。另外,将表示为模型对于输入x预测的类别分布y,这是用来表示预测结果的一个通用公式。
[0011]所述智能体模型,是一种基于深度学习的图像识别CNN模型,该模型部署在边缘端的智能设备上,基于智能设备对环境数据的感知和采集,通过多个智能体模型间的交互,充分利用这些数据来进行各模型的学习与更新,从而适应环境变化。
[0012](二)采用相互匹配(MM)算法,用于模型之间的知识共享和持续学习,以稳定模型的泛化能力,保证各智能体在OEL环境中中获得更好的性能提升;具体地,针对每个模型的SSL过程,其步骤包括:
[0013](1)软监督一致性正则化处理;即利用各自感知获得的无标签数据,对其进行软监督一致性正则化,利用模型预测的软监督信息进行无监督损失计算,以使各模型获取更多的类别相关性信息;
[0014](2)采用双模型交互学习方法,以实现多模型间的知识共享;
[0015](3)引入无监督样本挖掘方法,通过对一些高置信度无标签数据的统计与评价,将其扩充入有标签数据集,实现每个智能体对感知数据的更高效利用,以利于整个系统的更好进化,提高置信度样本的利用率;
[0016]训练过程如图2所示。MM是一种交替训练过程,包含有监督和无监督两条训练路径。根据不同的路径,使用不同的增强方法对标记/未标记数据的预测来计算监督/无监督
损失。
[0017]具体地:
[0018](1)软监督一致性正则化处理,具体流程为:
[0019]在分类任务中,交叉熵通常用来度量预测值与目标的概率分布的差异,并作为损失函数来指导模型训练。设H(p,q)=

∑plog(q)表示概率分布p和q的交叉熵损失,以模型的训练为例,是一批有标记和无标记的训练数据,则模型的有监督损失可表示为:
[0020][0021]其中,表示对标记样例采用中等程度的图像增强方法,是以为输入所输出的概率分布,y
i
是x
i
对应的真实标注。
[0022]对于无监督损本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多智能体在线进化学习的机器学习方法,其特征在于,在OEL场景中,在局部区域内,有多个智能体模型在实时获取感知数据,同时结合少量的有标注数据进行不断的学习与智能体模型更新;多个智能体模型通过交互学习实现知识迁移;每个智能体模型都在面临大量的无标注non

i.i.d感知数据,结合多个智能体模型的自身能力对这些感知数据进行有效的联合处理;智能体模型简称为模型;具体步骤如下:(一)定义与建立OEL环境给定一个分类任务,对于每个智能体模型,设表示一个批次的B个有标签数据,x
i
为训练样本,y
i
为对应的标签;设为一个批次的μB个未标记样本,μ为超参数,表示每一次迭代中未标记的训练样本与标记的训练样本的比例;在系统中,每个批次的数据的量相比于的量较少,且中包含部分与非独立同分布的数据;有标记和无标记的数据在每个训练步骤中将同时发送给模型;其中每个批次的未标记数据只使用一次,表示不断更新的感知环境,形成在线进化学习的过程模拟;另外,将表示为模型对于输入x预测的类别分布y,用来表示预测结果;所述智能体模型,是一种基于深度学习的图像识别CNN模型,该模型部署在边缘端的智能设备上,基于智能设备对环境数据的感知和采集,通过多个智能体模型间的交互,充分利用这些数据来进行各模型的学习与更新,从而适应环境变化;(二)采用相互匹配(MM)算法,进行模型之间的知识共享和持续学习,以稳定模型的泛化能力,保证各智能体在OEL环境中中获得更好的性能提升;具体地,针对每个模型的SSL过程,其步骤包括:(1)软监督一致性正则化处理;即利用各自感知获得的无标签数据,对其进行软监督一致性正则化,利用模型预测的软监督信息进行无监督损失计算,以使各模型获取更多的类别相关性信息;(2)采用双模型交互学习方法,以实现多模型间的知识共享;(3)引入无监督样本挖掘方法,通过对一些高置信度无标签数据的统计与评价,将其扩充入有标签数据集,实现每个智能体对感知数据的更高效利用,以利于整个系统的更好进化,提高置信度样本的利用率;MM是一种交替训练过程,包含有监督和无监督两条训练路径;根据不同的路径,使用不同的增强方法对标记/未标记数据的预测来计算监督/无监督损失。2.根据权利要求1所述的多智能体在线进化学习的机器学习方法,其特征在于,所述软监督一致性正则化处理的具体流程为:对于分类任务,交叉熵用来度量预测值与目标的概率分布的差异,并作为损失函数来指导模型训练;设H(p,q)=

∑plog(q)表示概率分布p和q的交叉熵损失,对于模...

【专利技术属性】
技术研发人员:宋梁李迪王汉奇张冠华倪伟
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1