【技术实现步骤摘要】
一种多智能体在线进化学习的机器学习方法
[0001]本专利技术属于机器学习
,具体涉及多智能体在线进化学习的机器学习方法。
技术介绍
[0002]半监督学习(Semi
‑
supervised Learning,SSL)可以基于少量的标注数据,利用大量的未标记数据进行自我训练和持续进化,该特性使SSL成为处理不断变化的实时感知数据的潜在有效方法。在边缘计算的实时感知环境中,来自真实世界的不断变化的感知数据流具有非独立同分布(non
‑
i.i.d)的特性,机器学习模型基于其现有知识,通过多模型交互判别与自我训练的方法,对大量新增感知数据的有效的利用以促使各模型进行实时调优,这类方法即线进化学习。例如,典型的现代物联网(IoT)应用中,多智能体SSL体系结构可以通过在模型之间共享知识来帮助解决对大量无标签non
‑
i.i.d数据的有效利用,从而实现多智能体模型的适应环境与实时泛化的问题。
[0003]基于深度神经网络的半监督学习(SSL)算法在多个数据库挑战任务中取得了出色的结果。这些任务主要研究在有标记数据有限的情况下,如何使用同分布的无标记数据进行模型训练。然而,如今大多数先进的深度学习应用都依赖于大量有标记数据集来训练有效的机器学习模型,这些方法依赖巨大的计算能力和不断更新的数据标注,以保证模型的泛化能力。这导致各类基于机器学习模型的应用灵活性较差,无法根据感知数据进行模型的实时更新与调优。与全监督方法相比,SSL模型可以使用少量带注释的数据进行自主 ...
【技术保护点】
【技术特征摘要】
1.一种多智能体在线进化学习的机器学习方法,其特征在于,在OEL场景中,在局部区域内,有多个智能体模型在实时获取感知数据,同时结合少量的有标注数据进行不断的学习与智能体模型更新;多个智能体模型通过交互学习实现知识迁移;每个智能体模型都在面临大量的无标注non
‑
i.i.d感知数据,结合多个智能体模型的自身能力对这些感知数据进行有效的联合处理;智能体模型简称为模型;具体步骤如下:(一)定义与建立OEL环境给定一个分类任务,对于每个智能体模型,设表示一个批次的B个有标签数据,x
i
为训练样本,y
i
为对应的标签;设为一个批次的μB个未标记样本,μ为超参数,表示每一次迭代中未标记的训练样本与标记的训练样本的比例;在系统中,每个批次的数据的量相比于的量较少,且中包含部分与非独立同分布的数据;有标记和无标记的数据在每个训练步骤中将同时发送给模型;其中每个批次的未标记数据只使用一次,表示不断更新的感知环境,形成在线进化学习的过程模拟;另外,将表示为模型对于输入x预测的类别分布y,用来表示预测结果;所述智能体模型,是一种基于深度学习的图像识别CNN模型,该模型部署在边缘端的智能设备上,基于智能设备对环境数据的感知和采集,通过多个智能体模型间的交互,充分利用这些数据来进行各模型的学习与更新,从而适应环境变化;(二)采用相互匹配(MM)算法,进行模型之间的知识共享和持续学习,以稳定模型的泛化能力,保证各智能体在OEL环境中中获得更好的性能提升;具体地,针对每个模型的SSL过程,其步骤包括:(1)软监督一致性正则化处理;即利用各自感知获得的无标签数据,对其进行软监督一致性正则化,利用模型预测的软监督信息进行无监督损失计算,以使各模型获取更多的类别相关性信息;(2)采用双模型交互学习方法,以实现多模型间的知识共享;(3)引入无监督样本挖掘方法,通过对一些高置信度无标签数据的统计与评价,将其扩充入有标签数据集,实现每个智能体对感知数据的更高效利用,以利于整个系统的更好进化,提高置信度样本的利用率;MM是一种交替训练过程,包含有监督和无监督两条训练路径;根据不同的路径,使用不同的增强方法对标记/未标记数据的预测来计算监督/无监督损失。2.根据权利要求1所述的多智能体在线进化学习的机器学习方法,其特征在于,所述软监督一致性正则化处理的具体流程为:对于分类任务,交叉熵用来度量预测值与目标的概率分布的差异,并作为损失函数来指导模型训练;设H(p,q)=
‑
∑plog(q)表示概率分布p和q的交叉熵损失,对于模...
【专利技术属性】
技术研发人员:宋梁,李迪,王汉奇,张冠华,倪伟,
申请(专利权)人:复旦大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。