【技术实现步骤摘要】
一种多智能体协同强化学习方法、终端及存储介质
[0001]本专利技术涉及神经网络
,尤其涉及的是一种多智能体协同强化学习方法、终端及存储介质。
技术介绍
[0002]强化学习是一种在线的学习方式。不同于一般的监督学习方法从事先处理好的离线数据样本中进行模型训练,强化学习的训练样本是由智能体与环境的实时交互获得,这种方式使得训练样本的数量及样本多样性都受到了限制。强化学习的训练十分依赖经验样本,样本数量的大小及多样性影响着智能体模型训练的效果及性能。基于以上的原因,诸多面向复杂环境的强化学习算法需要数千万甚至数十亿的经验样本去训练。
[0003]多智能体强化学习场景与环境的交互程度进一步复杂化。从局部视角看待,每个智能体依旧通过不断的试错改善自身的策略。而从全局视角看待,该场景下的多个智能体会同时与环境交互,由此产生联合动作,环境不因单个智能体的动作而作出反应,而是基于智能体的联合动作返回给智能体回报,同时进行相应的状态转移。当问题从单智能体扩增至多智能体时,强化学习训练对样本的需求量进一步扩大。样本数据匮乏会导 ...
【技术保护点】
【技术特征摘要】
1.一种多智能体协同强化学习方法,其特征在于,包括:获取环境参数,构造模拟环境,并根据所述环境参数以及智能体数目确定学习者智能体;根据任务需求构造对应数量的工作者智能体,并根据所述任务需求构造对应数量的行动者智能体;其中,每个所述工作者智能体用于与多个所述行动者智能体进行交互,每个所述行动者智能体分别与一个独立的模拟环境交互;获取样本数据,根据所述样本数据对所述学习者智能体进行训练,得到训练后的模型参数;通过所述学习者智能体定期将所述训练后的模型参数更新到共享内存中,并通过所述工作者智能体定期从所述共享内存中更新决策网络的参数,得到强化学习后的策略。2.根据权利要求1所述的多智能体协同强化学习方法,其特征在于,获取环境参数,构造模拟环境,并根据所述环境参数以及智能体数目确定学习者智能体,之前包括:基于行动者智能体与工作者智能体的分布式训练算法进行训练,得到样本数据集。3.根据权利要求2所述的多智能体协同强化学习方法,其特征在于,所述基于行动者智能体与工作者智能体的分布式训练算法进行训练,包括:构造所述模拟环境、所述工作者智能体以及对应的多个所述行动者智能体;构造多维隐藏变量,根据每个所述行动者智能体传输的观测信息在所述工作者智能体中做出决策,并将决策分别传输给对应的行动者智能体,利用训练数据进行训练。4.根据权利要求3所述的多智能体协同强化学习方法,其特征在于,所述构造多维隐藏变量,包括:将隐藏状态空间由单维拓展为多维,得到所述多维隐藏变量;其中,每维分别对应智能体数目、环境数目及时间步个数,维护M个智能体在N个环境下进行长度为T的序列决策时的所有隐藏状态空间。5.根据权利要求3所述的多智能体协同强化学习方法,其特征在于,所述根据每个所述行动者智能体传输的观测信息在所述工作者智能体中做出决策,并将决策分别传输给对应的行动者智能体,包括:在每个时间步将新的环境状态经由所述行动者智能体传递给所述工作者智能体;通过所述工作者智能体将所述新的环境状态送入主网络模型进行决策,并将输出的动作信息放回对应的观测信息及动作管道,传给对应的行动者智能体;将各行动者智能体采集到的整条轨迹通过经验管道传到经验回放中;从更新的经验回放池中随机采样经验样本,对所述工作者智能体进行策略的迭代更新,直至策略收敛。6.根据权利要求1所述的多智能体协同强化学习方法,其特...
【专利技术属性】
技术研发人员:漆舒汉,张书豪,王轩,张加佳,吴宇琳,王强,施少怀,侯晓涵,
申请(专利权)人:哈尔滨工业大学深圳,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。