一种基于最优解的智能体残障设备投放方法技术

技术编号:32211540 阅读:7 留言:0更新日期:2022-02-09 17:17
本发明专利技术涉及一种基于最优解的智能体残障设备投放方法,包括计算得到智能体选择的动作和Q值并进行初始化操作;进行总回合中的一个片段操作,将当前状态初始化为S0,在概率为ε时选择最大Q值对应的动作,否则选择一个随机动作,并执行该动作获得奖励后进入下一个状态;将当前状态、执行的动作、奖励和下一个状态作为一个四元组集合存入经验池,并更新sum

【技术实现步骤摘要】
一种基于最优解的智能体残障设备投放方法


[0001]本专利技术涉及设备投放
,尤其涉及一种基于最优解的智能体残障设备投放方法。

技术介绍

[0002]在机场投放残障设备,可以为残障人士提供服务,方便出行,如何快速,高效的在机场中投放设备至关重要。实际上设备的投放需要根据动态场景进行部署,要满足设备投放的最优覆盖。投放的设备数量越少,所需要花费的资源就少,但是随着设备数量的减少其覆盖范围就会降低;覆盖范围的越大,需要耗费的设备就越多。机场的投放策略要满足设备投放的最优覆盖率,同时要减少设备投放的数量,以及投放过程中能耗的降低。
[0003]强化学习作为一种重要手段应用于多agent系统,以获得学习环境中agent交互和协作的最佳策略,现有技术中利用自主开发的警员训练虚拟环境来探索多个agent之间如何学习最优联合行为,在这个环境中不同兵种在不同地形条件下完成合作目标或者在对抗中摧毁对方作战队伍。传统的强化学习方法,如基于值的方法Q

learning、基于概率的方法Policy Gradient等在面对这种大规模多agent系统的学习面临着维数灾难,即当环境较为复杂或者任务较为困难时,agent的状态空间过大,会导致需要学习的参数以及所需的存储空间急速增长,强化学习难以取得理想的效果。
[0004]阿里巴巴团队提出的在谷歌的pysc2多agent环境下的新算法BiCNet,在以上两种方法的基础上通过用双向循环神经网络(bidirectional recurrent neural networks,BRNN)来连接每个同质agent(homogeneous agent),通信发生在潜在空间中,以便高层信息可以在agent之间传递,同时异构agent可以使用不同的参数和输出动作集创建.在pysc2这样的复杂环境下,BiCNet显示了先进的性能。但是BiCNet将学习任务制定为零和博弈,考虑的重点在于多agent竞争环境中的微观管理任务,在纯合作无竞争环境中的表现尚不明确。
[0005]一个基于参数共享的MADDPG算法(PS

MADDPG),包括三种actor

critic共享组合架构用于解决MADDPG算法可扩展性差的问题。通过确定agent之间交互的程度,即考虑agent是否应该同某一agent进行交互或者仅将其当做环境的一部分而不进行交互,这样将降低算法的复杂度。考虑多个agent在环境中感知和行动的问题,让agent在这些环境中学习通信协议,共享解决任务所需的信息,最大限度地提高它们的共享效用。在多智能体的设置下,AC算法往往会由于独立训练,导致信息共享不足,agent之间的协作能力较差。
[0006]因此,如何在满足机场最优覆盖率同时尽可能的减少设备的投放是现阶段需要解决的问题。

技术实现思路

[0007]本专利技术的目的在于克服现有技术的缺点,提供了一种基于最优解的智能体残障设备投放方法,解决了现有技术中存在的不足。
[0008]本专利技术的目的通过以下技术方案来实现:一种基于最优解的智能体残障设备投放
方法,所述投放方法包括:
[0009]输入智能体的初始状态,计算得到智能体选择的到下一个状态的移动轨迹的动作和Q值并进行初始化操作;
[0010]进行总回合中的一个片段操作,即在当前状态下经过动作选择后,执行动作后到达下一个状态的过程,这个过程在总回合中反复执行,直到到达奖励值最大的最终状态,将当前状态初始化为S0,在概率为ε时选择最大Q值对应的动作,否则选择一个随机动作,并执行该动作获得奖励后进入下一个状态;
[0011]将当前状态、执行的动作、奖励和下一个状态作为一个四元组集合存入经验池,并更新sum

tree的父节点;
[0012]判断当前Q值与最优值之间的误差是否在阈值范围内,并计算Q值完成对动作的估计得到最终状态,并将最终状态作为损失来训练估计网络,得到最终智能体选择的动作和Q值,选择出最佳多智能体残障设备的投放方式。
[0013]所述Q值表示智能体在一个状态下执行一个随机动作之后获得一个总奖励,智能体仅仅在每一次动作选择的时候选择当前状态动作对最大的Q值就可以满足得到此状态下的最优动作。
[0014]所述初始化操作包括:初始化估计网络的权重、目标网络的权重,经验池D、总回合M和学习率。
[0015]sum

tree用来存储最大抽样概率,它的叶子节点是经验池中的样本数量,所有叶子节点保存的是样本的抽样概率。
[0016]所述sum

tree存储最大抽样概率的步骤包括:
[0017]A1、判断当前节点是否是叶子节点,如果是,则设置为抽样节点;
[0018]A2、比较随机值和当前节点的左儿子节点,如果左儿子节点的值大于随机值,就向下搜索,将当前节点设置为左儿子节点,重复步骤A1,否则向右搜索,将当前节点设置为右儿子节点,并将随机值和左儿子节点的差作为输入,重复步骤A1。
[0019]如果当前Q值与最优值之间的误差在阈值范围内,则将距离最优值最远的状态所对应的Q值调整到最小,将取代最优值的次优质调整到最大。
[0020]本专利技术具有以下优点:一种基于最优解的智能体残障设备投放方法,我们多智能体的强化学习将多个单一智能体有机的结合到一个整体,使得单一智能体运行无碍又可获得集体最大收益,为每一个智能体配置一个神经网络,在马尔可夫实际环境中训练,在神经网络中运行,获取信息。考虑到是所有的智能体之间信息通过一个控制器可以共享(或者说是通过控制器进行把信息给每个智能体),这样每个智能体就可以信息共享,可以共享位置信息,奖励信息等,然后根据训练出来的神经网络根据选择的机制选出自己的动作联合函数,通过相应的学习策略选择动作,然后与环境交互,不断的更新信息,所以在进行设备投放的过程中,每一个智能体都是自我学习,与环境交互不断试错的过程中完成的;
[0021]奖励进行分解,每一个智能体的奖励不仅包含自己的奖励,还包括所有智能体共同的奖励,这样可以提升智能体之间的协作性,对智能体学习起到促进作用同时能满足优化目标;
[0022]不需要大量的先验知识,就能进行自动优化,并且我们基于传统DQN算法进行改进,在引进DDQN的基础上利用差值约束,我们定义为一个函数,将DQN的过估计问题进行优
化,并且引进优先级采样加快有效数据的学习效率。
附图说明
[0023]图1为本专利技术DQN方法的流程示意图;
[0024]图2为机场残障设备投放规划的整体流程示意图;
[0025]图3为算法模型仿真训练输入机场布局示意图;
[0026]图4(a)为覆盖率对比图;
[0027]图4(b)为奖励趋势对比图;
[0028]图5(a)为覆盖率变化图;
[0029]图5(b)为奖励随训练次数变化图;
[0030]图6(a)为算法智本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于最优解的智能体残障设备投放方法,其特征在于:所述投放方法包括:输入智能体的初始状态,计算得到智能体选择的到下一个状态的移动轨迹的动作和Q值并进行初始化操作;进行总回合中的一个片段操作,即在当前状态下经过动作选择后,执行动作后到达下一个状态的过程,这个过程在总回合中反复执行,直到到达奖励值最大的最终状态,将当前状态初始化为S0,在概率为ε时选择最大Q值对应的动作,否则选择一个随机动作,并执行该动作获得奖励后进入下一个状态;将当前状态、执行的动作、奖励和下一个状态作为一个四元组集合存入经验池,并更新sum

tree的父节点;判断当前Q值与最优值之间的误差是否在阈值范围内,并计算Q值完成对动作的估计得到最终状态,并将最终状态作为损失来训练估计网络,得到最终智能体选择的动作和Q值,选择出最佳多智能体残障设备的投放方式。2.根据权利要求1所述的一种基于最优解的智能体残障设备投放方法,其特征在于:所述Q值表示智能体在一个状态下执行一个随机动作之后获得一个总奖励,智能体仅仅在每一次动作选择的时候选择当前状态动作对最大的Q值就可以满足得到此状态下的最优动作。3.根据权...

【专利技术属性】
技术研发人员:唐源王魁唐小艳刘玲意
申请(专利权)人:成都海天数联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1