一种基于最优解的智能体残障设备投放方法技术

技术编号：32211540 阅读：7 留言：0更新日期：2022-02-09 17:17

本发明专利技术涉及一种基于最优解的智能体残障设备投放方法，包括计算得到智能体选择的动作和Q值并进行初始化操作；进行总回合中的一个片段操作，将当前状态初始化为S0，在概率为ε时选择最大Q值对应的动作，否则选择一个随机动作，并执行该动作获得奖励后进入下一个状态；将当前状态、执行的动作、奖励和下一个状态作为一个四元组集合存入经验池，并更新sum

全部详细技术资料下载

【技术实现步骤摘要】
一种基于最优解的智能体残障设备投放方法

[0001]本专利技术涉及设备投放
，尤其涉及一种基于最优解的智能体残障设备投放方法。

技术介绍

[0002]在机场投放残障设备，可以为残障人士提供服务，方便出行，如何快速，高效的在机场中投放设备至关重要。实际上设备的投放需要根据动态场景进行部署，要满足设备投放的最优覆盖。投放的设备数量越少，所需要花费的资源就少，但是随着设备数量的减少其覆盖范围就会降低；覆盖范围的越大，需要耗费的设备就越多。机场的投放策略要满足设备投放的最优覆盖率，同时要减少设备投放的数量，以及投放过程中能耗的降低。
[0003]强化学习作为一种重要手段应用于多agent系统,以获得学习环境中agent交互和协作的最佳策略，现有技术中利用自主开发的警员训练虚拟环境来探索多个agent之间如何学习最优联合行为，在这个环境中不同兵种在不同地形条件下完成合作目标或者在对抗中摧毁对方作战队伍。传统的强化学习方法，如基于值的方法Q
‑
learning、基于概率的方法Policy Gradient等在面对这种大规模多agent系统的学习面临着维数灾难,即当环境较为复杂或者任务较为困难时,agent的状态空间过大,会导致需要学习的参数以及所需的存储空间急速增长,强化学习难以取得理想的效果。
[0004]阿里巴巴团队提出的在谷歌的pysc2多agent环境下的新算法BiCNet,在以上两种方法的基础上通过用双向循环神经网络(bidirectional recurrent neural ...

【技术保护点】

【技术特征摘要】
1.一种基于最优解的智能体残障设备投放方法，其特征在于：所述投放方法包括：输入智能体的初始状态，计算得到智能体选择的到下一个状态的移动轨迹的动作和Q值并进行初始化操作；进行总回合中的一个片段操作，即在当前状态下经过动作选择后，执行动作后到达下一个状态的过程，这个过程在总回合中反复执行，直到到达奖励值最大的最终状态，将当前状态初始化为S0，在概率为ε时选择最大Q值对应的动作，否则选择一个随机动作，并执行该动作获得奖励后进入下一个状态；将当前状态、执行的动作、奖励和下一个状态作为一个四元组集合存入经验池，并更新sum
‑
tree的父节点；判断当前Q值与最优值之间的误差是否在阈值范围内，并计算Q值完成对动作的估计得到最终状态，并将最终状态作为损失来训练估计网络，得到最终智能体选择的动作和Q值，选择出最佳多智能体残障设备的投放方式。2.根据权利要求1所述的一种基于最优解的智能体残障设备投放方法，其特征在于：所述Q值表示智能体在一个状态下执行一个随机动作之后获得一个总奖励，智能体仅仅在每一次动作选择的时候选择当前状态动作对最大的Q值就可以满足得到此状态下的最优动作。3.根据权...

【专利技术属性】
技术研发人员：唐源，王魁，唐小艳，刘玲意，
申请(专利权)人：成都海天数联科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人