【技术实现步骤摘要】
一种基于多智能体强化学习的协同充电方法
[0001]本专利技术涉及无线可充电传感器网络和多智能体深度强化学习
,更具体地,涉及一种基于多智能体强化学习的协同充电方法。
技术介绍
[0002]无线传感器网络是指在环境中部署大量传感器节点以执行数据采集和处理任务。近年来,无线传感器网络发展迅速,被广泛应用于环境勘察、建筑物状态监控等多个领域。然而,由于传感器节点电池容量的限制,无线传感器网络难以满足大规模长期监控任务。随着无线充电技术的日趋成熟,无线可充电传感器网络大大延长了传感器节点的生命周期。
[0003]无线可充电传感器网络是在无线传感器网络的基础上增加了多个可移动无线充电装置。通过充电算法的调度,充电车可自行移动到电量较低的传感器节点位置进行电量补充,以延长传感器节点的生命周期。然而,由于不同节点的电量消耗率会动态变化,如何使得充电车在保证节点存活的情况下,尽量缩短自身移动距离、提高充电效率,将更多电量传输到网络中成为无线可充电传感器网络中的重要问题。
[0004]多智能体深度强化学习在解决包含多个智能体的序列决策问题上具有很大的潜力。然而,绝大多数多智能体深度强化学习算法只能适用于多个智能体进行同步决策的场景之下。在无线可充电传感器网络中,由于不同充电车对应的节点的充电时间不同、移动距离不同等因素,各辆充电车并不能够同时完成自身的充电任务,决定下一个充电节点。即充电车之间存在异步决策,无法直接使用多智能体深度强化学习算法。
[0005]为了解决无线可充电传感器网络中的协同充电问题以 ...
【技术保护点】
【技术特征摘要】
1.一种基于多智能体强化学习的协同充电方法,其特征在于,包括以下步骤:S1:建立无线可充电传感器网络仿真环境;S2:构建具有可扩展性的多智能体深度强化学习模型ASM
‑
PPO;S3:在仿真环境中使用支持异步决策的轨迹采集机制采集数据,并训练ASM
‑
PPO;S4:利用训练好的ASM
‑
PPO模型用于真实环境中进行协同充电。2.根据权利要求1所述的基于多智能体强化学习的协同充电方法,其特征在于,所述步骤S1中,无线可充电传感器网络仿真环境包括:位于目标区域Ω中心的且位置固定的基站,用于集中处理传感器节点传输过来的数据,以及为充电车补充电量;在目标区域Ω随机部署的N个位置固定的传感器节点,传感器节点的电池容量为E
s
;传感器节点电量主要用于环境感知、数据发送和接收,因此传感器节点的能量消耗会随着节点周围随机时间的发生、传输数据量的变化而改变;当传感器节点电量低于预先设定的阈值时,会向基站发送充电请求,基站在接收到充电请求后会统一广播给所有充电车;在基站中等待调度的M辆移动充电车,充电车的电池容量为E
c
,充电车可在任意节点及基站之间移动,当充电车处于空闲状态时,会选择自身请求队列中的一个请求、移动到该请求的位置、并给节点补充电量,待节点电量充满后,充电车重新进入空闲状态;当充电车电量低于预先设定的阈值时,充电车会返回基站补充电量。3.根据权利要求2所述的基于多智能体强化学习的协同充电方法,其特征在于,传感器节点向基站发送充电的请求的内容包括:节点ID、位置、剩余电量、当前能量消耗率、以及当前时间戳。4.根据权利要求3所述的基于多智能体强化学习的协同充电方法,其特征在于,所述步骤S2中,具有可扩展性的多智能体深度强化学习模型ASM
‑
PPO包含两个神经网络:带参数φ的Actor网络,其输入为充电车的自身观察值,输出为请求队列中可选的充电请求的概率分布;带参数的Critic网络,其输入为所有充电车的观察值,即全局信息;该输入需要先经过具有可扩展性的特征提取模块,由异形卷积核及GRU单元构成;将特征提取模块的输出输入到Critic网络中;Critic网络输出对策略的评价,用来更新Actor网络。5.根据权利要求4所述的基于多智能体强化学习的协同充电方法,其特征在于,所述步骤S3中,支持异步决策的轨迹采集机制的具体是指各辆充电车异步地采集自身的轨迹,当充电车处于空闲状态时,采集训练模型需要用的自身局部观察信息、全局状态信息、执行动作、获得奖励等信息,其中全局状态信息是指所有充电车的局部观察值,包括在当前时刻处于空闲状态以及忙碌状态的充电车。6.根据权利要求5所述的基于多智能体强化学习的协同充电方法,其特征在于,支持异步决策的轨迹采集机制的具体步骤为:对于特定充电车,该充电车只需要按照自身的时间步异步地采集自身的轨迹;当充电车处于空闲状态时,采集训练模型需要用的自身局部观察信息、全...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。