当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于多智能体强化学习的协同充电方法技术

技术编号:32730129 阅读:17 留言:0更新日期:2022-03-20 08:35
本发明专利技术提供一种基于多智能体强化学习的协同充电方法,该方法通过支持异步决策的轨迹采集机制,使得ASM

【技术实现步骤摘要】
一种基于多智能体强化学习的协同充电方法


[0001]本专利技术涉及无线可充电传感器网络和多智能体深度强化学习
,更具体地,涉及一种基于多智能体强化学习的协同充电方法。

技术介绍

[0002]无线传感器网络是指在环境中部署大量传感器节点以执行数据采集和处理任务。近年来,无线传感器网络发展迅速,被广泛应用于环境勘察、建筑物状态监控等多个领域。然而,由于传感器节点电池容量的限制,无线传感器网络难以满足大规模长期监控任务。随着无线充电技术的日趋成熟,无线可充电传感器网络大大延长了传感器节点的生命周期。
[0003]无线可充电传感器网络是在无线传感器网络的基础上增加了多个可移动无线充电装置。通过充电算法的调度,充电车可自行移动到电量较低的传感器节点位置进行电量补充,以延长传感器节点的生命周期。然而,由于不同节点的电量消耗率会动态变化,如何使得充电车在保证节点存活的情况下,尽量缩短自身移动距离、提高充电效率,将更多电量传输到网络中成为无线可充电传感器网络中的重要问题。
[0004]多智能体深度强化学习在解决包含多个智能体的序列决策问题上具有很大的潜力。然而,绝大多数多智能体深度强化学习算法只能适用于多个智能体进行同步决策的场景之下。在无线可充电传感器网络中,由于不同充电车对应的节点的充电时间不同、移动距离不同等因素,各辆充电车并不能够同时完成自身的充电任务,决定下一个充电节点。即充电车之间存在异步决策,无法直接使用多智能体深度强化学习算法。
[0005]为了解决无线可充电传感器网络中的协同充电问题以及充电车异步决策的问题,我们提出了一种支持异步决策的多智能体深度强化学习算法ASM

PPO。不同于其他多智能体深度强化学习算法需要同步地采集所有智能体的信息,ASM

PPO中各个智能体只需要按照自身的时间步异步地采集所需信息即可。同时,为了使得算法具有可扩展性,在智能体数量增加的情况下保持需要学习的参数不变,ASM

PPO中使用特殊的特征提取模块来处理全局信息,该特征提取模块包含异形卷积核以及GRU单元。

技术实现思路

[0006]本专利技术提供一种基于多智能体强化学习的协同充电方法,该方法加速了算法的训练速度和稳定性。
[0007]为了达到上述技术效果,本专利技术的技术方案如下:
[0008]一种基于多智能体强化学习的协同充电方法,包括以下步骤:
[0009]S1:建立无线可充电传感器网络仿真环境;
[0010]S2:构建具有可扩展性的多智能体深度强化学习模型ASM

PPO;
[0011]S3:在仿真环境中使用支持异步决策的轨迹采集机制采集数据,并训练ASM

PPO;
[0012]S4:利用训练好的ASM

PPO模型用于真实环境中进行协同充电。
[0013]进一步地,所述步骤S1中,无线可充电传感器网络仿真环境包括:
[0014]位于目标区域Ω中心的且位置固定的基站,用于集中处理传感器节点传输过来的数据,以及为充电车补充电量;
[0015]在目标区域Ω随机部署的N个位置固定的传感器节点,传感器节点的电池容量为E
s
;传感器节点电量主要用于环境感知、数据发送和接收,因此传感器节点的能量消耗会随着节点周围随机时间的发生、传输数据量的变化而改变;当传感器节点电量低于预先设定的阈值时,会向基站发送充电请求,基站在接收到充电请求后会统一广播给所有充电车;
[0016]在基站中等待调度的M辆移动充电车,充电车的电池容量为E
c
,充电车可在任意节点及基站之间移动,当充电车处于空闲状态时,会选择自身请求队列中的一个请求、移动到该请求的位置、并给节点补充电量,待节点电量充满后,充电车重新进入空闲状态;当充电车电量低于预先设定的阈值时,充电车会返回基站补充电量;传感器节点向基站发送充电的请求的内容包括:节点ID、位置、剩余电量、当前能量消耗率、以及当前时间戳。
[0017]进一步地,所述步骤S2中,具有可扩展性的多智能体深度强化学习模型ASM

PPO包含两个神经网络:
[0018]带参数φ的Actor网络,其输入为充电车的自身观察值,输出为请求队列中可选的充电请求的概率分布;
[0019]带参数的Critic网络,其输入为所有充电车的观察值,即全局信息;该输入需要先经过具有可扩展性的特征提取模块,由异形卷积核及GRU单元构成;将特征提取模块的输出输入到Critic网络中;Critic网络输出对策略的评价,用来更新Actor网络。
[0020]进一步地,所述步骤S3中,支持异步决策的轨迹采集机制的具体是指各辆充电车异步地采集自身的轨迹,当充电车处于空闲状态时,采集训练模型需要用的自身局部观察信息、全局状态信息、执行动作、获得奖励等信息,其中全局状态信息是指所有充电车的局部观察值,包括在当前时刻处于空闲状态以及忙碌状态的充电车。
[0021]进一步地,支持异步决策的轨迹采集机制的具体步骤为:
[0022]对于特定充电车,该充电车只需要按照自身的时间步异步地采集自身的轨迹;当充电车处于空闲状态时,采集训练模型需要用的自身局部观察信息、全局状态信息、执行动作、获得奖励等信息,其中全局状态信息是指所有充电车的局部观察值,包括在当前时刻处于空闲状态以及忙碌状态的充电车;
[0023]充电车在采集好一个时间步的训练信息后,将信息存储到所有充电车共享的缓存池中,并将自身观察值输入到Actor网络中得到相应决策;
[0024]重复上述步骤直至充电周期结束,即充电车电量过低无法继续执行充电任务而返回基站补充电量;待所有充电车都结束充电周期后,从共享的缓存池中抽取样本,训练充电车共享的Actor网络和Critic网络。
[0025]进一步地,所述步骤S3中ASM

PPO模型的训练过程是:
[0026]S31:将传感器节点重新随机部署在目标区域上;
[0027]S32:利用支持异步决策的轨迹采集机制异步地采集各辆充电车从基站出发到电量过低返回基站这整个过程的轨迹信息;
[0028]S33:根据轨迹信息从Critic网络中得到对轨迹的评价信息更新Actor网络,同时利用该评价信息和包含当前奖励信息的实际评价作为Critic网络的监督信息,来更新Critic网络。
[0029]进一步地,带参数φ的Actor网络首先将充电车的自身观察值输入到特征提取模块,该观察值包括:充电车位置及剩余电量、距离充电车最近的N
near
个充电请求的位置、剩余电量及平均电量消耗率;而该特征提取模块由异形卷积核及GRU构成,其中异形卷积核为两层全连接层,在特征提取模块提出相应特征后,将其输入到Actor网络中,Actor网络由两层全连接层构成,输出为请求队列中可选的充电请求的概率分布。
[0030]进一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的协同充电方法,其特征在于,包括以下步骤:S1:建立无线可充电传感器网络仿真环境;S2:构建具有可扩展性的多智能体深度强化学习模型ASM

PPO;S3:在仿真环境中使用支持异步决策的轨迹采集机制采集数据,并训练ASM

PPO;S4:利用训练好的ASM

PPO模型用于真实环境中进行协同充电。2.根据权利要求1所述的基于多智能体强化学习的协同充电方法,其特征在于,所述步骤S1中,无线可充电传感器网络仿真环境包括:位于目标区域Ω中心的且位置固定的基站,用于集中处理传感器节点传输过来的数据,以及为充电车补充电量;在目标区域Ω随机部署的N个位置固定的传感器节点,传感器节点的电池容量为E
s
;传感器节点电量主要用于环境感知、数据发送和接收,因此传感器节点的能量消耗会随着节点周围随机时间的发生、传输数据量的变化而改变;当传感器节点电量低于预先设定的阈值时,会向基站发送充电请求,基站在接收到充电请求后会统一广播给所有充电车;在基站中等待调度的M辆移动充电车,充电车的电池容量为E
c
,充电车可在任意节点及基站之间移动,当充电车处于空闲状态时,会选择自身请求队列中的一个请求、移动到该请求的位置、并给节点补充电量,待节点电量充满后,充电车重新进入空闲状态;当充电车电量低于预先设定的阈值时,充电车会返回基站补充电量。3.根据权利要求2所述的基于多智能体强化学习的协同充电方法,其特征在于,传感器节点向基站发送充电的请求的内容包括:节点ID、位置、剩余电量、当前能量消耗率、以及当前时间戳。4.根据权利要求3所述的基于多智能体强化学习的协同充电方法,其特征在于,所述步骤S2中,具有可扩展性的多智能体深度强化学习模型ASM

PPO包含两个神经网络:带参数φ的Actor网络,其输入为充电车的自身观察值,输出为请求队列中可选的充电请求的概率分布;带参数的Critic网络,其输入为所有充电车的观察值,即全局信息;该输入需要先经过具有可扩展性的特征提取模块,由异形卷积核及GRU单元构成;将特征提取模块的输出输入到Critic网络中;Critic网络输出对策略的评价,用来更新Actor网络。5.根据权利要求4所述的基于多智能体强化学习的协同充电方法,其特征在于,所述步骤S3中,支持异步决策的轨迹采集机制的具体是指各辆充电车异步地采集自身的轨迹,当充电车处于空闲状态时,采集训练模型需要用的自身局部观察信息、全局状态信息、执行动作、获得奖励等信息,其中全局状态信息是指所有充电车的局部观察值,包括在当前时刻处于空闲状态以及忙碌状态的充电车。6.根据权利要求5所述的基于多智能体强化学习的协同充电方法,其特征在于,支持异步决策的轨迹采集机制的具体步骤为:对于特定充电车,该充电车只需要按照自身的时间步异步地采集自身的轨迹;当充电车处于空闲状态时,采集训练模型需要用的自身局部观察信息、全...

【专利技术属性】
技术研发人员:吴贺俊梁泳恒
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1