基于深度强化学习的无人系统网络自适应路由方法和系统技术方案

技术编号:27009709 阅读:21 留言:0更新日期:2021-01-08 17:17
本发明专利技术提出一种基于深度强化学习的无人系统网络自适应路由方法,旨在解决现有技术中节点的高速移动、频繁变化的网络拓扑,无法提供自适应路由策略的技术问题。所述方法包括:所有节点以一个自适应的时间间隔发送HELLO信息包;任一节点收到其邻居节点发送的HELLO信息包后,更新该节点的邻居表中该邻居节点的节点信息;建立基于深度强化学习的路由策略算法框架;设计基于深度强化学习的路由策略实现方法。本发明专利技术具备良好的模型泛化能力,能泛化于具有不同网络规模和不同节点移动速度的网络上,使得本发明专利技术更适用于具有动态变化的无人系统网络。

【技术实现步骤摘要】
基于深度强化学习的无人系统网络自适应路由方法和系统
本专利技术涉及一种基于深度强化学习的无人系统网络自适应路由方法,属于信息

技术介绍
无人系统(UnmannedSystem)是由若干必要的数据处理单元、传感器、自动控制单元、通信系统组成,无需人为介入即可自主完成特定任务的机器或装置,这些无人机器或装置可以是无人机、无人车、地面机器人、水下机器人、水面机器人和卫星等。无人系统网络是由无人系统通过以自组织形式或基于网络基础设施所建立的网络。其中,以自组织形式建立的无人系统网络可以充分发挥无人系统的感知能力和较强的计算能力,并可有效地适应网络的变化。本专利技术将重点围绕无人系统自组织网络(下文简称无人系统网络)展开。在无人系统中,由于节点高速移动,无线链路不稳定,网络环境不确定等因素,导致的移动机器人网络拓扑频繁变化。在具有高频繁变化的网络拓扑的无人系统网络中,数据无法沿固定的路径传输,路由策略必须根据网络的变化,自适应地调节。因此,设计一个自适应且可靠的路由协议,是无人系统网络通信领域重要挑战之一。现有的基于拓扑的路由协议由于维护和重建路由路径而趋向于增加路由开销,不适用于无人系统网络。基于地理位置的路由协议是减少路由开销的主要选择之一,但由于缺乏对动态环境变化的理解,这些协议限制了路由路径的选择,所以基于地理位置的路由协议也不适用于无人系统网络。近年来,已有研究工作利用强化学习优化无人系统网络中的数据转发策略。这些研究工作往往将节点视为网络环境状态,而忽视了链路状态变化。然而在无人系统网络中,由于间歇性和不稳定的无线链路,链路状态频繁变化,进而影响数据转发策略。这些研究工作由于无法感知链路状态变化,因而对网络环境变化的适应性较低。此外,在这些研究工作中,节点以固定的时间间隔交换HELLO信息包。较长的时间间隔会导致邻居表中的邻居信息没有及时更新而过时,同时,较短的时间间隔也不能保证邻居信息被实时地更新,因为HELLO信息包可能会与数据包发生冲突而丢失。在这种具有低准确性的邻居信息情况下,实现可靠性数据转发是非常困难的。因此,这些研究工作无法提供可靠的数据转发。
技术实现思路
针对现有技术的不足,本专利技术的目的在于提出一种基于深度强化学习的无人系统网络自适应路由方法和系统,以解决现有技术中移动无人系统网络中由于受节点高速移动、无线链路不稳定、移动机器人网络拓扑频繁变化的影响,无法提供自适应且可靠路由决策的技术问题。针对现有技术的不足,本专利技术提出一种基于深度强化学习的无人系统网络自适应路由方法,包括:步骤1、以无人系统网络中的每一个无人装置作为节点,所有节点以一个自适应的时间间隔发送HELLO信息包;任一节点收到其邻居节点发送的HELLO信息包后,更新该节点的邻居表中该邻居节点的节点信息;步骤2、将该无人系统网络中所有节点以及由所有节点形成所有链路作为系统环境,该无人系统网络中每个节点从系统环境中获取当前时刻的环境状态,并执行行为作用于系统环境,系统环境根据该执行行为反馈给节点奖励值,其中该环境状态包括当前节点和当前节点的所有邻居节点的链路状态;步骤3、无人系统网络中节点i根据其环境状态,利用深度Q网络(DeepQ-learningnetwork,DQN)计算当前节点所有邻居节点的Q值,当前节点执行一个行为at,以最大Q值的邻居节点作为下一跳节点进行数据包的路由。所述的基于深度强化学习的无人系统网络自适应路由方法,该步骤1包括:所有节点以一个自适应的时间间隔发送HELLO信息包,其中自适应的时间间隔方法如下:其中,Tmin和Tmax分别是预设最短和最长时间间隔,vmax是节点i预设置的最大移动速度,为该节点i的平均速度。所述的基于深度强化学习的无人系统网络自适应路由方法,该步骤2包括:在当前时刻t下,节点i所观察到的环境状态st为:st={Ci,1,...,Ci,j,...,Ci,M},其中Ci,j是由该节点i和该节点i的邻居j所形成的链路li,j的状态,M为该节点i拥有的邻居节点数量;基于该节点i的邻居表中该邻居节点j的信息,计算Ci,j:Ci,j={cti,j,PERi,j,ej,dj,des,dmin},cti,j是链路li,j的期望连接时间,PERi,j是链路li,j的包的错误率,ej是该节点i的邻居节点j的剩余电量,dj,des是该节点i的邻居节点j与该目标节点des间的距离,dmin是该节点i的2跳邻居节点k与该目标节点des的最小距离;节点通过选择一个优化的邻居节点作为下一跳节点来完成行为at;系统环境给予节点的奖励值rt为:当该节点i的邻居节点j是该目标节点des,rt=Rmax,Rmax是预设最大奖励值;当该节点i的所有邻居节点与该目标节点des的距离均大于该节点i与该目标节点des的距离,rt=-Rmax;否则,rt=RDi,j,所述的基于深度强化学习的无人系统网络自适应路由方法,该步骤3包括:收集节点i与环境交互的经验(st,at,rt,st+1),并将该经验存储到经验回放存储器;从该经验回放存储器中随机采样部分经验以及最小化预先设置的损失函数,更新该深度Q网络的参数,该损失函数:其中θ表示所述DQN的网络参数,q(st,at;θt)表示将环境状态st输入所述DQN后,输出在该环境状态st下选择行为at后获得累积奖励值,a′表示在环境状态st+1下节点所采取的行为,表示在环境状态st+1下的最优累积奖励值,γ表示折扣因子,0≤γ≤1;一旦该深度Q网络的参数被更新,将更新后的参数发送给该无人系统网络中每个节点。所述的基于深度强化学习的无人系统网络自适应路由方法,该邻居表中邻居节点的节点信息包括:邻居节点的移动速度、位置坐标和剩余的电量。本专利技术还提供了一种基于深度强化学习的无人系统网络自适应路由系统,包括:以无人系统网络中的每一个无人装置作为节点,所有节点以一个自适应的时间间隔发送HELLO信息包;任一节点收到其邻居节点发送的HELLO信息包后,更新该节点的邻居表中该邻居节点的节点信息;将该无人系统网络中所有节点以及由所有节点形成所有链路作为系统环境,该无人系统网络中每个节点从系统环境中获取当前时刻的环境状态,并执行行为作用于系统环境,系统环境根据该执行行为反馈给节点奖励值,其中该环境状态包括当前节点和当前节点的所有邻居节点的链路状态;无人系统网络中节点i根据其环境状态,利用深度Q网络(DeepQ-learningnetwork,DQN)计算当前节点所有邻居节点的Q值,当前节点执行一个行为at,以最大Q值的邻居节点作为下一跳节点进行数据包的路由。所述的基于深度强化学习的无人系统网络自适应路由系统,所有节点以一个自适应的时间间隔发送HELLO信息包,其中自适应的时间间隔系统如下:其中,Tmin和Tmax分别是预设最短和最长时间间隔,vmax是节点i预设置的最大移动速度,为该节点i的本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的无人系统网络自适应路由方法,其特征在于,包括:/n步骤1、以无人系统网络中的每一个无人装置作为节点,所有节点以一个自适应的时间间隔发送HELLO信息包;任一节点收到其邻居节点发送的HELLO信息包后,更新该节点的邻居表中该邻居节点的节点信息;/n步骤2、将该无人系统网络中所有节点以及由所有节点形成所有链路作为系统环境,该无人系统网络中每个节点从系统环境中获取当前时刻的环境状态,并执行行为作用于系统环境,系统环境根据该执行行为反馈给节点奖励值,其中该环境状态包括当前节点和当前节点的所有邻居节点的链路状态;/n步骤3、无人系统网络中节点i根据其环境状态,利用深度Q网络(Deep Q-learningnetwork,DQN)计算当前节点所有邻居节点的Q值,当前节点执行一个行为a

【技术特征摘要】
1.一种基于深度强化学习的无人系统网络自适应路由方法,其特征在于,包括:
步骤1、以无人系统网络中的每一个无人装置作为节点,所有节点以一个自适应的时间间隔发送HELLO信息包;任一节点收到其邻居节点发送的HELLO信息包后,更新该节点的邻居表中该邻居节点的节点信息;
步骤2、将该无人系统网络中所有节点以及由所有节点形成所有链路作为系统环境,该无人系统网络中每个节点从系统环境中获取当前时刻的环境状态,并执行行为作用于系统环境,系统环境根据该执行行为反馈给节点奖励值,其中该环境状态包括当前节点和当前节点的所有邻居节点的链路状态;
步骤3、无人系统网络中节点i根据其环境状态,利用深度Q网络(DeepQ-learningnetwork,DQN)计算当前节点所有邻居节点的Q值,当前节点执行一个行为at,以最大Q值的邻居节点作为下一跳节点进行数据包的路由。


2.如权利要求1所述的基于深度强化学习的无人系统网络自适应路由方法,其特征在于,该步骤1包括:所有节点以一个自适应的时间间隔发送HELLO信息包,其中自适应的时间间隔方法如下:



其中,Tmin和Tmax分别是预设最短和最长时间间隔,vmax是节点i预设置的最大移动速度,为该节点i的平均速度。


3.如权利要求1或2所述的基于深度强化学习的无人系统网络自适应路由方法,其特征在于,该步骤2包括:
在当前时刻t下,节点i所观察到的环境状态st为:
st={Ci,1,...,Ci,j,...,Ci,M},其中Ci,j是由该节点i和该节点i的邻居j所形成的链路li,j的状态,M为该节点i拥有的邻居节点数量;
基于该节点i的邻居表中该邻居节点j的信息,计算Ci,j:
Ci,j={cti,j,PERi,j,ej,dj,des,dmin},cti,j是链路li,j的期望连接时间,PERi,j是链路li,j的包的错误率,ej是该节点i的邻居节点j的剩余电量,dj,des是该节点i的邻居节点j与该目标节点des间的距离,dmin是该节点i的2跳邻居节点k与该目标节点des的最小距离;
节点通过选择一个优化的邻居节点作为下一跳节点来完成行为at;
系统环境给予节点的奖励值rt为:
当该节点i的邻居节点j是该目标节点des,rt=Rmax,Rmax是预设最大奖励值;
当该节点i的所有邻居节点与该目标节点des的距离均大于该节点i与该目标节点des的距离,rt=-Rmax;
否则,rt=RDi,j,


4.如权利要求3所述的基于深度强化学习的无人系统网络自适应路由方法,其特征在于,该步骤3包括:
收集节点i与环境交互的经验(st,at,rt,st+1),并将该经验存储到经验回放存储器;从该经验回放存储器中随机采样部分经验以及最小化预先设置的损失函数,更新该深度Q网络的参数,该损失函数:其中θ表示所述DQN的网络参数,q(st,at;θt)表示将环境状态st输入所述DQN后,输出在该环境状态st下选择行为at后获得累积奖励值,a′表示在环境状态st+1下节点所采取的行为,表示在环境状态st+1下的最优累积奖励值,γ表示折扣因子,0≤γ≤1;
一旦该深度Q网络的参数被更新,将更新后的参数发送给该无人系统网络中每个节点。


5.如权利要求1或2所述的基于深度强化学习的无人系统网络自适应路由方法,其特征在于,该邻居表中邻居节点的节点信息包括:邻居节点的移动速度、位置坐标和剩...

【专利技术属性】
技术研发人员:刘建敏王琪徐勇军何晨涛徐亦达
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1