【技术实现步骤摘要】
基于深度强化学习的无人系统网络自适应路由方法和系统
本专利技术涉及一种基于深度强化学习的无人系统网络自适应路由方法,属于信息
技术介绍
无人系统(UnmannedSystem)是由若干必要的数据处理单元、传感器、自动控制单元、通信系统组成,无需人为介入即可自主完成特定任务的机器或装置,这些无人机器或装置可以是无人机、无人车、地面机器人、水下机器人、水面机器人和卫星等。无人系统网络是由无人系统通过以自组织形式或基于网络基础设施所建立的网络。其中,以自组织形式建立的无人系统网络可以充分发挥无人系统的感知能力和较强的计算能力,并可有效地适应网络的变化。本专利技术将重点围绕无人系统自组织网络(下文简称无人系统网络)展开。在无人系统中,由于节点高速移动,无线链路不稳定,网络环境不确定等因素,导致的移动机器人网络拓扑频繁变化。在具有高频繁变化的网络拓扑的无人系统网络中,数据无法沿固定的路径传输,路由策略必须根据网络的变化,自适应地调节。因此,设计一个自适应且可靠的路由协议,是无人系统网络通信领域重要挑战之一。现有的基于拓扑的路由协议由于维护和重建路由路径而趋向于增加路由开销,不适用于无人系统网络。基于地理位置的路由协议是减少路由开销的主要选择之一,但由于缺乏对动态环境变化的理解,这些协议限制了路由路径的选择,所以基于地理位置的路由协议也不适用于无人系统网络。近年来,已有研究工作利用强化学习优化无人系统网络中的数据转发策略。这些研究工作往往将节点视为网络环境状态,而忽视了链路状态变化。然而在无人系 ...
【技术保护点】
1.一种基于深度强化学习的无人系统网络自适应路由方法,其特征在于,包括:/n步骤1、以无人系统网络中的每一个无人装置作为节点,所有节点以一个自适应的时间间隔发送HELLO信息包;任一节点收到其邻居节点发送的HELLO信息包后,更新该节点的邻居表中该邻居节点的节点信息;/n步骤2、将该无人系统网络中所有节点以及由所有节点形成所有链路作为系统环境,该无人系统网络中每个节点从系统环境中获取当前时刻的环境状态,并执行行为作用于系统环境,系统环境根据该执行行为反馈给节点奖励值,其中该环境状态包括当前节点和当前节点的所有邻居节点的链路状态;/n步骤3、无人系统网络中节点i根据其环境状态,利用深度Q网络(Deep Q-learningnetwork,DQN)计算当前节点所有邻居节点的Q值,当前节点执行一个行为a
【技术特征摘要】
1.一种基于深度强化学习的无人系统网络自适应路由方法,其特征在于,包括:
步骤1、以无人系统网络中的每一个无人装置作为节点,所有节点以一个自适应的时间间隔发送HELLO信息包;任一节点收到其邻居节点发送的HELLO信息包后,更新该节点的邻居表中该邻居节点的节点信息;
步骤2、将该无人系统网络中所有节点以及由所有节点形成所有链路作为系统环境,该无人系统网络中每个节点从系统环境中获取当前时刻的环境状态,并执行行为作用于系统环境,系统环境根据该执行行为反馈给节点奖励值,其中该环境状态包括当前节点和当前节点的所有邻居节点的链路状态;
步骤3、无人系统网络中节点i根据其环境状态,利用深度Q网络(DeepQ-learningnetwork,DQN)计算当前节点所有邻居节点的Q值,当前节点执行一个行为at,以最大Q值的邻居节点作为下一跳节点进行数据包的路由。
2.如权利要求1所述的基于深度强化学习的无人系统网络自适应路由方法,其特征在于,该步骤1包括:所有节点以一个自适应的时间间隔发送HELLO信息包,其中自适应的时间间隔方法如下:
其中,Tmin和Tmax分别是预设最短和最长时间间隔,vmax是节点i预设置的最大移动速度,为该节点i的平均速度。
3.如权利要求1或2所述的基于深度强化学习的无人系统网络自适应路由方法,其特征在于,该步骤2包括:
在当前时刻t下,节点i所观察到的环境状态st为:
st={Ci,1,...,Ci,j,...,Ci,M},其中Ci,j是由该节点i和该节点i的邻居j所形成的链路li,j的状态,M为该节点i拥有的邻居节点数量;
基于该节点i的邻居表中该邻居节点j的信息,计算Ci,j:
Ci,j={cti,j,PERi,j,ej,dj,des,dmin},cti,j是链路li,j的期望连接时间,PERi,j是链路li,j的包的错误率,ej是该节点i的邻居节点j的剩余电量,dj,des是该节点i的邻居节点j与该目标节点des间的距离,dmin是该节点i的2跳邻居节点k与该目标节点des的最小距离;
节点通过选择一个优化的邻居节点作为下一跳节点来完成行为at;
系统环境给予节点的奖励值rt为:
当该节点i的邻居节点j是该目标节点des,rt=Rmax,Rmax是预设最大奖励值;
当该节点i的所有邻居节点与该目标节点des的距离均大于该节点i与该目标节点des的距离,rt=-Rmax;
否则,rt=RDi,j,
4.如权利要求3所述的基于深度强化学习的无人系统网络自适应路由方法,其特征在于,该步骤3包括:
收集节点i与环境交互的经验(st,at,rt,st+1),并将该经验存储到经验回放存储器;从该经验回放存储器中随机采样部分经验以及最小化预先设置的损失函数,更新该深度Q网络的参数,该损失函数:其中θ表示所述DQN的网络参数,q(st,at;θt)表示将环境状态st输入所述DQN后,输出在该环境状态st下选择行为at后获得累积奖励值,a′表示在环境状态st+1下节点所采取的行为,表示在环境状态st+1下的最优累积奖励值,γ表示折扣因子,0≤γ≤1;
一旦该深度Q网络的参数被更新,将更新后的参数发送给该无人系统网络中每个节点。
5.如权利要求1或2所述的基于深度强化学习的无人系统网络自适应路由方法,其特征在于,该邻居表中邻居节点的节点信息包括:邻居节点的移动速度、位置坐标和剩...
【专利技术属性】
技术研发人员:刘建敏,王琪,徐勇军,何晨涛,徐亦达,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。