一种无人机网络拓扑及路由联合构建方法技术

技术编号:21205973 阅读:17 留言:0更新日期:2019-05-25 03:05
本发明专利技术公开了一种无人机网络拓扑及路由联合构建方法,涉及无线通信技术领域,构建方法将无线通信领域中的节点中继、路由选择和传输功率控制技术相结合,通过使用节点中继、路由选择和传输功率控制技术,提升无人机网络组网能力,扩大无人机网络覆盖范围,平衡各节点无人机负载,以满足无人机网络高动态性环境下严苛的传输速率和可靠性需求。同时,利用深度强化学习技术实现无人机网络对以上通信任务的自主决策,具有智能高效、自适应、可扩展性强的优点。

A Joint Construction Method of UAV Network Topology and Routing

The invention discloses a joint construction method of UAV network topology and routing, which relates to the field of wireless communication technology. The construction method combines node relay, routing selection and transmission power control technology in the field of wireless communication. By using node relay, routing selection and transmission power control technology, the UAV network networking capability can be improved and the coverage of UAV network can be expanded. In order to meet the strict transmission rate and reliability requirements of UAV network in high dynamic environment, the load of UAV nodes is balanced. At the same time, the deep reinforcement learning technology is used to realize the autonomous decision-making of UAV network for the above communication tasks, which has the advantages of intelligence, efficiency, self-adaptation and scalability.

【技术实现步骤摘要】
一种无人机网络拓扑及路由联合构建方法
本专利技术涉及无线通讯
,特别是指一种无人机网络拓扑及路由联合构建方法。
技术介绍
无人机因其灵活性、易部署、视距信道衰减小等优点在执行应急、救灾等任务中得到广泛应用,同时,无人机作为辅助节点为现有通信网络提供辅助也受到广泛关注。而无人机网络中涉及的中继/路由选择和功率控制是无人机网络技术中的关键技术所在。目前关于中继/路由选择方面,专利“201810332264.5”一种车联网中基于蚁群优化的中继选择方法:该方法在优化时需要严格的知道数据包的泊松过程概率模型和车辆的平均退避次数,因此需要在现有通信系统中额外扩展大量信息交互功能,实际难以应用。此外,作为公知,蚁群优化是寻求超大规模优化问题的次优解。一方面,无人机网络的节点数目远不到发挥蚁群算法优势的地步,没有使用蚁群算法的必要;另一方面,却因为使用蚁群算法放弃了全局最优解,得不偿失。在功率控制方面:专利“201810309020.5”一种异构网络中基于强化学习的资源分配和功率控制联合优化方法:该专利DQN(深度Q网络)方法进行资源分配、用户关联和功率控制联合策略。其中,由于DQN选择的是离散行动,即M个功率水平,因此不能实现细粒度的功率控制,此外,该专利没有考虑中继需求,也没有考虑无人机网络对链路可靠性的要求,不能直接应用于无人机网络。在两者的结合方面,(1)固定指标方法利用人工构建的固定指标对无人机和中继节点或直连目标之间的链路进行选择。此类方法的缺陷在于人工构建的指标受数学复杂性的影响,往往只能基于简单的通信定义构建简单的信道容量等指标,难以兼顾自身需求和其它节点的通信需求、传输环境。同时,无人机网络的高动态性使其通信环境变化更为明显,简单的指标不能全方位的反映无人机网络通信环境的变化,因此其选择路由中继/路由时难以做到综合考虑、自适应。(2)基于优化方法的中继/路由选择需要实时获取无人机网络的用户需求和通信环境参数,建立优化问题并求解,但是一方面,全方位考虑的优化问题往往需要通信模型的先验知识,即通信状态之间如何变化,这在实际的通信系统中往往不易获得;另一方面,当无人机网络中的节点数、通信资源增多时,优化问题迭代优化的速率大幅下降,收敛性也会受到影响,难以满足通信中快速的资源分配、功率控制需求。此外,此类离散优化问题往往需要对原问题进行松弛,难以达到最优解。专利技术人通过研究无人机网络技术,发现目前的无人机网络主要问题如下,一方面,受到视距信道、有限的通信资源以及恶意干扰等影响;且无人机网络的高动态性使其拓扑结构、干扰动态变化。而另一方面,无人机网络对传输可靠性有更为严苛的要求。二者的矛盾制约了无人机网络的传输质量、可靠性,也是大规模无人机网络的组网瓶颈之一。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种无人机网络拓扑及路由联合构建方法,以克服现有技术中全部或部分不足。基于上述目的本专利技术提供的一种无人机网络拓扑及路由联合构建方法,包括如下步骤:1)无人机网络和基站进行信息交互获得传输信息,并将传输信息加入每个无人机ui强化学习环境状态si;2)无人机网络内部基于交互信息,从现有无人机中启发式选择一个无人机子集作为备选中继集合;3)对于每个无人机ui,将环境状态si输入DQN网络,输出对不同的发送目标的累计奖励,选取累计奖励最大的发送目标作为无人机ui的发送目标,即DQN采取的行动aiDQN;4)对于每个无人机ui,将所述环境状态si输入DDPG网络,输出无人机ui在信道n的发送功率该发送功率向量即DDPG采取的行动aiDDPG;5)更新无人机网络的环境状态si+1,获得行动奖励ri;6)基于DQN的行动记录{si,aiDQN,si+1,ri}和DDPG的行动记录{si,aiDDPG,si+1,ri},进行DQN和DDPG网络联合训练,为DQN网络与DDPG网络的通用性、共享奖励和模型的精简与收敛性提供保证。在一些可选实施例中,所述从现有无人机中启发式选择一个无人机子集作为备选中继集合,包括如下步骤:1)计算无人机i-无人机j的第n个空空信道的信干噪比和无人机i-基站的第n个空地信道的信干噪比其中,无人机i-无人机j的第n个空空信道,无人机i-基站的第n个空地信道,无人机ui在信道n的发送功率,Pn:噪声功率;2)计算无人机-基站,无人机-无人机信道容量提升空间:cidle=C(w,sinrmax)-C(w,sinr)其中,C(w,sinr)=wlog(1+sinr)为香农公式,为假设无人机i以最大功率pmax发送时的信噪比,sinri为无人机i以当前功率发送时的信噪比;3)根据计算出的cidle,选出最大的中继集合i为第m个中继无人机对应的编号。在一些可选实施例中,所述将环境状态si输入DQN网络,输出对不同的发送目标累计奖励,包括如下步骤:1)初始化DQN网络,开始第tepi个训练周期,初始化训练步数为t=1,更新无人机网络环境状态2)向DQN网络输入状态输出各发送目标的累计奖励的估计Q(si,ai),进行ε-贪婪行动选择,输出选择的行动3)基于行动更新环境状态4)对各个无人机ui执行上述(2)~(3),将记录i=1,2,...,I记为一组记录,并从记录池中随机采样K组记录,i=1,2,...,I,k=1,2,...,K;5)计算获得的累计奖励获得的奖励:训练周期是否终止的条件是:判断当前是否有一定数量的无人机不能满足最低的控制指令的信道容量需求;6)基于K组误差对DQN网络进行反向传播训练,每L步更新一次DQN网络,步数t=t+1,当t>T时,初始化t=1,返回(2);对于每个无人机ui进行将环境状态si输入DQN网络,最终输出累计奖励最大的发送目标。在一些可选实施例中,所述将所述环境状态si输入DDPG网络,输出无人机ui在信道n的发送功率包括如下步骤:1)初始化critic网络,参数为θQ和actor网络,参数为θμ,开始第tepi个训练周期,初始化训练步数为t=1,更新无人机网络环境状态2)向actor网络输入状态输出在各信道上的发送功率向量基于actor网络选择行动,并添加探索噪声3)基于行动更新环境状态所有无人机采取行动后计算获得的奖励4)对各个无人机ui执行(2)~(3),将记录i=1,2,...,I记为一组记录,存储至记录池中,并从记录池中随机采样K组记录,i=1,2,...,I,k=1,2,...,K;5)计算获得的累计奖励训练周期是否终止的条件是:判断当前是否有一定数量的无人机不能满足最低的控制指令的信道容量需求;6)基于K组误差对critic网络进行反向传播训练,利用梯度下降法更新actor网络,其梯度为:7)对critic网络和acotr网络进行软更新:θQ′←τθQ+(1-τ)θQ′θμ′←τθμ+(1-τ)θμ′其中τ∈(0,1)是softupdate系数,步数t=t+1,当t>T时,初始化t=1,返回(2),对于每个无人机ui进行将环境状态si输入DDPG网络,最终输出无人机ui在信道n的发送功率在一些可选实施例中,所述DQN/DDPG网络训练,包括如下步骤:(1)~(4):同DQN网络和DDPG网络中(1)~(4);5)保证奖励对于DQN网络与DDPG网络有通用本文档来自技高网
...

【技术保护点】
1.一种无人机网络拓扑及路由联合构建方法,其特征在于,包括如下步骤:1)无人机网络和基站进行信息交互获得传输信息,并将传输信息加入每个无人机ui强化学习环境状态si;2)无人机网络内部基于交互信息,从现有无人机中启发式选择一个无人机子集作为备选中继集合;3)对于每个无人机ui,将环境状态si输入DQN网络,输出对不同的发送目标的累计奖励,选取累计奖励最大的发送目标作为无人机ui的发送目标,即DQN采取的行动ai

【技术特征摘要】
1.一种无人机网络拓扑及路由联合构建方法,其特征在于,包括如下步骤:1)无人机网络和基站进行信息交互获得传输信息,并将传输信息加入每个无人机ui强化学习环境状态si;2)无人机网络内部基于交互信息,从现有无人机中启发式选择一个无人机子集作为备选中继集合;3)对于每个无人机ui,将环境状态si输入DQN网络,输出对不同的发送目标的累计奖励,选取累计奖励最大的发送目标作为无人机ui的发送目标,即DQN采取的行动aiDQN;4)对于每个无人机ui,将所述环境状态si输入DDPG网络,输出无人机ui在信道n的发送功率该发送功率向量即DDPG采取的行动aiDDPG;5)更新无人机网络的环境状态si+1,获得行动奖励ri;6)基于DQN的行动记录{si,aiDQN,si+1,ri}和DDPG的行动记录{si,aiDDPG,si+1,ri},进行DQN和DDPG网络联合训练,为DQN网络与DDPG网络的通用性、共享奖励和模型的精简与收敛性提供保证。2.根据权利要求1所述的无人机网络拓扑及路由联合构建方法,其特征在于,所述从现有无人机中启发式选择一个无人机子集作为备选中继集合,包括如下步骤:1)计算无人机i-无人机j的第n个空空信道的信干噪比和无人机i-基站的第n个空地信道的信干噪比其中,无人机i-无人机j的第n个空空信道,无人机i-基站的第n个空地信道,无人机ui在信道n的发送功率,Pn:噪声功率;2)计算无人机-基站,无人机-无人机信道容量提升空间:cidle=C(w,sinrmax)-C(w,sinr)其中,C(w,sinr)=wlog(1+sinr)为香农公式,sinrimax为假设无人机i以最大功率pmax发送时的信噪比,sinri为无人机i以当前功率发送时的信噪比;3)根据计算出的cidle,选出最大的中继集合i为第m个中继无人机对应的编号。3.根据权利要求1所述的无人机网络拓扑及路由联合构建方法,其特征在于,所述将环境状态si输入DQN网络,输出对不同的发送目标累计奖励,选取累计奖励最大的发送目标作为无人机ui的发送目标,包括如下步骤:1)初始化DQN网络,开始第tepi个训练周期,初始化训练步数为t=1,更新无人机网络环境状态2)向DQN网络输入状态输出各发送目标的累计奖励的估计Q(si,ai),进行ε-贪婪行动选择,输出选择的行动3)基于行动更新环境状态4)对各个无人机ui执行上述(2)~(3),将记录记为一组记录,并从记录池中随机采样K组记录,5)计算获得的累计奖励获得的奖励:训练周期是否终止的条件是:判断当前是否有一定数量的无人机不能满足最低的控制指令的信道容量需求;6)基于K...

【专利技术属性】
技术研发人员:许文俊黄春雷张治李绍胜张平林家儒
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1