System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于无人机轨迹优化的安全强化学习方法及系统技术方案_技高网

一种用于无人机轨迹优化的安全强化学习方法及系统技术方案

技术编号:40507076 阅读:6 留言:0更新日期:2024-03-01 13:21
本发明专利技术属于无线通信技术领域,公开了一种用于无人机轨迹优化的安全强化学习方法及系统,设计并明确网络场景、无人机的信道模型和能耗模型;构建优化目标,明确最小化平均信息年龄以及限制条件;根据场景及约束条件将问题转化为约束马尔科夫决策问题,进行状态空间、动作空间建模,并针对优化目标设计奖励函数;基于STD3算法构建无人机轨迹优化算法,对模型训练,并将训练好的模型在与不同用户参数下与基准算法对比进行性能验证。本发明专利技术能够有效地解决无人机飞行轨迹规划问题,提高数据收集的质量和速度,降低运行成本和风险。能够适应复杂和动态变化的环境,实现无人机的自主飞行和智能决策,提高无人机的安全性和可靠性。

【技术实现步骤摘要】

本专利技术属于无线通信.,尤其涉及一种用于无人机轨迹优化的安全强化学习方法及系统


技术介绍

1、近年来,无线通信领域相关技术急速发展,越来越多的智能通信设备被应用至生活的方方面面中,如安全监控、自然灾害救助、智慧城市管理等。众多的智能通信设备互相联网,组成了物联网。物联网具体来说指的是物理设备的互联性,如电器和车辆,它们被嵌入了传感器和相应的软件,使得这些物体能够相互连接和交换数据。生活中常见的物联网设备有智能扬声器、恒温器和安全摄像头等。物联网的工作原理是将这些设备连接到互联网,并允许它们相互通信和交换数据。物联网技术可以以多种方式应用于无人驾驶航空器(unmannedaerialvehicles,uav)。例如,物联网传感器可以在无人机上用于导航和数据收集。

2、通信手段上来说,传统的基站通信在复杂场景下受限较多,例如建筑物遮挡,不同频道的干扰等,而且基站有着以下的劣势:建设成本较大,位置固定,缺乏灵活性等。因此,无人机作为辅助通信设备正在逐渐流行起来,相比传统基站其有着更高的灵活性。无人机可以自由地调整其位置至有着良好信道的通信位置与地面物联网结点进行连接以收集其数据。

3、无人机辅助物联网通信网络有以下的优势:

4、(1)地面铺设物联网结点更加灵活:无人机技术可以使得地面铺设物联网结点更加灵活,无需和基站通信背景下一样,需要再考虑基站的信号辐射范围。

5、(2)对地面物联网设备要求低:地面的物联网设备,例如传感器等无需配备大容量电池、大功率发射天线,实现同样的功能,可以采用更小的体积,更小的重量,更低廉价格的设备。

6、(3)可及时获得服务:在物联网通信系统中使用无人机的主要优势之一是其灵活性。无人机可以快速而方便地部署,在地面基础设施可能无法使用或被破坏的地区提供通信服务。这使得它们在灾区或偏远地区可以发挥更大的作用。

7、无人机也可用于为活动或其他短期需求提供临时通信服务。例如,可以部署无人机,为音乐节或体育赛事提供额外的覆盖。这使活动组织者能够快速、轻松地增强他们的通信能力,而不需要永久性的基础设施。总的来说,无人机的灵活性使其成为增强物联网通信系统和在各种情况下提供可靠连接的宝贵工具。

8、但是,大部分物联网通信系统中的物联网设备受限于设备大小以及功率的限制,主要适合于短距离通信场景。物联网网络通常是为短距离通信而设计的,因为许多物联网设备的处理能力有限,功率较小。这意味着它们需要使用适合其特定需求的通信标准和协议。例如,许多物联网设备使用本地通信方法,如蓝牙、zigbee和z-wave,与邻近的设备进行通信。这些技术是为短距离通信而设计的,非常适合于需要低功率运行的物联网设备。因此,无人机需要精准飞行至物联网节点的通信范围内进行数据收集工作。

9、目前关于无人机辅助物联网通信系统的研究有各种各样的优化目标,如最小总断连时间,最大上行链路吞吐量、最小峰值信息年龄、最小平均信息年龄等。而在考虑了无人机安全性能的相关研究中,由于信息年龄作为一个较新的性能指标,研究内容相比其他指标如上行吞吐量、飞行时间、连接中断时间等相比相对较少,而现有的关于aoi的优化工作大多单独解决其优化目标,对于无人机安全性保障方面缺乏考虑,而这一点在实际应用场景中会成为严重的问题。


技术实现思路

1、针对现有技术存在的问题,本专利技术提供了一种用于无人机轨迹优化的安全强化学习方法及系统。

2、本专利技术提出了一种用于优化无人机轨迹的强化学习算法safe-td3,该算法能够在智慧城市物联网场景下,实现无人机的自主决策和协同控制。该算法在td3算法的基础上,增加了一个安全约束,保证无人机不会在飞行途中用尽能量而导致坠机。该算法还采用了双重q网络、目标策略平滑正则化、延迟策略更新等技术,提高了无人机的学习效率和稳定性。

3、本专利技术具体是这样实现的,一种用于无人机轨迹优化的安全强化学习方法,该算法具体包括:

4、s1:设计并明确网络场景、无人机的信道模型和能耗模型;

5、s2:构建优化目标,明确最小化平均信息年龄以及限制条件;

6、s3:根据场景及约束条件将问题转化为约束马尔科夫决策问题,进行状态空间、动作空间建模,并针对优化目标设计奖励函数;

7、s4:基于std3算法构建无人机轨迹优化算法,对模型训练,并将训练好的模型在与不同用户参数下与基准算法对比进行性能验证。

8、进一步,所述s1具体包括:

9、步骤一:设计并明确网络场景;

10、步骤二:定义时隙系统;

11、步骤三:明确无人机的信道模型;

12、步骤四:明确无人机的通信模型;

13、步骤五,进行能量消耗模型建模:

14、进一步,所述步骤一具体包括:

15、若发生在一个建筑物密集的城市场景中,建筑物各自有着不同的高度,并且建筑物会在一定程度上影响通信质量,指定该城市中的一个正方形区域,其面积大小为d×dm2.该区域中的地面上随机分布着m个物联网数据结点。这些物联网结点及其位置坐标可以依次被表示为sm=(xm,ym,0),使用s用来表示所有物联网结点所组成的集合,s={s1,s2,...,s3};

16、该区域中左下角还存在着一个智慧城市决策中心,该决策中心可以被表示为st,其需要分布在该区域中的所有物联网的最新数据信息来做出决策;一架无人机从该区域中的随机指定的一个起点出发,该无人机将执行以下任务:

17、无人机需要服务每个结点,即依次飞行可以与每个物联网结点可以通信的地点,在空中悬停,与结点通信并收集其中的信息;在完成上述子任务后,这架无人机需要尽快飞向决策中心以提交所有收集的数据;

18、无人机在固定高度h飞行,无人机飞行时恒定以最大速度vmax;飞行过程中,无人机智能体可以采取动作以调整飞行角度;无人机智能体每次做出的决策为所调整的飞行角度,动作可以表示为θ;

19、正如上述的第一个子任务,无人机需要合适的位置悬停以获取和地面物联网结点的连接;无人机在执行任务期间一共会在k个悬停点进行悬停、服务物联网结点,这些悬停点可以依次表示为v1,v2,...,vk,进而无人机的飞行轨迹可以被表示为v1→v2→v3→…→vk→st。

20、进一步,所述步骤二具体包括:

21、考虑一个有着两种时间步的离散时间系统,分别为固定时间长度的飞行时间步以及长度变化的悬停时间步。

22、假定完成任务全过程需要n个时间步;第n个时间步可以使用δn,f(n),n∈{1,...,n}来表示,其中f(n)=1代表着第n个时间步是飞行时间步,无人机在此时间步以最大速度vmax进行飞行;f(n)=0代表该时间步为悬停时间步,长度取决于无人机与地面物联网结点的连接信道质量状况,以及地面物联网结点需要向无人机发送的数据总量;

23、进而无人机在第n个时间步开始时本文档来自技高网...

【技术保护点】

1.一种用于无人机轨迹优化的安全强化学习方法,其特征在于,在智慧城市物联网场景下,实现无人机的自主决策和协同控制;该方法在TD3算法的基础上,增加了一个安全约束,保证无人机不会在飞行途中用尽能量而导致坠机。该方法还采用了双重Q网络、目标策略平滑正则化、延迟策略更新技术,提高了无人机的学习效率和稳定性。

2.如权利要求1所述用于无人机轨迹优化的安全强化学习方法,其特征在于,包括:

3.如权利要求2所述用于无人机轨迹优化的安全强化学习方法,其特征在于,所述S1具体包括:

4.如权利要求3所述用于无人机轨迹优化的安全强化学习方法,其特征在于,所述步骤一具体包括:

5.如权利要求3所述用于无人机轨迹优化的安全强化学习方法,其特征在于,所述步骤二具体包括:

6.如权利要求3所述用于无人机轨迹优化的安全强化学习方法,其特征在于,所述步骤三具体包括:

7.如权利要求3所述用于无人机轨迹优化的安全强化学习方法,其特征在于,所述步骤四具体包括:

8.如权利要求2所述用于无人机轨迹优化的安全强化学习方法,其特征在于,所述S2具体包括:

9.如权利要求2所述用于无人机轨迹优化的安全强化学习方法,其特征在于,所述S3具体包括:

10.如权利要求2所述用于无人机轨迹优化的安全强化学习方法,其特征在于,所述S4具体包括:

11.一种实施如权利要求1-9任意一项所述一种用于无人机轨迹优化的安全强化学习方法的一种用于无人机轨迹优化的安全强化学习系统,其特征在于,该系统包括:

...

【技术特征摘要】

1.一种用于无人机轨迹优化的安全强化学习方法,其特征在于,在智慧城市物联网场景下,实现无人机的自主决策和协同控制;该方法在td3算法的基础上,增加了一个安全约束,保证无人机不会在飞行途中用尽能量而导致坠机。该方法还采用了双重q网络、目标策略平滑正则化、延迟策略更新技术,提高了无人机的学习效率和稳定性。

2.如权利要求1所述用于无人机轨迹优化的安全强化学习方法,其特征在于,包括:

3.如权利要求2所述用于无人机轨迹优化的安全强化学习方法,其特征在于,所述s1具体包括:

4.如权利要求3所述用于无人机轨迹优化的安全强化学习方法,其特征在于,所述步骤一具体包括:

5.如权利要求3所述用于无人机轨迹优化的安全强化学习方法,其特征在于,所述步骤二...

【专利技术属性】
技术研发人员:孙红光周易张宏鸣李书琴徐超吕志明刘敬敏
申请(专利权)人:西北农林科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1