一种无线定位网络资源优化调度方法技术

技术编号:31617368 阅读:14 留言:0更新日期:2021-12-29 18:51
本发明专利技术提供了一种无线定位网络资源优化调度方法。方法包括:确定无线定位网络的拓扑图,其中在所述无线定位网络中固定锚节点集合,确定待定位的目标节点集合,并且均匀选取训练样本节点集合;以均方根误差RMSE为定位精度度量,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级资源;以及基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案。源分配方案。源分配方案。

【技术实现步骤摘要】
一种无线定位网络资源优化调度方法


[0001]本专利技术涉及无线通信技术,更具体地,涉及一种无线定位网络资源优化调度方法。

技术介绍

[0002]设计定位网络的目的往往是最大化定位网络的精度,除了传统的增加定位参考节点投放,定位节点之间传送信号携带的信息量同样影响无线定位网络的精度。由于搭建实际定位网络常受到资金限制以及系统模型简化应用的要求,那么资源受限的系统提升精度的关键点就在于优化功率带宽等资源的分配。
[0003]以时钟同步的到达时间(Time of Arrival,TOA)测距技术为基础,非协作式定位网络以及协作式定位网络的定位精度下限:直接位置误差下界(Direct Position Error Lower Bound,DRLB)和克拉美罗下界(Cramer Rao Lower Bound,CRLB)已被推导出,现阶段已有大量以定位精度下界为性能指标进行无线定位网络资源分配的研究(如参见[1]Shen Y,Wymeersch H,Win M Z.Fundamental Limits of Wideband Localization—Part II:Cooperative Networks[J].2010,56(10):4981

5000)。定位网络资源分配领域很多研究都着眼于纯功率因素,部分研究考虑到带宽也是影响无线定位网络定位准确性的要素之一,采取单项资源优化调度的方式,验证了纯带宽优化可以获得比纯功率优化更好的定位精度,这也与CRLB的表达式形式相契合(如参见[2]Garcia N,Haimovich A M,Coulon M,et al.Resource Allocation in MIMO Radar With Multiple Targets for Non

Coherent Localization[J].IEEE Transactions on Signal Processing,2013,62(10):2656

2666)。
[0004]目前基于无线定位网络资源分配的研究都是针对CRLB进行资源优化分配,即从闭合形式的理论下限出发。然而定位网络CRLB常常难以取到,特别是在低信噪比(Signal

Noise Ratio,SNR)情况下,直接以CRLB为性能指标进行资源优化分配会造成较大误差,仅具备一定的理论指导意义。以更具实际意义的定位算法的均方根误差(Root Mean Square Error,RMSE)为性能指标来进行资源优化分配的研究很匮乏。另外,由于均方根误差非闭合形式的特殊性,非参数的优化方式求解也是具有挑战性的。
[0005]另外,在对非参数的优化方式求解时,状态动作空间维度会随着目标节点数量增多呈指数增长,而计算机内存通常是有限的,故可能存在无法遍历整体空间的问题,同时也会带来巨大的时间消耗。另外,一旦无线定位网络拓扑发生改变,原训练模型无法应用,重新训练会带来巨大的时间消耗。
[0006]因此,为了提升资源受限的无线定位网络精度,延长无线定位节点使用寿命,期望提供一种改进的无线定位网络资源优化调度方法。

技术实现思路

[0007]提供本
技术实现思路
以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本
技术实现思路
并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用
于帮助确定所要求保护的主题的范围。
[0008]本专利技术公开了一种无线定位网络资源优化调度方法。该方法首先以RMSE为性能指标搭建资源优化分配框架,由于RMSE具有非闭合形式的特殊性,无法应用传统CRLB策略方法求解,因此利用深度强化学习算法来进行求解。另外,由于资源选择动作离散化导致状态数过多,采用聚类算法对状态集进行等级划分。除此以外,由于定位网络环境的变化以及实践过程中测量误差的存在,给出了基于迁移学习的样本迁移方案以加速新环境的DRL模型学习速率,同时迁移神经网络参数以加速神经网络的收敛,从而在保证定位精度的同时有效节约了时间消耗。
[0009]根据本专利技术的一个方面,提供了一种无线定位网络资源优化调度方法,所述方法包括:
[0010]确定无线定位网络的拓扑图,其中在所述无线定位网络中固定锚节点集合,确定待定位的目标节点集合,并且均匀选取训练样本节点集合;
[0011]以均方根误差RMSE为定位精度度量,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级资源;以及
[0012]基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案。
[0013]根据本专利技术的一个实施例,所述资源优化调度模型是通过选取最小化均方根误差RMSE作为目标函数来构建的,其中,
[0014]针对所述目标函数的约束条件为:所述锚节点集合中的每个锚节点具有传输带宽和发射功率的上限;所述锚节点集合中的所有锚节点的总发射功率不能超过阈值;以及所述锚节点集合中的每个锚节点发射信号的频带不能重叠。
[0015]根据本专利技术的进一步实施例,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案进一步包括:
[0016]定义锚节点集合的动作、状态、奖励三要素,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级的功率和带宽资源;
[0017]针对所述样本节点集合中的每个样本节点,将包括当前状态、当前动作、当前奖励和下一状态的多个四元组存储到记忆池中以供训练;以及
[0018]从所述记忆池中随机选取一批四元组进行训练,其中使用神经网络Q(s,a;w)≈Q
*
(s,a)作为非线性近似器并且进行Q值拟合,直到模型收敛。
[0019]根据本专利技术的进一步实施例,定义锚节点集合的状态进一步包括:
[0020]采用聚类方法来对所述锚节点集合的定位精度状态进行等级划分。
[0021]根据本专利技术的进一步实施例,定义锚节点集合的奖励进一步包括:
[0022]采用设置权重系数的方式,基于资源利用比和均方误差MSE来设置奖励函数,以用于指导所述锚节点集合选择不同等级的功率和带宽资源。
[0023]根据本专利技术的进一步实施例,基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案进一步包括:
[0024]确定所述目标节点集合所处的网络环境与训练环境是否一致;
[0025]若一致,则基于针对所述样本节点集合中的每个样本节点的最优资源分配方案,
利用k邻近方法来获取针对所述目标节点集合的资源分配方案;
[0026]若不一致,则利用迁移学习来重新获取新拓扑的样本资源分配方案以得到针对所述目标节点集合的资源分配方案。
[0027]根据本专利技术的进一步实施例,利用迁移学习来重新获取新拓扑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无线定位网络资源优化调度方法,所述方法包括:确定无线定位网络的拓扑图,其中在所述无线定位网络中固定锚节点集合,确定待定位的目标节点集合,并且均匀选取训练样本节点集合;以均方根误差RMSE为定位精度度量,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级资源;以及基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案。2.如权利要求1所述的方法,其特征在于,所述资源优化调度模型是通过选取最小化均方根误差RMSE作为目标函数来构建的,其中,针对所述目标函数的约束条件为:所述锚节点集合中的每个锚节点具有传输带宽和发射功率的上限;所述锚节点集合中的所有锚节点的总发射功率不能超过阈值;以及所述锚节点集合中的每个锚节点发射信号的频带不能重叠。3.如权利要求1所述的方法,其特征在于,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案进一步包括:定义锚节点集合的动作、状态、奖励三要素,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级的功率和带宽资源;针对所述样本节点集合中的每个样本节点,将包括当前状态、当前动作、当前奖励和下一状态的多个四元组存储到记忆池中以供训练;以及从所述记忆池中随机选取一批四元组进行训练,其中使用神经网络Q(s,a;w)≈Q
*
(s,a)作为非线性近似器并且进行Q值拟合,直到模型收敛。4.如权利要求3所述的方法,其特征在于,定义锚节点集合的状态进一步包括:采用聚类方法来对所述锚节点集合的定位精度状态进行等级划分。5.如权利要求3所述的方法,其特征在于,定义锚节点集合的奖励进一步包括:采用设置权重系数的方式,基于资源利用比和均方误差MSE来设置奖励函数,以用于指导所述锚节点集合选择不同等级的功率和带宽资源。6.如权利要求1所述的方法,其特征在于,基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案进一步包括:确定所述目标节点集合所处的网络环境与训练环境是否一致;若一致,则基于针对所述样本节点集合中的每个样本节点的最优资源分配方案,利用k邻近方法来...

【专利技术属性】
技术研发人员:杨程刘世卫宫敏成国强
申请(专利权)人:天翼数字生活科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1