一种基于强化学习PPO算法的指纹室内定位方法技术

技术编号：34775073 阅读：13 留言：0更新日期：2022-08-31 19:45

本发明专利技术属于室内定位技术领域，具体涉及一种基于强化学习PPO算法的指纹室内定位方法。本发明专利技术提出的基于强化学习PPO算法的指纹室内定位方法，让模型与环境互动产生训练数据，以获得更高奖励作为驱动来更新网络。本发明专利技术的方法不再依赖带标签指纹库，提供定位服务与模型更新可以同步进行，在定位系统的部署效率上有很大的提升。随着环境变化，该方法可以采集最新的轨迹数据来更新网络让其面对环境的变化后依然有很好的定位表现。后依然有很好的定位表现。后依然有很好的定位表现。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习PPO算法的指纹室内定位方法

[0001]本专利技术属于室内定位
，具体涉及一种基于强化学习PPO算法的指纹室内定位方法。

技术介绍

[0002]随着智能物联技术的发展，无论是在国防领域还是普通的日常生活中，人们对基于位置的服务需求不断增长，其中室内环境下的位置服务近几年更是受到关注。其中基于RSS指纹的室内定位技术，因为其不受室内复杂多径效应影响和不需要额外传感设备的优势也引来很多研究者的关注。
[0003]文献“M.Altini,D.Brunelli,E.Farella,and L.Benini,“Bluetooth indoor localization withmultiple neural networks,”in Proc.5th IEEE Int.Symp.Wireless Pervasive Comput.(ISWPC), 2010,pp.295
–
300”公开了一种基于神经网络的指纹室内定位方法。和大多数基于指纹的室内定位方法一样，定位的过程需要划分为几个步骤：1)离线采集在划分好网格的室内环境中每个格点采集信号强度RSS并记录坐标标签建立指纹库；2)模型训练阶段：用采集好的指纹数据，训练模型的参数；3)在线定位阶段：根据待定位目标采集到的RSS指纹信息，通过训练好的神经网络输出位置坐标。这类方法可以不用担心复杂室内环境无线信号的多径效应，也因为通常采用Wi
‑
Fi和蓝牙这类成本较低的无线信号一定程度上很好的解决了室...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习PP0算法的指纹室内定位方法，其特征在于，包括以下步骤：S1、在定位环境中安装L个信号发生器AP，并记录安装的位置坐标；S2、在定位环境中采集无标签的用户连续运动轨迹信息，记录起点位置坐标(x0，y0)并定时记录中间点的无线信号强度RSS指纹：RSSI＝[RSS0，RSS1，...，RSS
L
]
T
从起点开始经过M次采集的RSS指纹数据构成一条轨迹：采集N条轨迹构成训练数据，n＝1，2，
…
N；S3、构建PPO网络，PPO网络包括策略网络和评价网络，分别定义为A网络和C网络，A网络的输入为当前智能体的状态，包括智能体上一时刻的位置坐标以及当前时刻的RSS指纹信息，定义第t个状态为，t＝1，2，
…
L：State
t
＝[x
t
‑1，y
t
‑1，RSSI
t
]A网络的输入为：A
INPUT
＝[State
t
]A网络的输出为下发给智能体根据上一时刻位置，前进的方向和步长两个物理量的均值和方差，智能体最终的前进方向和步长从各自的均值和方差表示的正态分布中抽样得到；A网络包括两个相同结构的网络，一个网络用于产生智能体的行动指令，另一个等待被更新，分别记为A和A
old
；C网络用于评价智能体根据A网络的输出采取行动后到达一个新的坐标，这个动作的价值期望，C网络的输入也是状态，输出为一个价值；采用步骤S2的训练数据对PPO网络进行训练，具体为：智能体根据用户起始的状态，输入到A网络中得到前进方向和步长的均值方差，采样得到预测的用户下一刻的运动方向和步长，并让智能体按照这个...

【专利技术属性】
技术研发人员：郭贤生，张明恒，司皓楠，韩璐飞，黄河，钱博诚，黄健，张玉坤，李林，
申请(专利权)人：电子科技大学长三角研究院衢州，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人