一种基于强化学习PPO算法的指纹室内定位方法技术

技术编号:34775073 阅读:13 留言:0更新日期:2022-08-31 19:45
本发明专利技术属于室内定位技术领域,具体涉及一种基于强化学习PPO算法的指纹室内定位方法。本发明专利技术提出的基于强化学习PPO算法的指纹室内定位方法,让模型与环境互动产生训练数据,以获得更高奖励作为驱动来更新网络。本发明专利技术的方法不再依赖带标签指纹库,提供定位服务与模型更新可以同步进行,在定位系统的部署效率上有很大的提升。随着环境变化,该方法可以采集最新的轨迹数据来更新网络让其面对环境的变化后依然有很好的定位表现。后依然有很好的定位表现。后依然有很好的定位表现。

【技术实现步骤摘要】
一种基于强化学习PPO算法的指纹室内定位方法


[0001]本专利技术属于室内定位
,具体涉及一种基于强化学习PPO算法的指纹室内定位方 法。

技术介绍

[0002]随着智能物联技术的发展,无论是在国防领域还是普通的日常生活中,人们对基于位置 的服务需求不断增长,其中室内环境下的位置服务近几年更是受到关注。其中基于RSS指纹 的室内定位技术,因为其不受室内复杂多径效应影响和不需要额外传感设备的优势也引来很 多研究者的关注。
[0003]文献“M.Altini,D.Brunelli,E.Farella,and L.Benini,“Bluetooth indoor localization withmultiple neural networks,”in Proc.5th IEEE Int.Symp.Wireless Pervasive Comput.(ISWPC), 2010,pp.295

300”公开了一种基于神经网络的指纹室内定位方法。和大多数基于指纹的室 内定位方法一样,定位的过程需要划分为几个步骤:1)离线采集在划分好网格的室内环境中 每个格点采集信号强度RSS并记录坐标标签建立指纹库;2)模型训练阶段:用采集好的指纹 数据,训练模型的参数;3)在线定位阶段:根据待定位目标采集到的RSS指纹信息,通过训 练好的神经网络输出位置坐标。这类方法可以不用担心复杂室内环境无线信号的多径效应, 也因为通常采用Wi

Fi和蓝牙这类成本较低的无线信号一定程度上很好的解决了室内定位问 题。但是其缺点也很明显,主要体现在以下方面:1)定位环境的指纹采集是必须的(依赖带 标签数据):离线阶段需要在待定位的室内环境中建立指纹库,这是一个很耗费人力财力的工 作。并且由于需要提前对环境划分网格,目前的大多数指纹室内定位系统的搭建需要花费很 长的时间才能投入使用,并不能很好的实际应用这些方法。2)随着环境变化,模型定位性能 会逐渐降低:神经网络根据离线阶段的指纹训练好网络参数后,在现阶段随着时间的推移, 室内障碍物的移动、AP位置的移动以及温度湿度等因素都会导致网络的效果逐渐下降。这时 候往往需要重新训练网络,或者采用其他算法动态更新网络来适应新的环境。由于这一类方 法存在的上述问题,给指纹室内定位系统在实际的应用场景中部署带来了困难,不具有实用 性。

技术实现思路

[0004]本专利技术的目的是针对解决技术背景中的基于RSS指纹的室内定位方法面临的几个实际 应用中的缺陷:需要严重依赖带标签的指纹数据、定位系统部署过程耗时以及定位模型随着 时间推移不能保持性能等,设计了一种基于强化学习PPO算法的指纹室内定位方法。该方法 使用强化学习实现定位,将跟踪定位建模为一个马尔可夫过程。强化学习的训练机制是让智 能体(Agent)不断与环境互动得到的数据用于网络的训练。根据当前环境的状态(State)模 型选择一个动作(Action)后根据设计的奖励函数得到关于这个Action的奖励值(Reward), 以获得更高的奖励值作为指引来更新网络。由于网络的训练只依赖智能体和环境的互动数据, 这些互动数据不需要人为采集和标记标签,让定位系统呈现一种

自我尝试,自我成长”的 模式。
[0005]本专利技术与传统的RSS指纹室内定位方法在数据采集、定位模型训练以及定位实施过程等 方面都是完全不同的思路。这种思路一方面可以不再依赖带标签数据节约了时间成本和人力 成本,同时也让模型在使用一段时间后可以继续根据最新的互动数据来更新网络以应对环境 的变化。
[0006]本专利技术的技术方案为:
[0007]一种基于强化学习PPO算法的指纹室内定位方法,包括以下步骤:
[0008]S1、在定位环境中安装L个信号发生器AP,并记录安装的位置坐标;
[0009]S2、在定位环境中采集无标签的用户连续运动轨迹信息,记录起点位置坐标(x0,y0)并定 时记录中间点的无线信号强度RSS指纹:
[0010]RSSI=[RSS0,RSS1,

,RSS
L
]T
[0011]从起点开始经过M次采集的RSS指纹数据构成一条轨迹:
[0012][0013]采集N条轨迹构成训练数据,n=1,2,

N;
[0014]S3、构建PPO网络,PPO网络包括策略网络和评价网络,分别定义为A网络和C网络, A网络的输入为当前智能体的状态,包括智能体上一时刻的位置坐标以及当前时刻的RSS指 纹信息,定义第t个状态为:
[0015]State
t
=[x
t
‑1,y
t
‑1,RSSI
t
][0016]A网络的输入为:
[0017]A
INPUT
=[State
t
][0018]A网络的输出为下发给智能体根据上一时刻位置,前进的方向和步长两个物理量的均值 和方差,智能体最终的前进方向和步长从各自的均值和方差表示的正态分布中抽样得到;A 网络包括两个相同结构的网络,一个网络用于产生智能体的行动指令另一个等待被更新,分 别记为A和A
old
;C网络用于评价智能体根据A网络的输出采取行动后到达一个新的坐标, 这个动作的价值期望,C网络的输入也是状态,输出为一个价值;
[0019]采用步骤S2的训练数据对PPO网络进行训练,具体为:
[0020]智能体根据起始的状态,输入到A网络中得到前进方向和步长的均值方差,采样得到预 测的用户下一刻的运动方向和步长,并让智能体按照这个方向移动,得到智能体新的坐标 (x
t+1
,y
t+1
)并根据用户在新位置上的信号强度测量值得到新的State
t+1

[0021]根据奖励函数得到这一步移动的奖励值:
[0022][0023]其中,表示阈值,当状态中存在第i个RSS值存在大于的时候,采用智能体到第i个AP 距离d
t,i
的倒数作为奖励;
[0024]重复前进,并记录每一次移动的State和奖励值,完成一条轨迹的所有步数后,根据PG 算法流程回溯每一步的折扣价值V
discount

[0025]V
discount
=gamma*V
t+1
+r
t
[0026]其中gamma为价值的折扣率,反映这一步Action对后续连续几步价值的影响情况,根 据实际情况选取。
[0027]更新A网络:
[0028][0029]根据PPO网络的重要性采样原理:作为A(s
t
,a
t
)的权重,组成最后的代价函数。 θ
old
和θ分别代表等待更新的和产生数据的两个A网络的参数,p
θ
(a
t
|s
t本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习PP0算法的指纹室内定位方法,其特征在于,包括以下步骤:S1、在定位环境中安装L个信号发生器AP,并记录安装的位置坐标;S2、在定位环境中采集无标签的用户连续运动轨迹信息,记录起点位置坐标(x0,y0)并定时记录中间点的无线信号强度RSS指纹:RSSI=[RSS0,RSS1,...,RSS
L
]
T
从起点开始经过M次采集的RSS指纹数据构成一条轨迹:采集N条轨迹构成训练数据,n=1,2,

N;S3、构建PPO网络,PPO网络包括策略网络和评价网络,分别定义为A网络和C网络,A网络的输入为当前智能体的状态,包括智能体上一时刻的位置坐标以及当前时刻的RSS指纹信息,定义第t个状态为,t=1,2,

L:State
t
=[x
t
‑1,y
t
‑1,RSSI
t
]A网络的输入为:A
INPUT
=[State
t
]A网络的输出为下发给智能体根据上一时刻位置,前进的方向和步长两个物理量的均值和方差,智能体最终的前进方向和步长从各自的均值和方差表示的正态分布中抽样得到;A网络包括两个相同结构的网络,一个网络用于产生智能体的行动指令,另一个等待被更新,分别记为A和A
old
;C网络用于评价智能体根据A网络的输出采取行动后到达一个新的坐标,这个动作的价值期望,C网络的输入也是状态,输出为一个价值;采用步骤S2的训练数据对PPO网络进行训练,具体为:智能体根据用户起始的状态,输入到A网络中得到前进方向和步长的均值方差,采样得到预测的用户下一刻的运动方向和步长,并让智能体按照这个...

【专利技术属性】
技术研发人员:郭贤生张明恒司皓楠韩璐飞黄河钱博诚黄健张玉坤李林
申请(专利权)人:电子科技大学长三角研究院衢州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1