当前位置: 首页 > 专利查询>广西大学专利>正文

一种基于DDPG的RFID室内定位算法制造技术

技术编号:20113910 阅读:32 留言:0更新日期:2019-01-16 11:25
本发明专利技术涉及无线射频识别(Radio Frequency Identification,RFID)室内定位技术,具体地说是一种基于深度确定性梯度下降(Deep Deterministic Policy Gradient,DDPG)的RFID室内定位算法,包括:建立动作网络和评价网络,其中,动作网络包括动作估计网络和动作目标网络;评价网络包括评价估计网络和评价目标网络。使用动作‑评价方法让策略梯度单步更新,同时策略梯度能被用在连续动作上进行筛选,而且在筛选的过程中加入确定性,在连续动作上输出一个动作值,从而确定目标标签的位置。由于RFID室内定位动作是连续的,DDPG与RFID室内定位相结合,很好的解决了定位连续性的问题。本发明专利技术与传统的基于神经网络的室内定位算法相比,在定位动作上更连续,进一步提高了定位精度,特别适用于标签信息较庞大的情况。

A DDPG-based indoor location algorithm for RFID

The present invention relates to indoor positioning technology of Radio Frequency Identification (RFID). Specifically, it is an indoor positioning algorithm based on Deep Deterministic Policy Gradient (DDPG), which includes: establishing an action network and an evaluation network, in which the action network includes an action estimation network and an action target network; It includes evaluation and estimation network and evaluation target network. The action evaluation method is used to update the strategy gradient step by step. At the same time, the strategy gradient can be used to filter the continuous action. In the process of screening, certainty is added, and an action value is output on the continuous action to determine the location of the target tag. Because the indoor positioning action of RFID is continuous, the combination of DDPG and RFID indoor positioning solves the problem of positioning continuity well. Compared with the traditional indoor positioning algorithm based on neural network, the method has more continuous positioning action, further improves positioning accuracy, and is especially suitable for the case of large label information.

【技术实现步骤摘要】
一种基于DDPG的RFID室内定位算法
本专利技术涉及无线射频识别(RadioFrequencyIdentification,RFID)中的室内定位技术,具体地说,是一种基于深度确定性策略(DeepDeterministicPolicyGradient,DDPG)的RFID室内定位算法。
技术介绍
随着通信技术和物联网的发展,智能终端及移动生活的普及,人们的生活和工作中都需要应用到基于位置提供的定位服务,对定位要求也越来越高,所需的定位技术也从室外定位发展到室内定位。室内定位还是室外定位,这是根据定位对象的应用场景确定的。在室外定位中,基于卫星导航的定位技术已经趋于成熟,但是室外定位由于受稠密植被和大部分建筑物的影响,会造成定位不够准确,甚至不能定位。为了满足人们对高精度、低成本定位技术的需求,室内定位成了人们研究的热点。目前,室内定位在人员定位追踪、资产管理、安防救援和商品零售的领域有广泛的应用前景。当前,RFID室内定位技术,有辅助GPS技术、红外线定位技术、超宽带(UHB)定位技术、超声波定位技术、WIFI定位技术、RFID定位技术、蓝牙定位技术、计算机视觉定位技术、图像分析定位技术、光跟踪技术、信标定位技术等等定位技术。其中RFID定位技术是一种比较高效的定位方法,它具有能耗低,实施成本少,测量性高及定位精度高等特点。RFID室内定位基于不同的解决思路主要有四种测距思路,分别是基于信号到达时间(TOA)测距法,基于信号到达时间差(TDOA)测距法,基于信号到达角度(AOA)测距法,基于信号到达强度(ReceivedSignalStrengthIndication,RSSI)测距法。本专利技术主要是基于信号到达强度测距方法。目前,许多人将机器学习的方法用在室内定位方法中,如基于贝叶斯室内定位的分层模型完成无线网络的精确估计,模型在训练时间上提升了许多,引入了完全自适应零捕捉位置方法的概念。基于机器学习指纹的定位算法,可以提供比其他现有的指纹方法更高的定位精度,降低了定位成本,突破了机器学习定位方法只能适用于有源标签的弊端,将范围扩大到了无源标签上。基于粒子波模型的定位算法,需要通过大量粒子群模拟状态分布,然后根据观察结果更新他们的权重模型,粒子通常收敛于最可能的用户位置,收敛成本比较高。
技术实现思路
本专利技术的目的是提供一种基于DDPG的RFID室内定位算法,利用强化学习中的深度确定性策略建立多种神经网络,通过动作-评价策略确定连续动作的输出,从而构建DDPG定位模型,最终得到RFID待测目标的具体位置。为实现上述目的,本专利技术提供了如下方案:一种基于DDPG的RFID室内定位算法,包括:步骤1)对区域内的M个RFID样本标签的RSSI值进行采集,获得原始训练数据;步骤2)初始化噪声,利用动作网络的Q估计网络学习,在每个动作中加入噪声,更新状态并获得RFID样本标签最优的RSSI值,将学习到的经验和数据存入记忆库中;步骤3)训练神经网络:建立动作网络Q(s,a|θQ)和评价网络μ(s|θμ),再分别建立这两个网络的目标网络:Q′←Q,μ′←μ,目标网络获得下一个状态动作函数,根据评价损失函数更新评价网络,同时根据策略梯度更新动作网络,最后再更新动作网络和评价网络的权重目标网络,使其跟踪学习网络,输出RFID样本标签对应的具体位置,最终得到DDPG定位模型;步骤4)精准定位:当携带有RFID标签的待定位目标进入检测区域,读写器获取标签信息及RSSI信号强度值,然后将这些数据传至计算机并输入到训练好的DDPG定位模型中,模型准确识别数据并输出待定位目标的具体位置。作为本专利技术的进一步改进,所述步骤2)中初始化噪声,具体包括:初始化噪声分布N,构造探索策略μ′,每个动作策略添加一个噪声,执行当前动作at并观察当前回报值rt,然后观察得到下一个状态st+1,在记忆库R中保存经验(st,at,rt,st+1),并获得当前标签的最优RSSI值。作为本专利技术的进一步改进,所述步骤2)中,采用记忆回放的方法,先建立一个记忆库,将部分采样样本收集起来,每次优化是从记忆库中随机取出一部分进行优化,进行小批量的学习,这样可以在不同类型单元的不同任务之间有效学习,减少部分动作不稳定性问题。作为本专利技术的进一步改进,所述步骤2)中的学习过程是一个不断递归的过程,符合贝尔曼方程。作为本专利技术的进一步改进,所述步骤3)中训练神经网络,具体包括:a)取记忆并训练:从记忆库中取出部分随机样本,表示为(si,ai,ri,si+1),然后训练更新目标网络,学习过程可表示为yi=ri+γQ′(si+1,u′(si+1|θu′)|θQ′)其中yi代表目标网络,ri代表在i学习过程中的回报值,θu′、θQ′代表目标权重,γ代表折扣因子;b)根据最小损失函数更新评价网络:其中L代表损失函数;c)根据策略梯度更新动作网络:其中代表梯度,用动作网络的方法调整权重值;d)更新目标网络,即权重更新:评价网络权重更新:θQ′←τθQ+(1-τ)θQ′;动作网络权重更新:θμ′←τθμ+(1-τ)θμ′。作为本专利技术的进一步改进,所述步骤3)中,评价网络类似于策略评估,用于估计动作值函数μ(s|θμ),动作以评价所指导的方向更新策略参数,深度确定性策略梯度DDPG为:作为本专利技术的进一步改进,所述步骤3)中,策略梯度包括:在连续行动空间使用离线学习算法进行优化,采用e-greedy贪婪策略,以一定的概率使用随机函数,而在剩下的情况下使用最优行动,最终得到一个确定的动作,这个动作不需要从概率分布中采样,相当于当前状态下的最优策略。作为本专利技术的进一步改进,所述步骤3)中,目标网络通过设置一个不会大幅更新的模型,使模型计算的值函数在一定程度上减少波动,使RFID定位位置更稳定,通过采用滑动平均的方法更新目标网络:θt+1←τθt+(1-τ)θ′tτ设置为非常接近1的数,这样目标网络的参数θ不会发生太大的变化。本专利技术的有益效果为:(1)由于RFID室内定位中RSSI值是连续读取的,因此若要筛选出最优RSSI值,这个动作也应当是连续的,利用策略梯度的连续性,动作-评价让策略梯度单步更新,可以很好的解决这个问题。(2)利用策略梯度与深度Q网络相结合,包含了深度Q网络的取记忆学习,反向传播,梯度更新,自动探索学习等,解决不同标签输出的RSSI定位问题。(3)为了避免确定性策略陷入局部最优化学习的问题,策略中加入部分噪声,使动作探索更广泛和高效。(4)建立多个神经网络,包括动作网络和评价网络,动作网络和评价网络分别包含各自的估计和现实网络,利用评价网络指导动作网络,动作网络利用梯度策略不断地修改更新,最终网络快速收敛并选择出最优RSSI值,输出RFID标签具体位置。(5)当待测目标进入定位区域时,动作网络从记忆库中取出部分记忆,对待测目标进行训练学习,输出得到RFID标签具体位置,相比传统的室内定位方法,本方法可以连续自动学习并定位,定位精度和定位速度上都有很大的提升。附图说明图1.本专利技术一种基于DDPG的RFID室内定位算法总体框架图;图2.本专利技术一种基于DDPG的RFID室内定位算法流程图具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施例对本文档来自技高网
...

【技术保护点】
1.一种基于DDPG的RFID室内定位系统算法,其特征在于,包括以下步骤:步骤1)对区域内的M个RFID样本标签的RSSI值进行采集,获得原始训练数据;步骤2)初始化噪声,利用动作网络的Q估计网络学习,在每个动作中加入噪声,更新状态并获得RFID样本标签最优的RSSI值,将学习到的经验和数据存入记忆库中;步骤3)训练神经网络:建立动作网络Q(s,a|θQ)和评价网络μ(s|θμ),再分别建立这两个网络的目标网络:Q′←Q,μ′←μ,目标网络获得下一个状态动作函数,根据评价损失函数更新评价网络,同时根据策略梯度更新动作网络,最后再更新动作网络和评价网络的权重目标网络,使其跟踪学习网络,输出RFID样本标签对应的具体位置,最终得到DDPG定位模型;步骤4)精准定位:当携带有RFID标签的待定位目标进入检测区域,读写器获取标签信息及RSSI信号强度值,然后将这些数据传至计算机并输入到训练好的DDPG定位模型中,模型准确识别数据并输出待定位目标的具体位置。

【技术特征摘要】
1.一种基于DDPG的RFID室内定位系统算法,其特征在于,包括以下步骤:步骤1)对区域内的M个RFID样本标签的RSSI值进行采集,获得原始训练数据;步骤2)初始化噪声,利用动作网络的Q估计网络学习,在每个动作中加入噪声,更新状态并获得RFID样本标签最优的RSSI值,将学习到的经验和数据存入记忆库中;步骤3)训练神经网络:建立动作网络Q(s,a|θQ)和评价网络μ(s|θμ),再分别建立这两个网络的目标网络:Q′←Q,μ′←μ,目标网络获得下一个状态动作函数,根据评价损失函数更新评价网络,同时根据策略梯度更新动作网络,最后再更新动作网络和评价网络的权重目标网络,使其跟踪学习网络,输出RFID样本标签对应的具体位置,最终得到DDPG定位模型;步骤4)精准定位:当携带有RFID标签的待定位目标进入检测区域,读写器获取标签信息及RSSI信号强度值,然后将这些数据传至计算机并输入到训练好的DDPG定位模型中,模型准确识别数据并输出待定位目标的具体位置。2.根据权利要求1所述的一种基于DDPG的RFID室内定位算法,其特征在于,所述步骤2)中初始化噪声,具体包括:初始化噪声分布N,每个动作策略添加一个噪声,执行当前动作at并观察当前回报值rt,然后观察得到下一个状态st+1,在记忆库R中保存经验(st,at,rt,st+1),并获得当前RFID标签的最优RSSI值。3.根据权利要求1所述的一种基于DDPG的RFID室内定位算法,其特征在于,所述步骤2)中,采用记忆回放的方法,先建立一个记忆库,将部分采样样本收集起来,每次优化是从记忆库中随机取出一部分进行优化,进行小批量的学习,这样可以在不同类型单元的不同任务之间有效学习,减少部分动作不稳定性问题。4.根据权利要求1所述的一种基于DDPG的RFID室内定位算法,其特征在于,所述步骤2)中的学习过...

【专利技术属性】
技术研发人员:郑嘉利李丽
申请(专利权)人:广西大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1