The present invention relates to indoor positioning technology of Radio Frequency Identification (RFID). Specifically, it is an indoor positioning algorithm based on Deep Deterministic Policy Gradient (DDPG), which includes: establishing an action network and an evaluation network, in which the action network includes an action estimation network and an action target network; It includes evaluation and estimation network and evaluation target network. The action evaluation method is used to update the strategy gradient step by step. At the same time, the strategy gradient can be used to filter the continuous action. In the process of screening, certainty is added, and an action value is output on the continuous action to determine the location of the target tag. Because the indoor positioning action of RFID is continuous, the combination of DDPG and RFID indoor positioning solves the problem of positioning continuity well. Compared with the traditional indoor positioning algorithm based on neural network, the method has more continuous positioning action, further improves positioning accuracy, and is especially suitable for the case of large label information.
【技术实现步骤摘要】
一种基于DDPG的RFID室内定位算法
本专利技术涉及无线射频识别(RadioFrequencyIdentification,RFID)中的室内定位技术,具体地说,是一种基于深度确定性策略(DeepDeterministicPolicyGradient,DDPG)的RFID室内定位算法。
技术介绍
随着通信技术和物联网的发展,智能终端及移动生活的普及,人们的生活和工作中都需要应用到基于位置提供的定位服务,对定位要求也越来越高,所需的定位技术也从室外定位发展到室内定位。室内定位还是室外定位,这是根据定位对象的应用场景确定的。在室外定位中,基于卫星导航的定位技术已经趋于成熟,但是室外定位由于受稠密植被和大部分建筑物的影响,会造成定位不够准确,甚至不能定位。为了满足人们对高精度、低成本定位技术的需求,室内定位成了人们研究的热点。目前,室内定位在人员定位追踪、资产管理、安防救援和商品零售的领域有广泛的应用前景。当前,RFID室内定位技术,有辅助GPS技术、红外线定位技术、超宽带(UHB)定位技术、超声波定位技术、WIFI定位技术、RFID定位技术、蓝牙定位技术、计算机视觉定位技术、图像分析定位技术、光跟踪技术、信标定位技术等等定位技术。其中RFID定位技术是一种比较高效的定位方法,它具有能耗低,实施成本少,测量性高及定位精度高等特点。RFID室内定位基于不同的解决思路主要有四种测距思路,分别是基于信号到达时间(TOA)测距法,基于信号到达时间差(TDOA)测距法,基于信号到达角度(AOA)测距法,基于信号到达强度(ReceivedSignalStrengthInd ...
【技术保护点】
1.一种基于DDPG的RFID室内定位系统算法,其特征在于,包括以下步骤:步骤1)对区域内的M个RFID样本标签的RSSI值进行采集,获得原始训练数据;步骤2)初始化噪声,利用动作网络的Q估计网络学习,在每个动作中加入噪声,更新状态并获得RFID样本标签最优的RSSI值,将学习到的经验和数据存入记忆库中;步骤3)训练神经网络:建立动作网络Q(s,a|θQ)和评价网络μ(s|θμ),再分别建立这两个网络的目标网络:Q′←Q,μ′←μ,目标网络获得下一个状态动作函数,根据评价损失函数更新评价网络,同时根据策略梯度更新动作网络,最后再更新动作网络和评价网络的权重目标网络,使其跟踪学习网络,输出RFID样本标签对应的具体位置,最终得到DDPG定位模型;步骤4)精准定位:当携带有RFID标签的待定位目标进入检测区域,读写器获取标签信息及RSSI信号强度值,然后将这些数据传至计算机并输入到训练好的DDPG定位模型中,模型准确识别数据并输出待定位目标的具体位置。
【技术特征摘要】
1.一种基于DDPG的RFID室内定位系统算法,其特征在于,包括以下步骤:步骤1)对区域内的M个RFID样本标签的RSSI值进行采集,获得原始训练数据;步骤2)初始化噪声,利用动作网络的Q估计网络学习,在每个动作中加入噪声,更新状态并获得RFID样本标签最优的RSSI值,将学习到的经验和数据存入记忆库中;步骤3)训练神经网络:建立动作网络Q(s,a|θQ)和评价网络μ(s|θμ),再分别建立这两个网络的目标网络:Q′←Q,μ′←μ,目标网络获得下一个状态动作函数,根据评价损失函数更新评价网络,同时根据策略梯度更新动作网络,最后再更新动作网络和评价网络的权重目标网络,使其跟踪学习网络,输出RFID样本标签对应的具体位置,最终得到DDPG定位模型;步骤4)精准定位:当携带有RFID标签的待定位目标进入检测区域,读写器获取标签信息及RSSI信号强度值,然后将这些数据传至计算机并输入到训练好的DDPG定位模型中,模型准确识别数据并输出待定位目标的具体位置。2.根据权利要求1所述的一种基于DDPG的RFID室内定位算法,其特征在于,所述步骤2)中初始化噪声,具体包括:初始化噪声分布N,每个动作策略添加一个噪声,执行当前动作at并观察当前回报值rt,然后观察得到下一个状态st+1,在记忆库R中保存经验(st,at,rt,st+1),并获得当前RFID标签的最优RSSI值。3.根据权利要求1所述的一种基于DDPG的RFID室内定位算法,其特征在于,所述步骤2)中,采用记忆回放的方法,先建立一个记忆库,将部分采样样本收集起来,每次优化是从记忆库中随机取出一部分进行优化,进行小批量的学习,这样可以在不同类型单元的不同任务之间有效学习,减少部分动作不稳定性问题。4.根据权利要求1所述的一种基于DDPG的RFID室内定位算法,其特征在于,所述步骤2)中的学习过...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。