当前位置: 首页 > 专利查询>广西大学专利>正文

基于异步优势动作评价的RFID室内定位算法制造技术

技术编号:21142140 阅读:25 留言:0更新日期:2019-05-18 05:27
本发明专利技术涉及一种基于异步优势动作评价的RFID室内定位算法,将定位目标的信号强度值作为输入数据,建立全局动作网络和全局评价网络,建立多个线程子动作网络和线程子评价网络。多个线程并行学习,互不干扰,再将学习到的经验异步更新到全局网络,全局网络最后输出参考标签的具体位置,得到异步优势动作评价定位模型;当有待测目标进入检测区域时,定位模型自动预测出目标具体位置。由于室内定位动作是连续的,异步优势动作评价方法与RFID室内定位相结合,很好的解决了定位连续性问题,有效解决了室内定位模型训练时间长,定位精度低以及环境噪声影响等问题,特别适用于定位目标数量庞大的情况。

【技术实现步骤摘要】
基于异步优势动作评价的RFID室内定位算法
本专利技术涉及无线识别中的室内定位技术,具体地说是一种基于异步优势动作评价的RFID室内定位算法。
技术介绍
近年来,随着人们对空间位置信息的需求不断增大,定位技术得到越来越多人的关注,尤其是基于GPS定位系统、移动互联网、智能手机等技术提供位置信息的服务,给人们的生活带来了极大的便利。在没有障碍物的室外,GPS的技术已经相对成熟,应用比较广泛。但是由于建筑物、植物、墙壁等障碍物能够将GPS信号减弱或是分散信号,造成GPS无法定位。因此,定位系统也从室外定位发展到室内定位。现有的室内定位方法主要有基于测距和非测距两类,基于测距定位的方法有基于信号到达时间(TOA)测距法,基于信号到达时间差(TDOA)测距法,基于信号到达角度(AOA)测距法;基于非测距定位的方法有基于信号到达强度(RSSI)测距法。本专利技术主要是基于信号到达强度(RSSI)测距方法。近年来,一些学者将机器学习或强化学习引入室内定位中,如K最邻近算法,通过计算距离的度量作为相似性度量。常用于指纹匹配阶段,在定位时利用KNN算法计算目标值与指纹库中样本值之间的欧式距离,按距离大小排序,选取前K个最小距离的参考点,然后以这个K个参考点的平均位置作为目标估计的位置。但是该算法需要遍历指纹库中所有样本的数据,因此会有较大的计算量。支持向量机SVM方法,利用SVM分类模型定位,将定位问题看做分类问题。前期通过数据训练分类模型,然后目标将目标样本数据输入训练好的分类模型中,对应输出一个最优分类结果,再利用具体的估计方法得出目标的位置。但是该算法计算成本较大,训练过程时间长。贝叶斯分类方法,通过多次测量RSSI值并把测量的RSSI值看成符合正态分布概率事件。利用贝叶斯概率模型只筛选出现“大概率事件”的RSSI值,再利用三边测量技术和最小二乘法来估计节点的位置。该方法通过筛选出优质RSSI值,降低了平均定位误差,但是贝叶斯算法是建立在条件相互独立假设的基础上,实际中特征之间不可能绝对独立,从而影响了实际的定位效果。
技术实现思路
本专利技术的基于异步优势动作评价的RFID室内定位算法技术方案如下:基于异步优势动作评价的RFID室内定位算法,包括以下步骤:步骤1)对读写区域内的参考标签的信号强度值进行采集,获得原始信号强度(RSSI)数据;步骤2)初始化:根据初始动作at,获得初始状态st并预处理得到相应的特征输入f(RSSItotal|st),建立全局动作网络ψ(at|st;θψ)、全局评价网络V(st;θv)以及线程子动作网络ψ(at|st;θψ′)、线程子评价网络V(st;θv′);初始化全局动作网络参数θψ=0、全局评价网络参数θv=0、线程子动作网络参数θψ′=0、线程子评价网络参数θv′=0、全局动作网络梯度dθψ=0、全局评价网络梯度dθv=0;步骤3)训练异步优势动作评价定位模型:执行线程子动作网络中的动作,并行训练学习并计算每个线程子评价网络的价值,计算线程总回报值R,累加线程子动作网络梯度,即总和为全局动作网络梯度dθψ,累加线程子评价网络梯度,即总和为全局动作网络梯度dθv,再对全局动作网络参数θψ和全局评价网络参数θv进行异步更新,使其跟踪学习,输出参考标签对应的具体位置,最终得到异步优势动作评价定位模型;步骤4)精准定位:当携带有RFID标签的待定位目标进入检测区域时,读写器获取目标信息及信号强度值,并将这些数据输入到训练完成的异步优势动作评价定位模型中,定位模型准确识别数据并输出待定位目标的具体位置。作为本专利技术的进一步改进,所述步骤2)中的特征输入使用动作决策函数来表示,具体表示如下:其中,RSSItotal表示在状态st下获取的所有RSSI值,σ为标准差,表示为:N表示标签总数,RSSIi表示第i个RSSI值,B表示平均值:作为本专利技术的进一步改进,所述步骤2)的初始化具体包括:建立全局动作网络ψ(at|st;θψ),表示为:其中,ω(st,θψ)、τ(st,θψ)为动作网络输出参数,表示为:ω(st,θψ)=θψTf(RSSItotal|st),τ(st,θψ)=exp(θψTf(RSSItotal|st));建立全局评价网络V(st;θv),即对全局网络预期的折扣回报求期望,期望服从贝尔曼方程,表示为:V(st;θv)=E[rt+γV(st+1;θv)],其中,γ为折扣因子,rt为当前回报值;建立多个线程子动作网络ψ(at|st;θψ′),表示为:建立多个线程子评价网络V(st;θv′),即对子线程网络预期的折扣回报求期望,期望服从贝尔曼方程,表示为:V(st;θv′)=E[rt+γV(st+1;θv′)]。为了使本专利技术公开充分,所述步骤3训练异步优势动作评价定位模型的具体训练步骤为:a)执行线程子网络的动作:同步线程子动作网络参数θψ′为:θψ′=θψ,获取当前状态st,根据状态st,用线程子动作网络ψ(at|st;θψ′)以最大化回报执行动作at并观察当前回报值rt以及下一个状态st+1,然后根据状态st+1以最大化回报执行动作at+1并观察当前回报值rt+1以及下一个状态st+2,以此类推,直至执行n次,完成了一次信号强度的轨迹采样,可表示为{(s0,a0,r0),(s1,a1,r1),...,(sn,an,rn)};b)同步训练学习并计算线程子评价网络的价值,用优势函数A(st;θv′)来表示,用于评价在状态st下,选择动作at的优劣,可表示为:A(st;θv′)=rt+γrt+1...+γn-t+1rn-1+γn-tV(sn;θv′)-V(st;θv′)c)计算线程总回报值:d)累加线程子动作网络及线程子评价网络的梯度:(1)累加线程子动作网络梯度,即总和为全局动作网络梯度:其中,H为交叉熵,β为交叉熵的权重;(2)累加线程子评价网络梯度,即总和为全局动作网络梯度:e)当线程子动作网络及线程子评价网络计算并累加完梯度时,再反向传播,对全局网络参数进行异步更新,且回合数加1:(1)全局动作网络参数θψ更新:θψ=dθψ(2)全局评价网络参数θv更新:θv=dθvf)重复步骤a)-e),直至回合数训练完毕,异步优势动作评价定位模型训练完成,输出参考标签的具体坐标值,得到异步优势动作评价定位模型。本专利技术的有益效果:1.异步更新:传统的DQN用一个网络代表一个代理(agent),agent只与单一环境进行交互,从而选出最优信号强度RSSI值,本专利技术通过多线程来提高训练学习的效率和鲁棒性。利用异步优势动作评价方法搭建全局动作网络和全局评价网络,同时建立多个线程子动作网络和子评价网络,且结构与主网络相同,与各自的训练环境交互学习并定期地将参数异步更新到全局网络上,既加快了训练速度,也避免了采样信号强度值的问题。2.动作-评价:本专利技术使用动作-评价方法,结合了值迭代和策略迭代的优点,每个线程子动作网络和子评价网络都相同,仅在最后输出部分不同。3.优势评估:为了加速训练,本专利技术在更新权重是会适当的激励或者惩罚某些动作,使用优势评估来保证每个代理(agent)知道某个动作的回报的好坏。4.动作学习策略为在线学习,即对当前最新的动作模型重新进行交互采样,得到相应的信号强度值序列样本,然后使本文档来自技高网
...

【技术保护点】
1.基于异步优势动作评价的RFID室内定位算法,包括以下步骤:步骤1)对读写区域内的参考标签的信号强度值进行采集,获得原始信号强度(RSSI)数据;步骤2)初始化:根据初始动作at,获得初始状态st并预处理得到相应的特征输入f(RSSItotal|st),建立全局动作网络ψ(at|st;θψ)、全局评价网络V(st;θv)以及线程子动作网络ψ(at|st;θψ′)、线程子评价网络V(st;θv′);初始化全局动作网络参数θψ=0、全局评价网络参数θv=0、线程子动作网络参数θψ′=0、线程子评价网络参数θv′=0、全局动作网络梯度dθψ=0、全局评价网络梯度dθv=0;步骤3)训练异步优势动作评价定位模型:执行线程子动作网络中的动作,并行训练学习并计算每个线程子评价网络的价值,计算线程总回报值R,累加线程子动作网络梯度,即总和为全局动作网络梯度dθψ,累加线程子评价网络梯度,即总和为全局动作网络梯度dθv,再对全局动作网络参数θψ和全局评价网络参数θv进行异步更新,使其跟踪学习,输出参考标签对应的具体位置,最终得到异步优势动作评价定位模型;步骤4)精准定位:当携带有RFID标签的待定位目标进入检测区域时,读写器获取目标信息及信号强度值,并将这些数据输入到训练完成的异步优势动作评价定位模型中,定位模型准确识别数据并输出待定位目标的具体位置。...

【技术特征摘要】
1.基于异步优势动作评价的RFID室内定位算法,包括以下步骤:步骤1)对读写区域内的参考标签的信号强度值进行采集,获得原始信号强度(RSSI)数据;步骤2)初始化:根据初始动作at,获得初始状态st并预处理得到相应的特征输入f(RSSItotal|st),建立全局动作网络ψ(at|st;θψ)、全局评价网络V(st;θv)以及线程子动作网络ψ(at|st;θψ′)、线程子评价网络V(st;θv′);初始化全局动作网络参数θψ=0、全局评价网络参数θv=0、线程子动作网络参数θψ′=0、线程子评价网络参数θv′=0、全局动作网络梯度dθψ=0、全局评价网络梯度dθv=0;步骤3)训练异步优势动作评价定位模型:执行线程子动作网络中的动作,并行训练学习并计算每个线程子评价网络的价值,计算线程总回报值R,累加线程子动作网络梯度,即总和为全局动作网络梯度dθψ,累加线程子评价网络梯度,即总和为全局动作网络梯度dθv,再对全局动作网络参数θψ和全局评价网络参数θv进行异步更新,使其跟踪学习,输出参考标签对应的具体位置,最终得到异步优势动作评价定位模型;步骤4)精准定位:当携带有RFID标签的待定位目标进入检测区域时,读写器获取目标信息及信号强度值,并将这些数据输入到训练完成的异步优势动作评价定位模型中,定位模型准确识别数据并输出待定位目标的具体位置。2.根据权利要求1所述的基于异步优势动作评价的RFID室内定位算法,其特征在于,所述步骤2)中的特征输入使用动作决策函数来表示,具体表示如下:其中,RSSItotal表示在状态st下获取的所有RSSI值,σ为标准差,表示为:N表示标签总数,RSSIi表示第i个RSSI值,B表示平均值:3.根据权利要求1所述的基于异步优势动作评价的RFID室内定位算法,其特征在于,所述步骤2)的初始化具体包括:建立全局动作网络ψ(at|st;θψ),表示为:其中,ω(st,θψ)、τ(st,θψ)为动作网络输出参数,表示为:ω(st,θψ)=θψTf(RSSItotal|st),τ(st,θψ)=exp(θψTf(RSSItotal|st))...

【专利技术属性】
技术研发人员:郑嘉利李丽
申请(专利权)人:广西大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1