The invention relates to a reader anti-collision technology in radio frequency identification, in particular to an RFID multi-reader anti-collision algorithm based on deep Q network. The Q learning algorithm is combined with neural network and applied to the multi reader collision avoidance problem. The whole algorithm includes defining state and action, building memory base, back propagation, updating neural network weights and finding the optimal strategy. The invention realizes the optimal channel resource allocation by means of autonomous learning in depth Q network algorithm, that is, by updating the weights of neural network, the optimal value is sought in the memory library, and the collision rate is lowest. The invention not only improves the tag recognition rate, but also improves the system throughput and achieves the improvement of the overall performance, and is especially suitable for complex cases with large sample space.
【技术实现步骤摘要】
基于深度Q网络的RFID多阅读器防碰撞算法
本专利技术涉及无线射频识别中的阅读器防碰撞技术,具体地说是基于深度Q网络(DeepQNetwork)的RFID多阅读器防碰撞算法。
技术介绍
无线射频识别(RFID)技术在当代生活中发展迅猛,阅读器广泛应用于仓储管理,物流运输系统等,很大程度提高了商品的识别效率。在标签分布密集的系统中,阅读器识别标签的效率成为系统高效工作的关键。然而,在实际应用中,在多阅读器的应用环境中,存在着阅读器之间的干扰,即冲突问题,从而导致整个RFID系统的识别效率下降。所以RFID系统中的阅读器碰撞问题已经成为RFID发展应用的主要问题之一。通常的RFID阅读器防碰撞方法,一般都使阅读器覆盖范围最大化或者最优化通信资源的调度利用,对阅读器的时隙资源和信道资源进行优化分配,进而提高系统的标签识别能力。阅读器的碰撞形式主要有两种,一种是多阅读器与标签的碰撞,即当标签同时处于多个阅读器的阅读范围内,不能被任何一个阅读器正确识别;另一种是多阅读器之间的碰撞,即阅读器在识别标签时,处于其他阅读器的干扰范围内,由于它们的工作频率相同或者频率间隔太小等原因导致不能正确识别标签。由于阅读器碰撞问题在以往的研究中很少被关注,而阅读器碰撞问题又亟需解决,所以本专利技术重点针对信道资源的合理分配防碰撞算法。国内外对RFID多阅读器的防碰撞问题及其解决方案进行研究,多阅读器防碰撞算法主要分为调度方式和功率调整方式,调度方式中常用的算法有Colorwave、HiQ学习、PULSE以及CSMA等;功率调整方式常用的算法有LLCR和w-LCR等等。HiQ算法利用Q ...
【技术保护点】
1.一种基于深度Q网络的RFID多阅读器防碰撞算法,约定阅读器个数为N,系统可用信道资源数为R,学习次数为T,概率ε,折扣系数为γ,权重为θ,其特征在于,该算法步骤还包括:步骤1)初始化:根据RFID网络中阅读器和信道资源的个数,初始化回放存储replay memory为D,使用随机权重θ初始化动作‑价值函数Q,观察初始状态s;步骤2)执行动作:产生一个0到1之间的随机数,当这个随机数小于概率ε则选择一个随机动作,若大于概率ε则选择最大Q值对应的动作,执行动作a后,观察奖赏值c和下一状态s′,在回放存储D中保存经验
【技术特征摘要】
1.一种基于深度Q网络的RFID多阅读器防碰撞算法,约定阅读器个数为N,系统可用信道资源数为R,学习次数为T,概率ε,折扣系数为γ,权重为θ,其特征在于,该算法步骤还包括:步骤1)初始化:根据RFID网络中阅读器和信道资源的个数,初始化回放存储replaymemory为D,使用随机权重θ初始化动作-价值函数Q,观察初始状态s;步骤2)执行动作:产生一个0到1之间的随机数,当这个随机数小于概率ε则选择一个随机动作,若大于概率ε则选择最大Q值对应的动作,执行动作a后,观察奖赏值c和下一状态s′,在回放存储D中保存经验<s,a,c,s′>;步骤3)训练神经网络:由于状态之间具有连续性,如果对于每一个状态都更新Q值,受状态分布影响,效果会不好;因此,从回放存储D中进行样本随机变换,每次采用随机数据进行梯度下降,并通过反向传播方法更新神经网络权重θ;步骤4)状态转化:当系统还未达到学习次数T时,令s=s′,转到步骤2,当达到学习次数T则终止学习过程。2.根据权利要求1所述的适用于基于深度Q网络的阅读器防碰撞算法,其特征在于,所述信道资源用于表示阅读器的可用信道数,所述回放存储(replaymemory)D用于存放所有经验值<s,a,c,s′>,当训练网络时,使用的是来自回放存储器的随机数据批次,而不是使用最近的变换。3.根据权利要求1所述的适用于基于深度Q网络的阅读器防碰撞算法,其特征在于,所述步骤1)状态s由i和A(i)确定,其中i表示当前阅读器,i∈{1,2,...,N},A(i)表示当前阅读器可用信道资源数,A(i)∈{1,2,...,R},即当前阅读器i可用的信道资源数A(i),动作a表示分配一个信道资源给阅读器,同时定义阅读器i的信道状态是R维向量U(i)={u1(...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。