当前位置: 首页 > 专利查询>广西大学专利>正文

基于深度Q网络的RFID多阅读器防碰撞算法制造技术

技术编号:19009425 阅读:44 留言:0更新日期:2018-09-22 09:15
本发明专利技术涉及无线射频识别中的阅读器防碰撞技术,具体地说是基于深度Q网络的RFID多阅读器防碰撞算法。将Q学习算法思想与神经网络结合,并应用于多阅读器防碰撞问题上。整个算法过程包括定义状态与动作、建立记忆库、反向传播、更新神经网络权重以及寻找最优策略。本发明专利技术利用深度Q网络算法中自主学习的方式实现最佳信道资源分配,即通过更新神经网络权重,在记忆库中寻求最优值,使碰撞率达到最低。本发明专利技术不仅提高标签识别率,而且提高系统吞吐量,实现整体性能的提升,特别适用于样本空间比较庞大的复杂情况。

RFID multi reader anti-collision algorithm based on deep Q network

The invention relates to a reader anti-collision technology in radio frequency identification, in particular to an RFID multi-reader anti-collision algorithm based on deep Q network. The Q learning algorithm is combined with neural network and applied to the multi reader collision avoidance problem. The whole algorithm includes defining state and action, building memory base, back propagation, updating neural network weights and finding the optimal strategy. The invention realizes the optimal channel resource allocation by means of autonomous learning in depth Q network algorithm, that is, by updating the weights of neural network, the optimal value is sought in the memory library, and the collision rate is lowest. The invention not only improves the tag recognition rate, but also improves the system throughput and achieves the improvement of the overall performance, and is especially suitable for complex cases with large sample space.

【技术实现步骤摘要】
基于深度Q网络的RFID多阅读器防碰撞算法
本专利技术涉及无线射频识别中的阅读器防碰撞技术,具体地说是基于深度Q网络(DeepQNetwork)的RFID多阅读器防碰撞算法。
技术介绍
无线射频识别(RFID)技术在当代生活中发展迅猛,阅读器广泛应用于仓储管理,物流运输系统等,很大程度提高了商品的识别效率。在标签分布密集的系统中,阅读器识别标签的效率成为系统高效工作的关键。然而,在实际应用中,在多阅读器的应用环境中,存在着阅读器之间的干扰,即冲突问题,从而导致整个RFID系统的识别效率下降。所以RFID系统中的阅读器碰撞问题已经成为RFID发展应用的主要问题之一。通常的RFID阅读器防碰撞方法,一般都使阅读器覆盖范围最大化或者最优化通信资源的调度利用,对阅读器的时隙资源和信道资源进行优化分配,进而提高系统的标签识别能力。阅读器的碰撞形式主要有两种,一种是多阅读器与标签的碰撞,即当标签同时处于多个阅读器的阅读范围内,不能被任何一个阅读器正确识别;另一种是多阅读器之间的碰撞,即阅读器在识别标签时,处于其他阅读器的干扰范围内,由于它们的工作频率相同或者频率间隔太小等原因导致不能正确识别标签。由于阅读器碰撞问题在以往的研究中很少被关注,而阅读器碰撞问题又亟需解决,所以本专利技术重点针对信道资源的合理分配防碰撞算法。国内外对RFID多阅读器的防碰撞问题及其解决方案进行研究,多阅读器防碰撞算法主要分为调度方式和功率调整方式,调度方式中常用的算法有Colorwave、HiQ学习、PULSE以及CSMA等;功率调整方式常用的算法有LLCR和w-LCR等等。HiQ算法利用Q学习的思想,Q学习算法只在作用区域较小的情况下效果良好,但在作用域很大的情况下就不适用了。通过文献检索,我们检索到了以下相关文献,其算法都是基于调度方式,并没有采用深度Q学习方法,例如:中国专利CN200810032490.8,基于图染色算法的RFID多读写器防冲突算法,专利权人:复旦大学,该专利公开了一种基于图染色算法的射频识别多读写器防冲突方法,通过执行图染色算法为每个RFID读写器分配合适的频率(即信道)和时间(即时隙),使存在频率冲突的阅读器之间,使用不同信道工作,以避免频率冲突;同时,使存在标签冲突的阅读器之间在不同的时隙阅读标签,以避免标签冲突。通过使用较少的信道和时隙资源的情况下有效地避免多阅读器之间的冲突(包括标签冲突和频率冲突),使阅读器的平均识别速度得到提高。中国专利CN201610393709.1,一种用于RFID系统中基于多信道的阅读器碰撞避免方法,专利权人:西北工业大学,该专利公开了一种RFID系统中基于多信道的阅读器碰撞避免方法,通过分析阅读器的碰撞类型,结合阅读器间的距离信息,构造各种阅读器碰撞问题的解决方法,针对阅读器间的不同关系,建立优选数据通道的准则,制定控制信息的消息格式,以方便相关阅读器获取信道的选取信息;为完成阅读器与标签的通信,设计新型通信处理流程,更好地发挥多信道功能,进一步仿真验证其方法在识别命令失败次数、识别处理时间及网络负载等方面与已有协议相比的有事,这项方面适用于具有多阅读器的RFID实际场景,有效解决分布在相同区域的多个阅读器同时获取大量标签信息时所出现的各类阅读器碰撞问题。
技术实现思路
本专利技术的目的是针对现有技术的不足,提出一种基于深度Q网络(DeepQNetwork)的RFID多阅读器防碰撞方法,通过将Q学习算法的思想与神经网络结合,即深度Q网络算法。将神经网络状态-动作对作为输入,并输出相应的Q值。深度Q网络的基本思想是使用权重θ作为Q网的神经网络函数近似器。为阅读器分配信道,深度Q网络算法有能力在复杂的实际场景中学习一个最优策略,避免阅读器碰撞。本专利技术的一种基于深度Q网络的RFID多阅读器防碰撞算法技术路线如下:一种基于深度Q网络的RFID多阅读器防碰撞算法,约定阅读器个数为N,系统可用信道资源数为R,学习次数为T,概率ε,折扣系数为γ,权重为θ,其特征在于,该算法步骤还包括:步骤1)初始化:根据RFID网络中阅读器和信道资源的个数,初始化回放存储replaymemory为D,使用随机权重θ初始化动作-价值函数Q,观察初始状态s;步骤2)执行动作:产生一个0到1之间的随机数,当这个随机数小于概率ε则选择一个随机动作,若大于概率ε选择最大Q值的动作,通过执行动作a后,观察奖赏值c和下一状态s′,在回放存储D中保存经验<s,a,c,s′>步骤3)训练神经网络:由于状态之间具有连续性,如果对于每一个状态都更新Q值,受状态分布影响,效果会不好。因此,从回放存储D中进行样本随机变换,每次采用随机数据进行梯度下降,并通过反向传播方法更新神经网络权重θ;步骤4)状态转化:当系统还未达到学习次数T时,令s=s′,转到步骤2,当达到学习次数T时终止学习过程。作为本专利技术的进一步改进,所述信道资源用于表示阅读器的可用信道数,所述回放存储(replaymemory)D用于存放所有经验值<s,a,c,s′>,当训练网络时,使用的是来自回放存储器的随机数据批次,而不是使用最近的变换。作为本专利技术的进一步改进,所述步骤1)状态s由i和A(i)确定,其中i表示当前阅读器,i∈{1,2,...,N},A(i)表示当前阅读器可用信道资源数,A(i)∈{1,2,...,R},即当前阅读器i可用的信道资源数A(i),动作a表示分配一个信道资源给阅读器,同时定义阅读器i的信道状态是R维向量U(i)={u1(i),u2(i),...,uR(i)},且作为本专利技术的进一步改进,所述步骤2)中,概率ε随时间变化从1降低到0.1,从而一开始系统采取完全随机的行动以最大化地探索状态空间,然后再稳定在一个固定的探索率上。作为本专利技术的进一步改进,所述步骤2)奖励可以表示为:c(s,a)=n1(s,a)c1+n2(s,a)c2+n3(s,a)c3+n4(s,a)c4,其中n1(s,a)表示占用信道k且在阅读器i的干扰范围内的阅读器数量,n2(s,a)表示不占用信道k但在阅读器i的干扰范围内的阅读器数量,n3(s,a)表示占用信道k但不在阅读器i的干扰范围内的阅读器数量,n4(s,a)表示不占用信道k且不在阅读器i的干扰范围内的阅读器数量,系数c1,c2,c3,c4通常满足c1>c2>c3>c4,c(s,a)越小,系统碰撞率越小,符合深度Q网络学习规则。作为本专利技术的进一步改进,对于给定变换<s,a,c,s′>,Q学习中的Q表更新规则需要被以下规则取代:a)为当前状态s进行一次前向传播,获得所有动作的预测的Q值;b)为下一个状态s′进行一次前向传播,计算整体网络输出的最大值max(Q(s′,a′)),其中a′表示状态s′对应的动作;c)为动作设置Q值目标c+γmax(Q(s′,a′)),对于其它所有动作,设置Q值目标为第a)步中原本返回的值,使这些输出的误差为0;d)利用Q学习算法为神经网络提供有标注的样本,把目标Q值作为标注,通过计算目标Q值与神经网络输出的误差,再将误差反向传回神经元,从而使用梯度下降的方法更新权重θ。本专利技术的有益效果表现为,针对RFID系统中存本文档来自技高网
...
基于深度Q网络的RFID多阅读器防碰撞算法

【技术保护点】
1.一种基于深度Q网络的RFID多阅读器防碰撞算法,约定阅读器个数为N,系统可用信道资源数为R,学习次数为T,概率ε,折扣系数为γ,权重为θ,其特征在于,该算法步骤还包括:步骤1)初始化:根据RFID网络中阅读器和信道资源的个数,初始化回放存储replay memory为D,使用随机权重θ初始化动作‑价值函数Q,观察初始状态s;步骤2)执行动作:产生一个0到1之间的随机数,当这个随机数小于概率ε则选择一个随机动作,若大于概率ε则选择最大Q值对应的动作,执行动作a后,观察奖赏值c和下一状态s′,在回放存储D中保存经验

【技术特征摘要】
1.一种基于深度Q网络的RFID多阅读器防碰撞算法,约定阅读器个数为N,系统可用信道资源数为R,学习次数为T,概率ε,折扣系数为γ,权重为θ,其特征在于,该算法步骤还包括:步骤1)初始化:根据RFID网络中阅读器和信道资源的个数,初始化回放存储replaymemory为D,使用随机权重θ初始化动作-价值函数Q,观察初始状态s;步骤2)执行动作:产生一个0到1之间的随机数,当这个随机数小于概率ε则选择一个随机动作,若大于概率ε则选择最大Q值对应的动作,执行动作a后,观察奖赏值c和下一状态s′,在回放存储D中保存经验<s,a,c,s′>;步骤3)训练神经网络:由于状态之间具有连续性,如果对于每一个状态都更新Q值,受状态分布影响,效果会不好;因此,从回放存储D中进行样本随机变换,每次采用随机数据进行梯度下降,并通过反向传播方法更新神经网络权重θ;步骤4)状态转化:当系统还未达到学习次数T时,令s=s′,转到步骤2,当达到学习次数T则终止学习过程。2.根据权利要求1所述的适用于基于深度Q网络的阅读器防碰撞算法,其特征在于,所述信道资源用于表示阅读器的可用信道数,所述回放存储(replaymemory)D用于存放所有经验值<s,a,c,s′>,当训练网络时,使用的是来自回放存储器的随机数据批次,而不是使用最近的变换。3.根据权利要求1所述的适用于基于深度Q网络的阅读器防碰撞算法,其特征在于,所述步骤1)状态s由i和A(i)确定,其中i表示当前阅读器,i∈{1,2,...,N},A(i)表示当前阅读器可用信道资源数,A(i)∈{1,2,...,R},即当前阅读器i可用的信道资源数A(i),动作a表示分配一个信道资源给阅读器,同时定义阅读器i的信道状态是R维向量U(i)={u1(...

【专利技术属性】
技术研发人员:郑嘉利袁源
申请(专利权)人:广西大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1