RFID数据清洗方法技术

技术编号:13925056 阅读:72 留言:0更新日期:2016-10-28 05:18
本发明专利技术披露一种RFID数据清洗方法,包括通过基于动态标签的清洗方法动态SMURF对原始数据流进行平滑过滤清洗;通过EPC过滤器滤掉硬件设备产生的标签ID不符合EPC编码规则的编码错误数据组;判断缓冲器中是否已经存在所述数据组,若不存在则存入缓冲器中,若存在则丢弃;对缓冲器设置一个固定时间段,为一个滑动窗口的大小;超过所述时间段规定的时间,则将缓冲器内的数据组输出。

【技术实现步骤摘要】

本专利技术涉及一种适用于物联网环境的RFID数据清洗方法
技术介绍
RFID(Radio Frequency Identification,无线射频识别技术)是一种自动识别的通信技术,通过检测、识别和监控带有电磁信号的物体,并读写相关数据,实现识别系统与特定目标之间无接触地进行信息传递,达到自动识别目标的目的。RFID无线射频识别技术具备远距离读取、高储存量等特性,广泛应用于物联网供应链中对象的跟踪与追溯等,应用前景备受瞩目。比如,通过使无线射频识别和无线传感器成为一体,让无线射频识别标签和其他设备间的通信成为可能。RFID无线射频识别技术不仅可以帮助一个企业大幅提高信息管理的效率,还可以进行企业间互联,销售企业与制造企业间更好地进行沟通,从而更加准确地接收控制需求信息,反馈信息,最终实现优化整个供应链。随着RFID技术应用范围的不断扩大,对业务数据的可靠性要求越来越高,为了达到满足上层应用需要的程度,数据清洗工作对上层应用来说至关重要,数据清洗工作的好坏直接影响着业务数据的正确性和完整性,所以对数据清洗工作的处理不能停留在简单的过滤、筛选层面。RFID数据流特点:流式,每个标签数据总是源源不断地大量产生,在某个时间段内连续被读写器集中捕获;批量,多个标签数据总是同时被某一个或多个阅读器批量捕获;具有语义性,标签数据代表某个观察时刻的被观察对象的位置信息和状态信息;具有不可靠性,RFID阅读器与电子标签的各种各样的交互方式决定了RFID产生的数据不可靠,这些错误数据种类特点各不相同,而且造成这些错误的外部原因(例如环境因素等)也各不相同,需要在特定条件下针对具体问题具体分析。针对不可靠性常见的错误类型:漏读(False Negative),无线射频信号极易受环境干扰,特别地,当大量标签突然进入阅读器读取的范围内,信号的碰撞、干扰等,造成阅读器对某些标签漏读,并且这种漏读现象十分普遍,阅读器并不能完全无误差地读取到它读写范围内的所有标签数据;多读(False Positive),阅读器意外捕获了其读写范围外的标签;冗余读,冗余读可分为时间荣冗余和空间冗余。一个标签长时间停留在一个阅读器内,则该阅读器就会不断地对标签进行读取,从而导致大量的冗余信息,称为时间冗余;一个空间区域被多个阅读器所覆盖,位于阅读器交叉区域的标签就会同时被多个阅读器读取,称为空间冗余。据统计,原始RFID数据的准确率仅为60%~70%,为了提高数据的可靠性、正确性与完整性,满足上层应用需求,RFID系统中需要自带清洗模块来处理海量的标签数据,尽可能使阅读器所读取的标签数据与原始数据相一致。RFID系统中错误数据类型一般为拒真、纳伪和数据冗余,数据清洗的基本步骤思想是通过分析数据错误产生的原因、过程和形式,并对其进行分类,对特定的错误使用特定的清洗策略实现优化数据质量最终满足上层应用的要求。通过对错误数据产生的过程反过来进行倒推分析,从源头开始对数据进行逐一提取与优化。最大化实现对数据的清洗,是得到的数据尽可能的满足上层应用。近年来,关于RFID数据清洗技术已经有很多的研究成果。在最初的数据清洗系统中,UCLA大学的Y.Bai提出使用时间滑动窗口技术来平滑过滤数据流的机制,用于清洗RFID原始标签数据流。R.Jeffrey等人针对RFID数据流特性,通过引入时间粒度和空间粒度的定义,介绍了一种基于管道结构的数据清洗模型ESP,也称为可扩展数据流清洗模型。ESP可以根据各类型错误数据的特点,清洗来自不同接收器的数据,但是时间粒度和空间粒度的准确设置是存在一定的困难的。H.Gonzalez等人提出基于动态Bayesian网络的RFID数据清洗算法DBN,通过获得数据清洗结果的准确率和需要付出的代价间的平衡来实现清洗代价最优化,具体体现为在保证清洗结果准确率的前提下利用最少的资源来清洗最多的原始标签数据。DBN利用了一个叫做隐模式的指标来决定标签的真实位置,隐模式的实际值是噪声值,然后通过观察历史数据来预测标签数据,计算出一个概率值作为衡量标签是否存在的标准。M.Garofalakis、S.R.Jeffery等人介绍了基于时间相关性的数据清洗策略,该算法基于概率模型,动态改变窗口大小,主要用来解决数据漏读的问题。这就是第一个定义的自适应平滑过滤的RFID数据清洗方法——“SMURF”。该方法将RFID数据流当做概率统计学中的随机事件,通过概率论的方法对漏读的数据进行填补。优点是可以根据标签阅读率的大小,自适应决定窗口尺寸,改善因为窗口大小选择不合理而产生的漏读和多读问题。SMURF算法对于静态标签数据的清洗有很好的准确率,但是对于动态标签数据,比如,当运动着的标签快速离开阅读器的读取范围时,会使阅读准确率突然降低,这时SMURF方法反而用大窗口平滑,这将会导致更多纳伪(多读)。同时,由于SMURF方法也是基于滑动窗口的,所以滑动窗口不能完全消除漏读和多读的缺点依然不可避免。
技术实现思路
本专利技术克服SMURF算法的不足,提出一种基于动态标签“动态SMURF”算法的RFID数据清洗方法,该方法的技术方案是,一种RFID数据清洗方法,包括以下步骤,步骤1、通过基于动态标签的清洗方法动态SMURF对原始数据流进行平滑过滤清洗;步骤2、通过EPC(Electronic Product Code,产品电子码)过滤器滤掉硬件设备产生的标签ID不符合EPC编码规则的编码错误数据组;步骤3、判断过滤后的数据组是否存入到了缓冲器中,若没有则存入缓冲器,已有则执行步骤4;步骤4、对缓冲器设置一个固定时间段[t1,t2],时长为一个滑动窗口的大小wi,即窗口内包含wi个阅读周期,设整个数据流的周期时长为t,则滑动窗口的大小的范围Wi=(t-wi,t);步骤5、超过所述时间段[t1,t2]规定的时长,则将缓冲器内的数据组输出至数据仓库。所述动态SMURF包括:设单个标签的速度为V,阅读器的时隙即阅读周期为T,阅读器的通信范围半径为R,则标签被读取次数为参数δ与读取次数成反比,故标签不被读取的概率为:两边同时取对数,得因故得到其中δ为阈值,δ∈(0,1);标签i的平均阅读率pi为在每个阅读周期标签被阅读到的概率,标签被读到的阅读周期的集合为Si。本专利技术针对原有SMURF算法的不足提出改进,动态地改变阈值δ的大小,提高了处理动态标签时结果的准确率,同时对数据流存在的时间冗余问题提出清洗框架,节约了空间成本。附图说明图1为滑动窗口的大小对数据平滑的影响示意图;图2为基于动态标签的RFID数据清洗方法实施例的流程图;图3为图2实施例的仿真数据生成模型图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,由于射频信号碰撞或外部环境的影响,原始数据无法得到理想环境下的实际数据,原始数据通过窗口平滑过滤,窗口设置过小不能保证数据完整出现漏读现象,设置过大虽然解决了漏读错误却无法检测标签离开阅读器这一事件的发生,不能保证标签数据的动态性引发多读错误。因此,在图2的实施例中,先通过“动态SMURF”对原始数据流进行平滑过滤清洗,再本文档来自技高网
...

【技术保护点】
一种RFID数据清洗方法,其特征在于,包括以下步骤,步骤1、通过基于动态标签的清洗方法动态SMURF对原始数据流进行平滑过滤清洗;步骤2、通过EPC过滤器滤掉硬件设备产生的标签ID不符合EPC编码规则的编码错误数据组;步骤3、判断过滤后的数据组是否在缓冲器中已经存在,若不存在则存入缓冲器,若存在则丢弃;步骤4、对缓冲器设置一个固定时间段[t1,t2],时长为一个滑动窗口的大小wi,即窗口内包含wi个阅读周期,设整个数据流的周期时长为t,则滑动窗口的大小的范围Wi=(t‑wi,t);步骤5、超过所述时间段[t1,t2]规定的时长,则将缓冲器内的数据组输出至数据仓库。

【技术特征摘要】
1.一种RFID数据清洗方法,其特征在于,包括以下步骤,步骤1、通过基于动态标签的清洗方法动态SMURF对原始数据流进行平滑过滤清洗;步骤2、通过EPC过滤器滤掉硬件设备产生的标签ID不符合EPC编码规则的编码错误数据组;步骤3、判断过滤后的数据组是否在缓冲器中已经存在,若不存在则存入缓冲器,若存在则丢弃;步骤4、对缓冲器设置一个固定时间段[t1,t2],时长为一个滑动窗口的大小wi,即窗口内包含wi个阅读周期,设整个数据流的周期时长为t,则滑动窗口的大小的范围Wi=...

【专利技术属性】
技术研发人员:徐鹤李薇李鹏王汝传朱枫何涛韩崇沈玮玮
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1