当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于R-TBF的RFID冗余数据清洗方法技术

技术编号:15639499 阅读:260 留言:0更新日期:2017-06-15 23:56
本发明专利技术公开了一种基于R‑TBF的RFID冗余数据清洗方法,首先初始化过滤器,包括用于保存数据时间属性的整数数组M、哈希函数、映射函数、Map集合P以及时间阈值τ和强度阈值α;然后对当前数据X进行冗余判断,按照{ID,TIME,RSSI}格式传输和清洗规则进行冗余清洗:最后处理完当前数据X后;本发明专利技术提供的基于R‑TBF的RFID冗余数据清洗方法,考虑了时间因素和强度因素两种限制条件对数据进行相应的清洗,通过一次时间戳清洗和二次强度值清洗,改善清洗效果,提高数据质量,最大程度还原数据真实性,为后续数据的有效利用提供有力保证。

【技术实现步骤摘要】
一种基于R-TBF的RFID冗余数据清洗策略
本专利技术涉及数据清洗
,特别是一种基于R-TBF的RFID冗余数据清洗策略。
技术介绍
射频识别技术以其非接触、非视距等特点在物流、供应链等领域有着广泛的应用,特别是随着现代计算机和智能仓储建设的发展,RFID技术的应用更加普遍。RFID数据是RFID应用的重要组成部分,RFID数据的质量对于RFID技术的应用有着重要的影响。而在实际RFID应用中,由于其非接触、非视距的特点,在读写器未靠近目标标签时,就已经产生了大量目标标签的数据,这些数据带有一定的冗余性;另外,由于实际应用中往往有多个读写器同时工作,在相近时间内针对同一目标标签也会产生大量冗余数据,这些冗余数据的产生在整个RFID应用过程中是无法避免的,而这些冗余数据的存在也对RFID应用的普及造成了限制。除此之外,在RFID应用中,RFID数据大都具有流动性的特点,这对其处理提出了更大的挑战,所以针对RFID冗余数据的清洗面临的主要问题就是对于大量的RFID数据流,如何在较短的时间和较小的空间对其进行实时清洗,这对清洗算法在执行时间和占用空间上提出了更高的要求。目前针对RFID冗余数据的清洗方法有很多,Alonso提出基于语句查询的可扩展数据流清洗模型ESP,但是它需要保存所有要处理的数据,不符合RFID数据流的动态性要求,还会占用大量内存空间;另外,布隆于1970年提出BloomFilter(以下简称BF),BF以其低内存占比和高效查询等特点,目前在数据清洗领域得到了广泛应用,Metwally使用BF检测冗余数据,由于BF无删除功能,数据量足够大时会导致其被填满而失效。另外,BloomFilter是以数据的有无来判定其是否冗余,对于实际应用中的大量数据,需要针对同一标签保存其有用数据信息而不只是一条数据信息,单个数据信息带有片面性和不确定性,因此传统的BloomFilter不符合实际应用需求。Chun-HeeLee等人首先提出了TBF(TimeBloomFilter)利用时间信息消除冗余数据,虽然解决了RFID数据在时间属性上的冗余问题,在一定程度上可以对数据进行清洗并且保留有效信息,但是RFID数据除了时间属性外还有强度属性,而强度属性在各RFID应用中也有重要作用,并且对于判定时间属性上冗余的数据在强度属性上并不一定冗余,所以基于TBF来对数据进行清洗,容易损失很多有效强度属性信息,对于RFID应用来说基于TBF的清洗效果较差,考虑因素不全面并且在一定程度上降低了数据的质量,影响到后续应用对RFID数据的有效利用。同样,专利申请号为CN201610212717.1中提出的基于DTBF的RFID冗余数据清洗方法及系统虽然可以解决数据流大小不确定情况的数据清洗问题,但是也未能考虑数据属性中强度因素对清洗效果的影响,因而虽然可以清洗数据但是由于考虑因素不足而使得清洗效果不佳。RFID数据清洗在实际应用场景中,由于读写器覆盖范围大,所以在移动RFID巡检车未到达标签正对位置时就已经能够读取到相应标签的数据信息,这类信息的典型特点是时间小,强度小,如果仅仅依靠时间对数据是否冗余进行判断,就会导致相同标签相近时间的有效强度信息被丢失,不能够真正反映数据本身的真实性,进而无法还原其真实位置所在。因此,需要一种基于R-TBF的RFID冗余数据清洗策略。
技术实现思路
本专利技术的目的是提出一种基于R-TBF的RFID冗余数据清洗策略;该清洗策略在原有清洗策略基础上,通过对时间和强度筛选规则的重新定义,在考虑时间的同时,考虑强度大小,以此来改善数据清洗效果,提高数据质量。本专利技术的目的是通过以下技术方案来实现的:本专利技术提供的基于R-TBF的RFID冗余数据清洗策略,包括以下步骤:步骤1:初始化过滤器,初始化内容包括:11)用于保存数据时间属性的整数数组M,大小为m;12)k个用于将数据标签信息映射到整数数组的哈希函数h1…hk;13)用于将整数数组下标值映射到Map集合键值的映射函数HK;14)Map集合P,用来保存数据强度属性,其大小跟随数据量大小变化;15)时间阈值τ和强度阈值α,分别确定数据的时间属性和强度属性是否冗余;时间阈值τ的取值范围为:300ms~600ms;强度阈值α的取值范围为:2dB~5dB;步骤2:对当前数据X进行冗余判断,所述当前数据X按照{ID,TIME,RSSI}格式传输并按照以下清洗规则进行冗余清洗:其中,ID表示货包标签号;TIME表示此标签号被读取时的时间戳;RSSI表示此标签被读取时的强度值;21)首先将当前数据X中的X.ID通过k个哈希函数映射到整数数组M的k个不同位置,判断k个位置是否都已被赋值,如果k个位置中至少有一个位置未被赋值,则说明数据X未被处理过,直接将X.TIME更新至此k个位置,并根据映射函数HK更新X.RSSI到指定位置:其中,j的取值为整数数组中被选中的k个位置的下标,根据二进制位权规则,算出X.HK,将其作为Map集合的键,将X.RSSI作为Map集合的对应值,对X的RSSI值进行保存;22)如果k个位置均被赋值,则说明X.ID相同的数据已被处理过,则需要对当前数据X进行冗余判断,冗余判断通过比较X.TIME和M[hi(X.ID)]以及X.RSSI和X.HK.RSSI的大小判定时间属性和强度属性的冗余;步骤3:处理完当前数据X后,重复步骤2,利用相同的清洗规则处理下一个数据。进一步,所述步骤1中的数据时间属性的整数数组M的大小m按照以下公式进行计算:其中,n为输入数据量大小,P表示k·n次映射后整数数组中某单元仍然为空的概率,k为哈希函数的个数。进一步,所述步骤1中的哈希函数h1…hk的个数k按照以下公式进行计算:k·n<m;其中,n为输入数据量的大小,m为整数数组的大小;k的计算公式为:其中,n为输入数据量的大小,m为整数数组的大小,P表示k·n次映射后整数数组中某单元仍然为空的概率。进一步,所述步骤1中的映射函数HK按照以下公式进行计算:其中,j表示通过哈希函数选中的整数数组的某个单元,表示被选中的整数数组单元下标根据其所在位置的权重进行二进制转十进制运算,k为哈希函数个数。进一步,所述步骤1中的Map集合P的大小跟随数据量大小变化。由于采用了上述技术方案,本专利技术具有如下的优点:本专利技术提供的基于R-TBF的RFID冗余数据清洗策略,考虑了时间因素和强度因素两种限制条件对数据进行相应的清洗,通过一次时间戳清洗和二次强度值清洗,改善清洗效果,提高数据质量,最大程度还原数据真实性,为后续数据的有效利用提供有力保证。本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。附图说明本专利技术的附图说明如下。图1为清洗过程示意图。图2为算法流程图。具体实施方式下面结合附图和实施例对本专利技术作进一步说明。实施例1如图所示,本实施例提供的基于R-TBF的RFID冗余数据清洗策略,解决了传统基于TBF的RFID数据清洗策略因约束条件不足而导致清洗效果不佳,误删有用数据的情况,进一步提高本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201611269752.html" title="一种基于R-TBF的RFID冗余数据清洗方法原文来自X技术">基于R-TBF的RFID冗余数据清洗方法</a>

【技术保护点】
一种基于R‑TBF的RFID冗余数据清洗策略,其特征在于:包括以下步骤:步骤1:初始化过滤器,初始化内容包括:11)用于保存数据时间属性的整数数组M,大小为m;12)k个用于将数据标签信息映射到整数数组的哈希函数h

【技术特征摘要】
1.一种基于R-TBF的RFID冗余数据清洗策略,其特征在于:包括以下步骤:步骤1:初始化过滤器,初始化内容包括:11)用于保存数据时间属性的整数数组M,大小为m;12)k个用于将数据标签信息映射到整数数组的哈希函数h1…hk;13)用于将整数数组下标值映射到Map集合键值的映射函数HK;14)Map集合P,用来保存数据强度属性,其大小跟随数据量大小变化;15)时间阈值τ和强度阈值α,分别确定数据的时间属性和强度属性是否冗余;时间阈值τ的取值范围为:300ms~600ms;强度阈值α的取值范围为:2dB~5dB;步骤2:对当前数据X进行冗余判断,所述当前数据X按照{ID,TIME,RSSI}格式传输并按照以下清洗规则进行冗余清洗:其中,ID表示货包标签号;TIME表示此标签号被读取时的时间戳;RSSI表示此标签被读取时的强度值;21)首先将当前数据X中的X.ID通过k个哈希函数映射到整数数组M的k个不同位置,判断k个位置是否都已被赋值,如果k个位置中至少有一个位置未被赋值,则说明数据X未被处理过,直接将X.TIME更新至此k个位置,并根据映射函数HK更新X.RSSI到指定位置:其中,j的取值为整数数组中被选中的k个位置的下标,根据二进制位权规则,算出X.HK,将其作为Map集合的键,将X.RSSI作为Map集合的对应值,对X的RSSI值进行保存;22)如果k个位置均被赋值,则说明X.ID相同的数据已被处理过,则需要对当前数据X进行冗...

【专利技术属性】
技术研发人员:孙棣华郑林江赵敏刘卫宁朱文霖
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1