一种基于射频识别技术的数据清洗方法技术

技术编号:20916113 阅读:30 留言:0更新日期:2019-04-20 09:36
本发明专利技术公开了一种基于射频识别技术的数据清洗方法,所述方法包括:通过信号强度确定每个读卡器到电子标签的距离的数据序列;通过读卡器的数据序列确定每个读卡器的数据序列的一维正态分布函数和每组读卡器的二维正态分布函数;根据设定的第一置信度确定每个一维正态分布函数的置信区间;根据设定的第二置信度确定每个二维正态分布函数的置信区域;实时获取每个读卡器的数据序列,利用一维正态分布函数的置信区间和二维正态分布函数的置信区域,将数据序列中预设置信度之外的数据剔除,并根据要求采用插值法对剔除数据的所在位置进行数据插补。

A Data Cleaning Method Based on Radio Frequency Identification Technology

The invention discloses a data cleaning method based on radio frequency identification technology, which includes: determining the data sequence of the distance between each card reader and the electronic tag by signal strength; determining the one-dimensional normal distribution function of the data sequence of each card reader and the two-dimensional normal distribution function of each group of card readers by the data sequence of the card reader; and confirming the first confidence according to the set. Determine the confidence interval of each one-dimensional normal distribution function; determine the confidence region of each two-dimensional normal distribution function according to the set second confidence degree; acquire the data sequence of each reader in real time, use the confidence interval of one-dimensional normal distribution function and the confidence region of two-dimensional normal distribution function to eliminate the data except the preset confidence degree in the data sequence, and adopt it according to the requirements. The interpolation method interpolates the location of the rejected data.

【技术实现步骤摘要】
一种基于射频识别技术的数据清洗方法
本专利技术涉及数据清洗
,特别是涉及一种基于射频识别技术的数据清洗方法。
技术介绍
近年来,随着信息化技术的迅猛发展,收集、存储、处理和分析的数据量越来越大,区别于传统的数据结构化特点,具有包括海量性、分布性、和异构性三个特点,其海量性主要是指数据规模的巨大并且增长速度持续增加;其分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析;其异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式,很难解决数据带来的问题,针对这三个特性,面向数据的集成和清洗变得尤为重要。数据清洗在运用到具体问题中需要具体分析,难于归纳出通用方法,其数学建模困难。同时数据中还包含不确定性数据,现阶段不确定性数据产生的原因比较多样化,主要体现在实时数据不准确、使用粗粒度数据集合、数据字段缺失。
技术实现思路
本专利技术的目的是提供一种基于射频识别技术的数据清洗方法,利用置信度非方法剔除数据,运用插值法插入新数据,提高数据的精确度。为实现上述目的,本专利技术提供了如下方案:一种基于射频识别技术的数据清洗方法,所述方法包括:在室内均匀设置三个读卡器;通过每个所述读卡器采集室内电子标签的信号强度;通过所述信号强度确定每个所述读卡器到电子标签的距离的数据序列;将每个所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到每个所述读卡器的所述数据序列的一维正态分布函数;将所述读卡器两个为一组分成三组,将每组所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到三个二维正态分布函数;根据设定的第一置信度确定每个所述一维正态分布函数的置信区间;根据设定的第二置信度确定每个所述二维正态分布函数的置信区域;实时获取每个所述读卡器的所述数据序列,如果所述数据序列中的数据不在与所述读卡器对应的置信区间内则剔除;分别计算每组所述读卡器中两个所述数据序列的均值和方差,根据两个所述数据序列的均值和方差判断两个所述数据序列的数据是否在与两个所述数据序列对应的二维正态分布函数的置信区域内,如果两个所述数据序列的数据不在所述置信区域内则剔除;计算剔除数据个数占实时采集总数据个数的概率,如果所述概率大于设定概率则采用插值法对剔除数据的所在位置进行数据插补。可选的,所述第一置信度为95%,则所述第一置信度对应的所述置信区间为[-0.8289*σ+μ,0.8289*σ+μ],其中,σ表示所述数据序列的标准差,μ表示所述数据序列的均值。可选的,所述第二置信度为80%,则所述置信区域O为:其中,和分别表示每组中两个所述数据序列的方差,a和b分别表示每组中两个所述数据序列的均值。可选的,采用matlab进行反向拟合。可选的,所述电子标签的规格相同。可选的,所述读卡器为远距离读卡器。可选的,所述插值法为牛顿插值法。可选的,所述通过每个所述读卡器采集的室内电子标签的信号强度,具体包括,在设定的采样时间内,通过每个所述读卡器采集的室内电子标签的信号强度,所述采样时间为20分钟。根据本专利技术提供的
技术实现思路
,本专利技术公开了以下技术效果:本专利技术通过每个读卡器采集室内电子标签的信号强度,通过所述信号强度确定每个所述读卡器到电子标签的距离的数据序列,利用获取的数据序列作为样本数据并确定样本数据的的一维置信区间和二维置信区域,读卡器实时获得的数据序列通过置信区间和置信区域进行双重判断,将置信度之外的不准确数据剔除,并使用插值法进行数据补充,从而提高了实时数据的准确度,进而提高了整体数据的准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一种基于射频识别技术的数据清洗方法的流程示意图;图2为本专利技术实施例读卡器和电子标签分布示意图;图3为本专利技术实施例置信区域仿真示意图;图4为本专利技术实施例坐标系转换示意图;图5为本专利技术实施例转换坐标系后的置信区域示意图;图6为本专利技术实施例读卡器的定位原理图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的目的是提供一种基于射频识别技术的数据清洗方法,采用置信度的方法提出数据,并采用牛顿插值法,从而提高了数据的精确度。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1为本专利技术实施例一种基于射频识别技术的数据清洗方法的流程示意图,如图1所示,本专利技术提供的一种基于射频识别技术的数据清洗方法,具体包括:步骤101:在室内均匀设置三个读卡器;步骤102:通过每个所述读卡器采集室内电子标签的信号强度;步骤103:通过所述信号强度确定每个所述读卡器到电子标签的距离的数据序列;步骤104:将每个所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到每个所述读卡器的所述数据序列的一维正态分布函数;步骤105:将所述读卡器两个为一组分成三组,将每组所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到三个二维正态分布函数;步骤106:根据设定的第一置信度确定每个所述一维正态分布函数的置信区间;步骤107:根据设定的第二置信度确定每个所述二维正态分布函数的置信区域;步骤108:实时获取每个所述读卡器的所述数据序列,如果所述数据序列中的数据不在与所述读卡器对应的置信区间内则剔除;步骤109:分别计算每组所述读卡器中两个所述数据序列的均值和方差,根据两个所述数据序列的均值和方差判断两个所述数据序列的数据是否在与两个所述数据序列对应的二维正态分布函数的置信区域内,如果两个所述数据序列的数据不在所述置信区域内则剔除;步骤110:计算剔除数据个数占实时采集总数据个数的概率,如果所述概率大于设定概率则采用插值法对剔除数据的所在位置进行数据插补。其中,步骤101中,电子标签是专门用来对人员或物品进行定位的。无线广播标签ID信息,读卡器不仅可以接收到附近标签的ID信息,而且可以根据电子标签定期向外发送无线信号的场强计算出该标签距读卡器的距离。通过对多个读卡器接收数据的综合分析,可以得出该标签的具体位置,定位原理如图6所示。其中,步骤103中,距离转换公式为:D=10^((abs(RSSI)-A)/(10*n))公式中,D为信号强度转换后的距离,单位是cm;RSSI为信号强度,取绝对值,单位dbm;A为发射端和接收端也就是电子标签和读卡器相隔1米时的信号强度;n为环境衰减因子。注:由于所处环境不同,每台设备对应参数值都不一样,距离转换公式里的每项参数都应该根据实际实验(校准)获得;当不知道周围设备准确位置时,只能给A和n赋经验值。其中,步骤101-107为样本采集过程,具体包括:将室内平面XOY划分为多个网格从而得到Z个采样点,在Z个采样点上放置Z个相同规格的标签(假设各标签相互独立互不干扰),其本文档来自技高网
...

【技术保护点】
1.一种基于射频识别技术的数据清洗方法,其特征在于,所述方法包括:在室内均匀设置三个读卡器;通过每个所述读卡器采集室内电子标签的信号强度;通过所述信号强度确定每个所述读卡器到电子标签的距离的数据序列;将每个所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到每个所述读卡器的所述数据序列的一维正态分布函数;将所述读卡器两个为一组分成三组,将每组所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到三个二维正态分布函数;根据设定的第一置信度确定每个所述一维正态分布函数的置信区间;根据设定的第二置信度确定每个所述二维正态分布函数的置信区域;实时获取每个所述读卡器的所述数据序列,如果所述数据序列中的数据不在与所述读卡器对应的置信区间内则剔除;分别计算每组所述读卡器中两个所述数据序列的均值和方差,根据两个所述数据序列的均值和方差判断两个所述数据序列的数据是否在与两个所述数据序列对应的二维正态分布函数的置信区域内,如果两个所述数据序列的数据不在所述置信区域内则剔除;计算剔除数据个数占实时采集总数据个数的概率,如果所述概率大于设定概率则采用插值法对剔除数据的所在位置进行数据插补。

【技术特征摘要】
1.一种基于射频识别技术的数据清洗方法,其特征在于,所述方法包括:在室内均匀设置三个读卡器;通过每个所述读卡器采集室内电子标签的信号强度;通过所述信号强度确定每个所述读卡器到电子标签的距离的数据序列;将每个所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到每个所述读卡器的所述数据序列的一维正态分布函数;将所述读卡器两个为一组分成三组,将每组所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到三个二维正态分布函数;根据设定的第一置信度确定每个所述一维正态分布函数的置信区间;根据设定的第二置信度确定每个所述二维正态分布函数的置信区域;实时获取每个所述读卡器的所述数据序列,如果所述数据序列中的数据不在与所述读卡器对应的置信区间内则剔除;分别计算每组所述读卡器中两个所述数据序列的均值和方差,根据两个所述数据序列的均值和方差判断两个所述数据序列的数据是否在与两个所述数据序列对应的二维正态分布函数的置信区域内,如果两个所述数据序列的数据不在所述置信区域内则剔除;计算剔除数据个数占实时采集总数据个数的概率,如果所述概率大于设定概率则采用插值法对剔除数据的所在位置进行数据插补。2.根据权利要求1所...

【专利技术属性】
技术研发人员:权轶付波熊媛兰琦刘俊张小锋郭锦洋毛嫚嫚沈攀
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1