The invention discloses a data cleaning method based on radio frequency identification technology, which includes: determining the data sequence of the distance between each card reader and the electronic tag by signal strength; determining the one-dimensional normal distribution function of the data sequence of each card reader and the two-dimensional normal distribution function of each group of card readers by the data sequence of the card reader; and confirming the first confidence according to the set. Determine the confidence interval of each one-dimensional normal distribution function; determine the confidence region of each two-dimensional normal distribution function according to the set second confidence degree; acquire the data sequence of each reader in real time, use the confidence interval of one-dimensional normal distribution function and the confidence region of two-dimensional normal distribution function to eliminate the data except the preset confidence degree in the data sequence, and adopt it according to the requirements. The interpolation method interpolates the location of the rejected data.
【技术实现步骤摘要】
一种基于射频识别技术的数据清洗方法
本专利技术涉及数据清洗
,特别是涉及一种基于射频识别技术的数据清洗方法。
技术介绍
近年来,随着信息化技术的迅猛发展,收集、存储、处理和分析的数据量越来越大,区别于传统的数据结构化特点,具有包括海量性、分布性、和异构性三个特点,其海量性主要是指数据规模的巨大并且增长速度持续增加;其分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析;其异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式,很难解决数据带来的问题,针对这三个特性,面向数据的集成和清洗变得尤为重要。数据清洗在运用到具体问题中需要具体分析,难于归纳出通用方法,其数学建模困难。同时数据中还包含不确定性数据,现阶段不确定性数据产生的原因比较多样化,主要体现在实时数据不准确、使用粗粒度数据集合、数据字段缺失。
技术实现思路
本专利技术的目的是提供一种基于射频识别技术的数据清洗方法,利用置信度非方法剔除数据,运用插值法插入新数据,提高数据的精确度。为实现上述目的,本专利技术提供了如下方案:一种基于射频识别技术的数据清洗方法,所述方法包括:在室内均匀设置三个读卡器;通过每个所述读卡器采集室内电子标签的信号强度;通过所述信号强度确定每个所述读卡器到电子标签的距离的数据序列;将每个所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到每个所述读卡器的所述数据序列的一维正态分布函数;将所述读卡器两个为一组分成三组,将每组所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到三个二维正态分布函数;根据设定的第一置信度确定每 ...
【技术保护点】
1.一种基于射频识别技术的数据清洗方法,其特征在于,所述方法包括:在室内均匀设置三个读卡器;通过每个所述读卡器采集室内电子标签的信号强度;通过所述信号强度确定每个所述读卡器到电子标签的距离的数据序列;将每个所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到每个所述读卡器的所述数据序列的一维正态分布函数;将所述读卡器两个为一组分成三组,将每组所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到三个二维正态分布函数;根据设定的第一置信度确定每个所述一维正态分布函数的置信区间;根据设定的第二置信度确定每个所述二维正态分布函数的置信区域;实时获取每个所述读卡器的所述数据序列,如果所述数据序列中的数据不在与所述读卡器对应的置信区间内则剔除;分别计算每组所述读卡器中两个所述数据序列的均值和方差,根据两个所述数据序列的均值和方差判断两个所述数据序列的数据是否在与两个所述数据序列对应的二维正态分布函数的置信区域内,如果两个所述数据序列的数据不在所述置信区域内则剔除;计算剔除数据个数占实时采集总数据个数的概率,如果所述概率大于设定概率则采用插值法对剔除数据的所在位置进行数据插补。
【技术特征摘要】
1.一种基于射频识别技术的数据清洗方法,其特征在于,所述方法包括:在室内均匀设置三个读卡器;通过每个所述读卡器采集室内电子标签的信号强度;通过所述信号强度确定每个所述读卡器到电子标签的距离的数据序列;将每个所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到每个所述读卡器的所述数据序列的一维正态分布函数;将所述读卡器两个为一组分成三组,将每组所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到三个二维正态分布函数;根据设定的第一置信度确定每个所述一维正态分布函数的置信区间;根据设定的第二置信度确定每个所述二维正态分布函数的置信区域;实时获取每个所述读卡器的所述数据序列,如果所述数据序列中的数据不在与所述读卡器对应的置信区间内则剔除;分别计算每组所述读卡器中两个所述数据序列的均值和方差,根据两个所述数据序列的均值和方差判断两个所述数据序列的数据是否在与两个所述数据序列对应的二维正态分布函数的置信区域内,如果两个所述数据序列的数据不在所述置信区域内则剔除;计算剔除数据个数占实时采集总数据个数的概率,如果所述概率大于设定概率则采用插值法对剔除数据的所在位置进行数据插补。2.根据权利要求1所...
【专利技术属性】
技术研发人员:权轶,付波,熊媛,兰琦,刘俊,张小锋,郭锦洋,毛嫚嫚,沈攀,
申请(专利权)人:湖北工业大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。