一种数据采集中问题数据的清理方法技术

技术编号:33629485 阅读:54 留言:0更新日期:2022-06-02 01:30
本发明专利技术提出了一种数据采集中问题数据的清理方法,包括以下步骤:根据数据的采集时间判断时效性,将失去时效性的数据抛弃;将本次采集的A数据和上次采集的B数据进行比较,若超过预设误差范围,则A数据是需要过滤数据,A数据不入库,并将其记录到redis历史数据中;将再采集到C数据和A数据比较,若超过预设误差范围,则需要和B数据比较,判断C数据和B数据的误差范围是否在预设误差范围;若超过,则C数据是问题数据,需要过滤,redis的历史数据更新为C数据,若在预设误差范围内,则认为是正常的跳变,C数据入库,同时将redis中的A数据更新为C数据,历史B数据被清理。该方法能够对问题数据进行过滤筛选,保证正常跳变的数据能被采集。保证正常跳变的数据能被采集。保证正常跳变的数据能被采集。

【技术实现步骤摘要】
一种数据采集中问题数据的清理方法


[0001]本专利技术涉及互联网数据采集的
,特别是一种数据采集中问题数据的清理方法。

技术介绍

[0002]工业互联网数据采集的过程中,可能存在跳变(包括正常跳变和异常跳变的数据)或者延迟采集的数据。这部分数据对整理的数据分析可能存在误导性或失去时效性,对应用端应用存在不友好的展示效果,因此需要判断采集的数据是否为跳变数据、延迟采集的数据,并且需要大批量数据筛选、查询,现提出一种数据采集中问题数据的清理方法。

技术实现思路

[0003]本专利技术的目的就是解决现有技术中的问题,提出一种数据采集中问题数据的清理方法,可以对问题数据进行过滤筛选,方便快速查询,保证正常跳变的数据能被采集。
[0004]为实现上述目的,本专利技术提出了一种数据采集中问题数据的清理方法,包括以下步骤:
[0005]S1.通过kafka监听采集,获取数据源;
[0006]S2.根据数据的采集时间判断其是否为失去时效性的数据,若该数据为失去时效性的数据则抛弃,否则进入步骤S3;
[0007]S3.通过redis存储上次采集的B数据,并读取上次采集的B数据;
[0008]S4.将本次采集的A数据和上次采集的B数据进行比较,如果超过预设误差范围,则过滤A数据,此时A数据不入库,同时将A数据记录到redis的历史数据中,然后进入步骤S5;如果在预设误差范围,则A数据入库,同时存入redis,替换redis中的B数据;
[0009]S5.将再次采集到的C数据和A数据比较,如果超过预设误差范围,则进入步骤S6;若在预设误差范围内,则A数据入库同时存入redis,替换redis中的B数据;
[0010]S6.将C数据和B数据比较,判断C数据和B数据误差范围是否在预设误差范围,如果超过预设误差范围,则认为C数据是问题数据,需要过滤,同时redis的历史数据更新为C数据;如果C数据和B数据的误差在预设误差范围内,则认为C数据是正常的跳变,此时数据C数据入库,同时将redis中的A数据更新为C数据,记录在redis的历史数据中的B数据被清理。
[0011]作为优选,所述预设误差范围为10%。
[0012]作为优选,步骤S2中,若数据源的采集时间为三天前,则判断该数据为失去时效性数据。
[0013]本专利技术的有益效果:本专利技术能够区分跳变数据、延迟采集的数据,保证跳变的数据(脏数据/异常跳变数据)不会入库,同时保证正常跳变的数据能被采集。
[0014]本专利技术的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
[0015]图1是本专利技术一种数据采集中问题数据的清理方法的流程图。
【具体实施方式】
[0016]参阅图1,本专利技术一种数据采集中问题数据的清理方法,包括以下步骤:
[0017]S1.通过kafka监听采集,获取数据源;
[0018]S2.根据数据的采集时间判断其是否为失去时效性的数据,若数据源的采集时间的为三天前,则判断该数据为失去时效性数据,并抛弃该数据,否则进入步骤S3;
[0019]S3.通过redis存储上次采集的B数据,并读取上次采集的B数据,方便快速查询,可以比较是否为突变数据;
[0020]S4.将本次采集的A数据和上次采集的B数据进行比较,如果超过预设误差范围(在本实施例只预设误差范围可设定为10%),则过滤A数据,此时A数据不入库,同时将A数据记录到redis的历史数据中,然后进入步骤S5;如果在预设误差范围,则A数据入库,同时存入redis,替换redis中的B数据;
[0021]S5.将再次采集到的C数据和A数据比较,如果超过预设误差范围,则进入步骤S6;若在预设误差范围内,则A数据入库同时存入redis,替换redis中的B数据,
[0022]S6.将C数据和B数据比较,判断C数据和B数据误差范围是否在预设误差范围,如果超过预设误差范围,则认为C数据是问题数据,需要过滤,同时redis的历史数据更新为C数据;如果C数据和B数据的误差在预设误差范围内,则认为C数据是正常的跳变,此时数据C数据入库,同时将redis中的A数据更新为C数据,记录在redis的历史数据中的B数据被清理。
[0023]上述实施例是对本专利技术的说明,不是对本专利技术的限定,任何对本专利技术简单变换后的方案均属于本专利技术的保护范围。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据采集中问题数据的清理方法,其特征在于:包括以下步骤:S1.通过kafka监听采集,获取数据源;S2.根据数据的采集时间判断其是否为失去时效性的数据,若该数据为失去时效性的数据则抛弃,否则进入步骤S3;S3.通过redis存储上次采集的B数据,并读取上次采集的B数据;S4.将本次采集的A数据和上次采集的B数据进行比较,如果超过预设误差范围,则过滤A数据,此时A数据不入库,同时将A数据记录到redis的历史数据中,然后进入步骤S5;如果在预设误差范围,则A数据入库,同时存入redis,替换redis中的B数据;S5.将再次采集到的C数据和A数据比较,如果超过预设误差范围,则进入步骤S6;若在预设误差范围内,则A数据入...

【专利技术属性】
技术研发人员:徐华增余福荣
申请(专利权)人:杭州玖欣物联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1