System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于智慧场景的大数据清洗方法技术_技高网
当前位置: 首页 > 专利查询>南通大学专利>正文

一种用于智慧场景的大数据清洗方法技术

技术编号:41207069 阅读:5 留言:0更新日期:2024-05-07 22:33
本发明专利技术提供了一种用于智慧场景的大数据清洗方法,属于数据处理技术领域。技术方案为:包括以下步骤:步骤S1:通过智慧场景中的相同传感器进行数据采集,形成多维时序数据;步骤S2:通过缺失数据点的分布信息对时序数据中受影响数据点的平均连接距离进行优化;步骤S3:设定离群因子阈值,完成数据清洗。本发明专利技术的有益效果为:本发明专利技术的通过对缺失数据的缺失模型进行分析,获取缺失数据的随机程度来对数据点的离群因子中连通距离的计算进行校正。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种用于智慧场景的大数据清洗方法


技术介绍

1、随着大数据方向技术的发展,智慧城市,智慧园区等智能化城市建设也随之出现。在这些智慧场景中,都需要通过不同的传感器进行数据采集,并通过云计算服务器的数据处理结果进行智慧场景的调控。在这些场景中对于传感器的数据采集都会以时序数据的形式进行数据计算,在通过传感器数据进行数据分析的过程中首先就需要对智慧场景中传感器采集到的数据进行数据清洗。

2、在智慧场景中传感器采集到的时序数据中,因为数据之间具有固定的时间间隔,所以可以通过基于连通性的局部异常因子cof进行数据点的异常检测,并根据设定异常因子阈值对智慧场景中传感器数据进行数据清洗。

3、在实际的智慧场景中,在传感器采集到的数据中会因为数据传输问题,电力问题或是其他导致传感器数据缺失的情况下。如果都通过单个传感器的时序数据进行近邻均值插值,在出现区域性的数据缺失时这种插值方式会出现较大的数据偏差。并且在对插值后的数据点进行异常检测的过程中,因为缺失数据点插值带来的偏差,会存在着离群因子不准确的技术问题。

4、在智慧场景中的同传感器数据的多维时序张量中,通过传感器时序数据中缺失数据点的分布信息获取缺失数据点的随机程度,从而在受到缺失数据点影响的cof离群因子计算的数据点的局部连接距离进行优化,消除缺失数据点的数据清洗过程中的负面影响。


技术实现思路

1、本专利技术的目的在于提供一种用于智慧场景的大数据清洗方法,在智慧场景中的数据清洗过程中,通过传感器之间存在的关系对缺失数据点在数据清洗过程中的影响进行评估,并消除缺失数据点带来的负面影响。

2、为了实现上述专利技术目的,本专利技术采用技术方案具体为:一种用于智慧场景的大数据清洗方法,包括以下步骤:

3、步骤s1:通过智慧场景中的相同传感器进行数据采集,形成多维时序数据;

4、步骤s2:通过缺失数据点的分布信息对时序数据中受影响数据点的平均连接距离进行优化;

5、步骤s3:设定离群因子阈值,完成数据清洗。

6、作为本专利技术提供的一种用于智慧场景的大数据清洗方法进一步优化方案,所述步骤s1中,在智慧场景中,如智慧社区,智慧交通,智慧园区等场景中的智能调控都需要基于各种传感器,如空气质量传感器,车辆速度传感器,行人传感器,温度传感器等,本专利技术所述的大数据清洗方法即为对于空间中一定范围内(智慧园区内,智慧社区内,智慧交通中一个道路内)的相同传感器的数据清洗。在这些相同的传感器中,数据的采集频率是相同的。

7、对于某一个类型的传感器,获取全部传感器采集的数据,并通过物联网关将数据通过互联网传输至云计算服务器中。本专利技术所述的数据处理即为在云计算服务器中进行的数据计算操作。

8、在云计算服务器中需要对传感器采集到的数据通过不同的调控模型进行实际智慧场景中不同的调控,在数据分析之前即通过本专利技术所述的方法进行数据清洗。

9、对于相同传感器采集到的传感器时序数据,以多维张量的形式进行记录,所述的多维张量为多维时序数据,其中第i个传感器的时序数据记录为ti,在数据记录的过程中同样记录传感器之间的位置关系,d(ti,tj)表示第i个传感器与第j个传感器之间的空间距离,在智慧场景中同种传感器中的两个传感器根据传感器之间的距离关系形成不同的相关性,距离近的传感器则在采集的数据中具有相关性,如,温度,空气颗粒物,行人等,至此,通过智慧场景中的相同传感器进行数据采集,形成多维时序数据。

10、作为本专利技术提供的一种用于智慧场景的大数据清洗方法进一步优化方案,所述步骤s2中,在获取到智慧场景中的传感器数据之后,需要对采集到的传感器数据中的缺失数据进行填充,并进行数据异常检测,将传感器中的异常数据进行优化,从而完成数据清洗。

11、在智慧场景中传感器的多维时序数据,其中存在着不同的数据缺失情况需要进行不同的插值方式,并在插值之后的数据点异常检测过程中通过数据点的影响程度对离群因子中的平均连接距离进行优化,从而获取到准确地异常检测结果。

12、具体包括如下步骤:

13、s21、通过多维数据空间缺失数据点的分布信息获取缺失数据点的分布随机程度;

14、s22、通过分布随机程度对缺失数据点的插值进行调整,并完成缺失数据插值;

15、s23、通过缺失数据点的影响程度对缺失数据点的cof离群因子计算过程中的连接距离进行优化。

16、作为本专利技术提供的一种用于智慧场景的大数据清洗方法进一步优化方案,所述步骤s3中,在获取到智慧场景中每个传感器时序数据点的离群因子之后,设定离群因子阈值β在0.8至1.5之间,将离群因子高于该阈值的数据点视为异常数据点,将这些异常数据点通过k距离邻域中的数值均值作为插值,完成数据清洗过程。

17、作为本专利技术提供的一种用于智慧场景的大数据清洗方法进一步优化方案,所述步骤s21中,在获取到单种类传感器数据形成的多维时序数据之后,首先通过缺失值查找确定传感器数据中的全部缺失值。

18、对于传感器时序数据中的缺失值,因为在后续的分析过程中需要通过完整的时序数据进行时序数据趋势变化信息的提取,所以需要通过多维时序数据中确实数值的近邻数据点通过均值插值的方式进行填充,或是通过近邻传感器的传感器时序数据进行综合插值。

19、在上述场景中,对于缺失数据点造成的影响程度,可以通过多维时序数据中缺失数据点形成的分布情况进行判断,当缺失数据点形成有规律的局部缺失,则说明该数据缺失是因为一些区域性的问题所导致的,那么这些规律的缺失数据点就可以更高程度地通过具有相似时序变化地近邻传感器时序数据进行均值插值。而对于缺失数据点无局部缺失的规律时,则可以通过近邻插值的方式进行缺失值填充。在上述的两种缺失值填充过程中,存在着对多维时序数据不同的插值方式。

20、随机缺失数据点随机程度计算范围判断:

21、对于集合数据点数量n(i)≤5的数据集合来说,可以将其认为是随机缺失的数据点集合。对于随机缺失的数据点集合的随机程度判断无法通过连通来确定范围。所以本专利技术中通过数据点集合的最近邻与反向最近邻来确定缺失数据点集合的随机程度判断范围。对于集合间的距离可以通过两个集合中最近的两个数据点进行距离的判断(本专利技术中的距离默认为二维数据空间中的欧式距离)。

22、随机缺失数据点的随机程度判断范围isk为集合i的k个最近邻与反向最近邻的交集,第i个缺失数据集合进行随机程度计算的判断范围,在对每一个缺失数据进行随机程度的衡量时,需要将集合数据点数量n(i)>5,与n(i)>5的缺失数据集合进行区分计算,对于n(i)>5的数据集合将其确定为非随机缺失模式,之后通过其随机程度计算方法确定随机程度,从而准确判断该集合的随机程度。

23、对于n(i)≤5的缺失数据集合,在上述过程中获取到了判断其随机程度的范围isk。此时对于缺失数据集合本文档来自技高网...

【技术保护点】

1.一种用于智慧场景的大数据清洗方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的用于智慧场景的大数据清洗方法,其特征在于,所述步骤S1中,对于相同传感器采集到的传感器时序数据,以多维张量的形式进行记录,所述的多维张量为多维时序数据,其中第i个传感器的时序数据记录为Ti,在数据记录的过程中同样记录传感器之间的位置关系,d(Ti,Tj)表示第i个传感器与第j个传感器之间的空间距离,在智慧场景中同种传感器中的两个传感器根据传感器之间的距离关系形成不同的相关性,距离近的传感器则在采集的数据中具有相关性。

3.根据权利要求1或2所述的用于智慧场景的大数据清洗方法,其特征在于,所述步骤S2包括如下步骤:

4.根据权利要求1所述的用于智慧场景的大数据清洗方法,其特征在于,所述步骤S3中,在获取到智慧场景中每个传感器时序数据点的离群因子之后,设定离群因子阈值β在0.8至1.5之间,将离群因子高于该阈值的数据点视为异常数据点,将这些异常数据点通过K距离邻域中的数值均值作为插值,完成数据清洗过程。

5.根据权利要求3所述的用于智慧场景的大数据清洗方法,其特征在于,所述步骤S21中,随机缺失数据点的随机程度判断范围ISk为集合i的k个最近邻与反向最近邻的交集,第i个缺失数据集合进行随机程度计算的判断范围,在对每一个缺失数据进行随机程度的衡量时,需要将集合数据点数量N(i)>5,与N(i)≤5的缺失数据集合进行区分计算,对于N(i)>5的数据集合将其确定为非随机缺失模式,之后通过其随机程度计算方法确定随机程度,从而判断该集合的随机程度;

6.根据权利要求3所述的用于智慧场景的大数据清洗方法,其特征在于,所述步骤S22中,在获取到缺失数据点的分布随机程度之后,通过数据点的分布随机程度来进行缺失数据点的插值计算,对于第i个传感器的第j个缺失数据点Tij,通过其对应的随机程度ξij进行插值计算的衡量:

7.根据权利要求3所述的用于智慧场景的大数据清洗方法,其特征在于,所述步骤S23中,在完成数据插值之后,通过对时序数据中的每个数据点进行COF离群因子的计算,在连通距离计算的过程中如果计算到补全后的缺失数据点,根据该缺失数据点的随机程度对该缺失数据点的距离根据随机程度进行校正,受到第i个缺失数据点影响的时序数据中的第m个数据点的平均链接距离ac-dist(m)计算方式如下:

...

【技术特征摘要】

1.一种用于智慧场景的大数据清洗方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的用于智慧场景的大数据清洗方法,其特征在于,所述步骤s1中,对于相同传感器采集到的传感器时序数据,以多维张量的形式进行记录,所述的多维张量为多维时序数据,其中第i个传感器的时序数据记录为ti,在数据记录的过程中同样记录传感器之间的位置关系,d(ti,tj)表示第i个传感器与第j个传感器之间的空间距离,在智慧场景中同种传感器中的两个传感器根据传感器之间的距离关系形成不同的相关性,距离近的传感器则在采集的数据中具有相关性。

3.根据权利要求1或2所述的用于智慧场景的大数据清洗方法,其特征在于,所述步骤s2包括如下步骤:

4.根据权利要求1所述的用于智慧场景的大数据清洗方法,其特征在于,所述步骤s3中,在获取到智慧场景中每个传感器时序数据点的离群因子之后,设定离群因子阈值β在0.8至1.5之间,将离群因子高于该阈值的数据点视为异常数据点,将这些异常数据点通过k距离邻域中的数值均值作为插值,完成数据清洗过程。

5.根据权利要求3所述的用于智慧场景的大数据清洗方法,其特征在于,所述步骤s21...

【专利技术属性】
技术研发人员:陈晓勇徐剑刘维华
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1