一种物联网网关数据纠错方法技术

技术编号:34355108 阅读:34 留言:0更新日期:2022-07-31 06:26
本发明专利技术涉及一种物联网网关数据纠错方法,属于大数据分析技术领域,该方法步骤包括:获取网关样本数据;将样本数据按照最优长度数值划分为多个等长度的最优时间序列单元;计算出每个最优时间序列单元的自相关性和每个最优时间序列单元的正常程度;根据每个最优时间序列单元的自相关性和正常程度,确定每个最优时间序列单元的关注度;利用每个最优时间序列单元的关注度训练单类支持向量机算法分类器,利用已训练完成的分类器对物联网网关数据进行纠错。本发明专利技术根据每个最优时间序列单元的关注度控制训练过程中不同最优时间序列单元对单类支持向量机算法分类器的影响,提高分类器的准确性。准确性。准确性。

A data error correction method for Internet of things gateway

【技术实现步骤摘要】
一种物联网网关数据纠错方法


[0001]本专利技术属于大数据分析
,具体涉及一种物联网网关数据纠错方法。

技术介绍

[0002]随着物联网在实际生活与生产中应用的扩展,其以数据为中心的特点日益凸显。物联网能否得以广泛应用在一定程度上取决于网关数据中有用信息的提取,即对网关数据的挖掘,而数据质量直接决定有用信息的提取效率,决定最终物联网决策的正确性,从而影响应用场景的功能实现与用户体验。为了能够高效的提取网关数据中的有用信息,需要提高数据的质量。
[0003]在物联网场景中,由于传感器性能不稳定、数据传输网络故障、人为或自然环境带来的干扰和破坏等因素,都可能导致异常数据的产生,使得数据质量急剧下降,因此识别物联网网关数据中的异常数据尤为重要。
[0004]单类支持向量机算法是一种检测异常数据的算法,只需要正常数据就可建立数据检测分类器的单分类算法。但是在训练分类器时,样本数据中可能属于异常数据的样本会影响分类器学习正常数据的特征,导致分类器检测异常数据的准确性较低。

技术实现思路

[0005]本专利技术提供一种物联网网关数据纠错方法,旨在解决目前在训练单类支持向量机算法分类器时,样本数据中可能属于异常数据的样本会影响分类器学习正常数据的特征,导致分类器检测异常数据的准确性较低的问题。
[0006]本专利技术的一种物联网网关数据纠错方法采用如下技术方案:该方法包括:获取网关单一类型样本数据;将所述样本数据按照预设时间长度范围内的任一长度数值进行划分得到多个等长度的时间序列单元,由多个等长度的时间序列单元组成该长度数值所对应的时间序列数据;获取预设时间长度范围内每个长度数值所对应的时间序列数据,将所述每个长度数值所对应的时间序列数据进行拟合并根据拟合结果确定最优长度数值,根据所述最优长度数值将所述样本数据划分为多个等长度的最优时间序列单元;计算每个所述最优时间序列单元的自相关性;将获得的所有所述最优时间序列单元转换到多维空间内,该多维空间的维度等于所述最优长度数值;以每个所述最优时间序列单元为中心以根据所述样本数据确定的数值为半径,确定每个所述最优时间序列单元在所述多维空间内的相邻数据集;根据每个所述最优时间序列单元和每个所述最优时间序列单元对应的所述相邻数据集,确定每个所述最优时间序列单元的正常程度;
根据每个所述最优时间序列单元的自相关性和每个所述最优时间序列单元的正常程度,确定每个所述最优时间序列单元的关注度;利用每个所述最优时间序列单元的关注度训练单类支持向量机算法分类器,利用已训练完成的所述分类器对物联网网关数据进行纠错。
[0007]进一步地,所述将所述每个长度数值所对应的时间序列数据进行拟合并根据拟合结果确定最优长度数值,包括:对所述每个长度数值所对应的时间序列数据进行拟合得到每个长度数值所对应的拟合结果;当任一长度数值所对应的拟合结果大于由该长度数值确定的阈值时将该长度数值所对应的拟合结果进行标记得到标记后拟合结果;对所述每个长度数值所对应的拟合结果进行判断获得全部所述标记后拟合结果,在全部所述标记后拟合结果中选取标记后拟合结果最大值;将所述标记后拟合结果最大值所对应的所述长度数值作为最优长度数值。
[0008]进一步地,所述计算每个所述最优时间序列单元的自相关性,包括:利用最小二乘法分别对每个所述最优时间序列单元内包含的所述样本数据进行拟合,得到每个所述最优时间序列单元的自相关性;每个所述最优时间序列单元的自相关性计算公式如下式所示:其中,表示第个最优时间序列单元的自相关性;表示第个最优时间序列单元内所述样本数据的总数;表示第个最优时间序列单元内第个样本数据的真实值;表示根据最小二乘法拟合的线性公式得到的第个最优时间序列单元内第个样本数据的预测值。
[0009]进一步地,所述以每个所述最优时间序列单元为中心以根据所述样本数据确定的数值为半径,确定每个所述最优时间序列单元在所述多维空间内的相邻数据集,包括:将获得的所有所述最优时间序列单元转换到所述多维空间内得到多个多维坐标点;选取任一所述最优时间序列单元记作第一最优时间序列单元;选取所述样本数据中样本数据最大值和样本数据最小值,计算所述样本数据最大值和所述样本数据最小值的差值;以所述第一最优时间序列单元为中心以所述差值为半径在所述多维空间内建立第一多维空间几何体;将所述第一多维空间几何体内包含的全部所述多维坐标点,作为所述第一最优时间序列单元在所述多维空间内的相邻数据集,同时计算出该相邻数据集的密度和密度中心;按照任一所述最优时间序列单元在所述多维空间内的相邻数据集的确定方法,确定每个所述最优时间序列单元在所述多维空间内的相邻数据集,同时计算出每个所述相邻数据集的密度和密度中心。
[0010]进一步地,所述根据每个所述最优时间序列单元和每个所述最优时间序列单元对应的所述相邻数据集,确定每个所述最优时间序列单元的正常程度,包括:计算出每个所述最优时间序列单元和每个所述最优时间序列单元对应的所述相邻数据集的密度中心之间的距离;根据每个所述距离和每个所述距离对应的所述相邻数据集的密度,确定每个所述最优时间序列单元的正常程度。
[0011]进一步地,每个所述最优时间序列单元的正常程度的计算公式如下式所示:其中,表示第个最优时间序列单元的正常程度;表示第个最优时间序列单元内所述样本数据的总数同时也是所述多维空间的维度;表示第个最优时间序列单元的第维数据;表示第个最优时间序列单元的相邻数据集的密度中心的第维数据;表示第个最优时间序列单元与对应的相邻数据集的密度中心之间的距离;表示第个最优时间序列单元的相邻数据集中第个数据的第维数据;表示第个最优时间序列单元的相邻数据集中包含数据的总个数;表示第个最优时间序列单元的相邻数据集的密度。
[0012]进一步地,每个所述最优时间序列单元的关注度的计算公式如下式所示:其中,表示第个最优时间序列单元的关注度;表示第个最优时间序列单元的正常程度;表示第个最优时间序列单元的自相关性;其中,为判断函数,该判断函数的具体规则如下:当时,=,当时,=。
[0013]进一步地,所述利用每个所述最优时间序列单元的关注度训练单类支持向量机算法分类器,包括:将每个所述最优时间序列单元的关注度引入OCSVM算法的优化目标函数中,得到属于单类支持向量机算法分类器的决策函数;利用所述决策函数训练单类支持向量机算法分类器。
[0014]本专利技术的有益效果是:单类支持向量机OCSVM是一种只需要正常数据就可构建异常数据分类器的单分类算法,但是在训练分类器时,样本数据中可能属于异常数据的样本影响分类器学习正常数
据的特征,导致分类器检测异常数据的准确性较低。如果降低异常样本对分类器的影响,则分类器能够更好的学习正常数据的特征,分类器检测异常数据的准确性增加。
[0015]对于采用异构式部署策略的小型物联网应用场景,物联网网关数据具有以下特征:1)网关数据是紧密相连的,具有一定的时间相关性,且在一定时间内保持相对稳定,不会发生急剧变化,且相邻网关数据之间的关系比较大。2)物联本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种物联网网关数据纠错方法,其特征在于,该方法包括:获取网关单一类型样本数据;将所述样本数据按照预设时间长度范围内的任一长度数值进行划分得到多个等长度的时间序列单元,由多个等长度的时间序列单元组成该长度数值所对应的时间序列数据;获取预设时间长度范围内每个长度数值所对应的时间序列数据,将所述每个长度数值所对应的时间序列数据进行拟合并根据拟合结果确定最优长度数值,根据所述最优长度数值将所述样本数据划分为多个等长度的最优时间序列单元;计算每个所述最优时间序列单元的自相关性;将获得的所有所述最优时间序列单元转换到多维空间内,该多维空间的维度等于所述最优长度数值;以每个所述最优时间序列单元为中心以根据所述样本数据确定的数值为半径,确定每个所述最优时间序列单元在所述多维空间内的相邻数据集;根据每个所述最优时间序列单元和每个所述最优时间序列单元对应的所述相邻数据集,确定每个所述最优时间序列单元的正常程度;根据每个所述最优时间序列单元的自相关性和每个所述最优时间序列单元的正常程度,确定每个所述最优时间序列单元的关注度;利用每个所述最优时间序列单元的关注度训练单类支持向量机算法分类器,利用已训练完成的所述分类器对物联网网关数据进行纠错。2.根据权利要求1所述的一种物联网网关数据纠错方法,其特征在于,所述将所述每个长度数值所对应的时间序列数据进行拟合并根据拟合结果确定最优长度数值,包括:对所述每个长度数值所对应的时间序列数据进行拟合得到每个长度数值所对应的拟合结果;当任一长度数值所对应的拟合结果大于由该长度数值确定的阈值时将该长度数值所对应的拟合结果进行标记得到标记后拟合结果;对所述每个长度数值所对应的拟合结果进行判断获得全部所述标记后拟合结果,在全部所述标记后拟合结果中选取标记后拟合结果最大值;将所述标记后拟合结果最大值所对应的所述长度数值作为最优长度数值。3.根据权利要求1所述的一种物联网网关数据纠错方法,其特征在于,所述计算每个所述最优时间序列单元的自相关性,包括:利用最小二乘法分别对每个所述最优时间序列单元内包含的所述样本数据进行拟合,得到每个所述最优时间序列单元的自相关性;每个所述最优时间序列单元的自相关性计算公式如下式所示:其中,表示第个最优时间序列单元的自相关性;表示第个最优时间序列单元内所述样本数据的总数;表示第个最优时间序列单元内第个样本数据的真实值;表示根据最小二乘法拟合的线性公式得到的第个最优时间序列单元内第个样本数据的预测值。
4.根据权利要求1所述的一种物联网网关数据纠错方法,其特征在于,所述以每个所述最优时间序列单元为中心以根据所述样本数据确定的数值为半径,确定每个所述最优时间...

【专利技术属性】
技术研发人员:蔡黔江严可达许大为侯金彪占浩刘强涂杰
申请(专利权)人:光谷技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1