一种基于增量分析的物联网数据处理方法技术

技术编号:39823974 阅读:36 留言:1更新日期:2023-12-22 19:44
本发明专利技术涉及电子数据处理技术领域,具体涉及一种基于增量分析的物联网数据处理方法

【技术实现步骤摘要】
一种基于增量分析的物联网数据处理方法


[0001]本专利技术涉及电子数据处理
,具体涉及一种基于增量分析的物联网数据处理方法


技术介绍

[0002]随着物联网技术以及各种物联设备的发展,物联网技术可用于任何需要监控

连接

互动的物体或者过程中,以采集各种需要的数据,但是在采集数据的过程中,会产生大量的海量数据,而对采集到的大量数据中的噪声数据进行清洗,以达到数据有效利用的目的,因此对采集到的大量数据中的噪声数据进行准确清洗成为了物联网信息处理的重点


技术实现思路

[0003]为了解决上述问题,本专利技术提供一种基于增量分析的物联网数据处理方法,所采用的技术方案具体如下:本专利技术实施例提供了一种基于增量分析的物联网数据处理方法包括以下步骤:获取物联网传感器对应的历史数据点集以及物联网传感器在当前时间段采集到的新增数据点集;对所述历史数据点集中的各历史数据点进行聚类,得到各初始聚类簇;根据所述各初始聚类簇对应的聚类中心点以及所述当前时间段采集到的新增数据点集中的各新增数据点,得到当前时间段采集到的新增数据点集中的各新增数据点对应的第一影响因子;根据所述第一影响因子,对第一综合数据点集中的各数据点进行聚类,得到各第一更新簇;所述第一综合数据点集包括历史数据点集和当前时间段采集到的新增数据点集;获取下一时间段采集到的新增数据点集,根据所述各第一更新簇对应的簇类中心点,得到所述下一时间段采集到的新增数据点集中的噪声数据点,对所述噪声数据点进行清洗

[0004]优选的,得到当前时间段采集到的新增数据点集中的各新增数据点对应的第一影响因子的方法,包括:根据所述各初始聚类簇中的历史数据点的数量,得到各初始聚类簇中的各初始异常簇和各初始正常簇;对于当前时间段采集到的新增数据点集中的任一新增数据点:将该新增数据点与所述各初始正常簇对应的簇类中心点之间的最小欧式距离对应的初始正常簇的簇类中心点记为该新增数据点对应的最近正常簇中心点;将该新增数据点与所述各初始异常簇对应的簇类中心点之间的最小欧式距离对应的初始异常簇的簇类中心点记为该新增数据点对应的最近异常簇中心点;将以该新增数据点为起点,以该新增数据点对应的最近正常簇中心点为终点构建
的向量记为第一向量;将以该新增数据点为起点,以该新增数据点对应的最近异常簇中心点为终点构建的向量记为第二向量;根据所述第一向量和第二向量之间的夹角

所述第一向量和第二向量之间夹角的余弦值

所述该新增数据点与其对应的最近正常簇中心点之间的欧式距离以及该新增数据点与其对应的最近异常簇中心点之间的欧式距离,得到该新增数据点对应的第一影响因子

[0005]优选的,得到各初始聚类簇中的各初始异常簇和各初始正常簇的方法,包括:按照所述初始聚类簇中历史数据点数量由高到低的顺序对各初始聚类簇进行排序,得到初始聚类簇序列;判断所述初始聚类簇序列中的第一个初始聚类簇中的历史数据点数量与所述历史数据点集中的历史数据点总数量的比值是否大于等于判断阈值,若是,则将所述第一个初始聚类簇记为初始正常簇,将除所述第一个初始聚类簇之外的其它初始聚类簇记为初始异常簇;否则,则继续判断所述初始聚类簇序列中的第一个初始聚类簇中的历史数据点数量与第二个初始聚类簇中的历史数据点数量累加后的值与所述历史数据点集中的历史数据点总数量的比值是否大于等于判断阈值,若是,则将所述第一个初始聚类簇和第二个初始聚类簇记为初始正常簇,将除所述第一个初始聚类簇和第二个初始聚类簇之外的其它初始聚类簇记为初始异常簇;否则,则继续判断所述初始聚类簇序列中的第一个初始聚类簇中的历史数据点数量

第二个初始聚类簇中的历史数据点数量以及第三个初始聚类簇中的历史数据点数量累加后的值与所述历史数据点集中的历史数据点总数量的比值是否大于等于判断阈值,以此类推,得到各初始聚类簇中的各初始异常簇和各初始正常簇

[0006]优选的,根据如下公式计算该新增数据点对应的第一影响因子:其中,为该新增数据点对应的第一影响因子,为第一向量和第二向量之间的夹角,为第一向量和第二向量之间夹角的余弦值,为该新增数据点与其对应的最近正常簇中心点之间的欧式距离,为该新增数据点与其对应的最近异常簇中心点之间的欧式距离

[0007]优选的,根据所述第一影响因子,对第一综合数据点集中的各数据点进行聚类,得到各第一更新簇的方法,包括:对于第一综合数据点集中的第
i
个数据点:若判断该数据点不属于所述当前时间段采集到的新增数据点集,则将该数据点对应的第一影响因子的值记为0;若判断该数据点属于所述当前时间段采集到的新增数据点集,则将该数据点对应的所述新增数据点的第一影响因子记为该数据点对应的第一影响因子;根据所述第一综合数据点集中各数据点对应的第一影响因子以及所述第一综合数据点集中的各数据点与所述第一综合数据点集中除对应数据点之外的其它的数据点之
间差值绝对值的平方,得到所述第一综合数据点集中各数据点与所述第一综合数据点集中除对应数据点之外的其它的数据点之间的目标距离;根据所述目标距离,对所述第一综合数据点集中的各数据点进行聚类,得到各第一更新簇

[0008]优选的,根据如下公式计算所述第一综合数据点集中各数据点与所述第一综合数据点集中除对应数据点之外的其它的数据点之间的目标距离:其中,为所述第一综合数据点集中的第
i
个数据点与所述第一综合数据点集中除所述第
i
个数据点之外的其它的数据点中的第
j
个数据点之间的目标距离,为第一综合数据点集中的第
i
个数据点对应的第一影响因子,为第一综合数据点集中的第
i
个数据点的值,为所述第一综合数据点集中除所述第
i
个数据点之外的其它的数据点中的第
j
个数据点的值

[0009]优选的,得到所述下一时间段采集到的新增数据点集中的噪声数据点,对所述噪声数据点进行清洗的方法,包括:根据所述各第一更新簇中的数据点的数量,得到各第一更新簇中的各第一更新正常簇和各第一更新异常簇;对于所述下一时间段采集到的新增数据点集中的任一新增数据点:对计算得到的该新增数据点与各第一更新正常簇对应的簇类中心点之间的欧氏距离进行归一化处理;将所述归一化处理后的该新增数据点与各第一更新正常簇对应的簇类中心点之间的欧氏距离,记为该新增数据点与各第一更新正常簇对应的簇类中心点之间的第一欧式距离;将最小第一欧式距离记为该新增数据点对应的异常程度值;判断所述下一时间段采集到的新增数据点集中的各新增数据点的异常程度值是否大于异常程度阈值,若是,则判定对应的新增数据点为噪声数据点,并对噪声数据点进行清洗,否则,则判定对应的新增数据点为正常数据点

[0010]优选的,根据所述各第一更新簇对应的簇类中心点,得到所述下一时间段采集到的新增数据点集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于增量分析的物联网数据处理方法,其特征在于,该方法包括如下步骤:获取物联网传感器对应的历史数据点集以及物联网传感器在当前时间段采集到的新增数据点集;对所述历史数据点集中的各历史数据点进行聚类,得到各初始聚类簇;根据所述各初始聚类簇对应的聚类中心点以及所述当前时间段采集到的新增数据点集中的各新增数据点,得到当前时间段采集到的新增数据点集中的各新增数据点对应的第一影响因子;根据所述第一影响因子,对第一综合数据点集中的各数据点进行聚类,得到各第一更新簇;所述第一综合数据点集包括历史数据点集和当前时间段采集到的新增数据点集;获取下一时间段采集到的新增数据点集,根据所述各第一更新簇对应的簇类中心点,得到所述下一时间段采集到的新增数据点集中的噪声数据点,对所述噪声数据点进行清洗
。2.
如权利要求1所述的一种基于增量分析的物联网数据处理方法,其特征在于,所述得到当前时间段采集到的新增数据点集中的各新增数据点对应的第一影响因子的方法,包括:根据所述各初始聚类簇中的历史数据点的数量,得到各初始聚类簇中的各初始异常簇和各初始正常簇;对于当前时间段采集到的新增数据点集中的任一新增数据点:将该新增数据点与所述各初始正常簇对应的簇类中心点之间的最小欧式距离对应的初始正常簇的簇类中心点记为该新增数据点对应的最近正常簇中心点;将该新增数据点与所述各初始异常簇对应的簇类中心点之间的最小欧式距离对应的初始异常簇的簇类中心点记为该新增数据点对应的最近异常簇中心点;将以该新增数据点为起点,以该新增数据点对应的最近正常簇中心点为终点构建的向量记为第一向量;将以该新增数据点为起点,以该新增数据点对应的最近异常簇中心点为终点构建的向量记为第二向量;根据所述第一向量和第二向量之间的夹角

所述第一向量和第二向量之间夹角的余弦值

所述该新增数据点与其对应的最近正常簇中心点之间的欧式距离以及该新增数据点与其对应的最近异常簇中心点之间的欧式距离,得到该新增数据点对应的第一影响因子
。3.
如权利要求2所述的一种基于增量分析的物联网数据处理方法,其特征在于,得到各初始聚类簇中的各初始异常簇和各初始正常簇的方法,包括:按照所述初始聚类簇中历史数据点数量由高到低的顺序对各初始聚类簇进行排序,得到初始聚类簇序列;判断所述初始聚类簇序列中的第一个初始聚类簇中的历史数据点数量与所述历史数据点集中的历史数据点总数量的比值是否大于等于判断阈值,若是,则将所述第一个初始聚类簇记为初始正常簇,将除所述第一个初始聚类簇之外的其它初始聚类簇记为初始异常簇;否则,则继续判断所述初始聚类簇序列中的第一个初始聚类簇中的历史数据点数量与第二个初始聚类簇中的历史数据点数量累加后的值与所述历史数据点集中的历史数据点
总数量的比值是否大于等于判断阈值,若是,则将所述第一个初始聚类簇和第二个初始聚类簇记为初始正常簇,将除所述第一个初始聚类簇和第二个初始聚类簇之外的其它初始聚类簇记为初始异常簇;否则,则继续判断所述初始聚类簇序列中的第一个初始聚类簇中的历史数据点数量

第二个初始聚类簇中的历史数据点数量以及第三个初始聚类簇中的历史数据点数量累加后的值与所述历史数据点集中的历史数据点总数量的比值是否大于等于判断阈值,以此类推,得到各初始聚类簇中的各初始异常簇和各初始正常簇
。4.
如权利要求2所述的一种基于增量分析的物联网数据处理方法,其特征在于,根据如下公式计算该新增数据点对应的第一影响因子:其中,为该新增数据点对应的第一影响因子,为第一向量和第二向量之间的夹角,为第一向量和第二向量之间夹角的余弦值,为该新增数据点与其对应的最近正常簇中心点之间的欧式距离,为该新增数据点与其对应的最近异常簇中心点之间的欧式距离
。5.
如权利要...

【专利技术属性】
技术研发人员:胡磊吴春李建民付艳忠任浩
申请(专利权)人:陕西通信规划设计研究院有限公司
类型:发明
国别省市:

网友询问留言 已有1条评论
  • 来自[美国] 2023年12月25日 06:34
    e
    0
1