【技术实现步骤摘要】
基于时间序列近似匹配的大数据异常状态检测方法及装置
本专利技术涉及大数据异常状态检测技术,尤其涉及一种基于时间序列近似匹配的大数据异常状态检测方法及装置。
技术介绍
异常状态检测广泛应用于电力,遥感、道桥、机械等各种领域,对于系统的正常运转具有极其重要的作用。近年来,由于在线检测数据的体量大、类型繁多的特点,人们将大数据技术引入到了异常检测中,为提高系统异常检测准确性提供了全新的解决方法和思路。在异常状态检测中,时间序列分析法是一种常用的方法。现有技术中提出了一种基于集合的时间序列分析法,该方法首先将分布于时间轴上的数据按照一定的规则和分割系数分割为集合,并对集合编号,集合序号包含着该集合中数据点的幅值信息和在时间轴上的位置信息。然后将包含着多个数据点的集合看作新的元素,与其他时间序列比较,并利用杰卡德(Jaccard)系数衡量两序列的相似性。这种方法将比较时间序列的相似性转换为比较集合的相似性,大大加快了运算速度,并且具有良好的可扩展性。然而,上述方法的匹配精度和匹配速度很大程度上依赖于所分割的集合的大小,分割越精细,集合越小,则精度越高。但过小的集合又会导致集 ...
【技术保护点】
一种基于时间序列近似匹配的大数据异常状态检测方法,其特征在于,包括以下步骤:A、根据待测时间序列的数据范围以及预设的分割系数将所述待测时间序列划分到多个集合中,并采用数据点所在的集合编号组成的一维待测序列表示所述待测时间序列;B、根据标准时间序列的数据范围以及所述分割系数将所述标准时间序列划分到多个集合中,并采用数据点所在的集合编号组成的一维标准序列表示所述标准时间序列;C、对所述一维待测序列和一维标准序列进行哈希运算;D、计算所述一维待测序列和一维标准序列的杰卡德系数,并判断杰卡德系数小于预设阈值的时间序列为存在异常状态的序列。
【技术特征摘要】
1.一种基于时间序列近似匹配的大数据异常状态检测方法,其特征在于,包括以下步骤:A、根据待测时间序列的数据范围以及预设的分割系数将所述待测时间序列划分到多个集合中,并采用数据点所在的集合编号组成的一维待测序列表示所述待测时间序列;B、根据标准时间序列的数据范围以及所述分割系数将所述标准时间序列划分到多个集合中,并采用数据点所在的集合编号组成的一维标准序列表示所述标准时间序列;C、对所述一维待测序列和一维标准序列进行哈希运算;D、计算所述一维待测序列和一维标准序列的杰卡德系数,并判断杰卡德系数小于预设阈值的时间序列为存在异常状态的序列。2.根据权利要求1所述的基于时间序列近似匹配的大数据异常状态检测方法,其特征在于,所述步骤A包括:依据预设的分割系数σ和ε将待测时间序列S的数据点划分到m×n个集合中,其中总行数m=(xmax-xmin)/σ,总列数n=(tmax-tmin)/ε,每个集合的大小均为σ×ε,其中tmax和tmin为待测时间序列S的数据范围中时间上限值和下限值,xmax和xmin为待测时间序列S的数据范围中幅值上限值和下限值;对所述多个集合进行编号,假设待测时间序列S上的数据点P(ti,xi),1≤i≤k,其中k为所述待测时间序列S的数据点总数;则该数据点P(ti,xi)所在集合编号为:Ni=(mi-1)×n+ni,其中mi=(xi-xmin)/σ,ni=(ti-tmin)/ε,将待测时间序列S使用一维待测序列S'={N1,N2,…,NK}表示。3.根据权利要求2所述的基于时间序列近似匹配的大数据异常状态检测方法,其特征在于,所述步骤D包括:通过以下公式计算一维待测序列S'和一维标准序列Q'的杰卡德系数:J(S',Q')=|S'∩Q'|/|S'∪Q'|;判断J(S',Q')<Jmin的时间序列存在异常状态,判断J(S',Q')≥Jmin的时间序列不存在异常状态,其中Jmin为预设阈值。4.根据权利要求1至3中任一项所述的基于时间序列近似匹配的大数据异常状态检测方法,其特征在于,所述方法还包括在步骤D之后执行的步骤:E、对步骤D中检测出的不存在异常状态的时间序列,减小分割系数,并迭代执行步骤A至D直至满足异常状态检测的精度要求。5.根据权利要求1至3中任一项所述的基于时间序列近似匹配的大数据异常状态检测方法,其特征在于,所述步骤C中对数据进行取余运算,将余数相同的数据放入同一哈希桶内。6.一种基于时间序列近似匹配的大数据异常状态检测装置,其特征在于,...
【专利技术属性】
技术研发人员:王宏志,孙旭冉,赵志强,
申请(专利权)人:哈工大大数据产业有限公司,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。