【技术实现步骤摘要】
流数据质量检测方法和装置、存储介质及电子设备
[0001]本专利技术涉及计算机领域,具体而言,涉及一种流数据质量检测方法和装置、存储介质及电子设备。
技术介绍
[0002]数据序列是一系列的有序测量值,例如可以是某种业务场景下的实时业务数据组成的数值序列,还可以是某种电子设备在运行过程中产生的运行数据组成的数值序列。在实际生产中,通常需要对数值序列进行实时监测,以发现数值序列中的异常序列,从而及时发现生产中的异常情况。
[0003]现有的序列异常检测方法通常在通过保存数据流中的大量数据序列之后,根据大量数据序列的出现的周期性检测新增数据序列中的异常情况,但是在这种方式中,需要通过大量数据序列与新增数据序列进行不断比对,才能确定出比对结果,计算过程复杂且对存储能力以及计算性能的要求较高。也就是说,现有的流数据质量检测方法存在检测效率低的技术问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本专利技术实施例提供了一种流数据质量检测方法和装置、存储介质及电子设备,以至少解决现有的流数据质量检测方法存在检测效率低的技术问题的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种流数据质量检测方法,包括:获取对目标数据流采集到的增量序列集,其中,上述增量序列集中包括从上述目标数据流采集到的多个增量序列,上述增量序列中包括按照接收时间排序的M个目标业务的业务特征值,上述M为大于1的整数;获取上述增量序列集对应的当前序列质心集,以及基于在 ...
【技术保护点】
【技术特征摘要】
1.一种流数据质量检测方法,其特征在于,包括:获取对目标数据流采集到的增量序列集,其中,所述增量序列集中包括从所述目标数据流采集到的多个增量序列,所述增量序列中包括目标业务的按照接收时间排序的多个业务特征值;获取所述增量序列集对应的当前序列质心集,以及基于在所述增量序列集之前对所述目标数据流的历史序列集获取到的历史序列质心集,其中,所述当前序列质心集用于表示对所述增量序列集中各个增量序列的聚类结果,所述历史序列质心集用于表示对所述历史序列集中各个历史序列的聚类结果,所述当前序列质心集中包括的多个当前质心和所述历史序列质心集中包括的多个历史序列质心分别用于指示一个序列聚类;在利用所述当前序列质心集对所述历史序列质心集更新得到目标序列质心集之后,将所述增量序列集中的每个所述增量序列分别与所述目标序列质心集中包括的多个目标序列质心进行比对,得到与每个所述增量序列匹配的目标序列距离;将所述目标序列距离大于序列距离阈值的所述增量序列确定为异常序列。2.根据权利要求1所述的方法,其特征在于,在将所述增量序列集中的每个所述增量序列分别与所述目标序列质心集中包括的多个目标序列质心进行比对,得到与每个所述增量序列匹配的目标序列距离之前,还包括:分别获取所述当前序列质心集中的每一个所述当前序列质心,与所述历史序列质心集中的每一个所述历史序列质心之间的特征距离;在所述历史序列质心集中包括所述特征距离小于质心距离阈值的历史序列质心的情况下,将所述当前序列质心对应的当前序列聚类中的多个所述增量序列添加至所述历史序列质心对应的历史序列聚类,得到更新后的所述历史序列聚类,其中,所述历史序列质心集中的每一个所述历史序列质心分别对应于一个所述质心距离阈值;在所述历史序列质心集中不包括所述特征距离小于质心距离阈值的历史序列质心的情况下,将所述当前序列质心对应的当前序列聚类作为所述历史序列聚类中新增的所述历史序列聚类;将更新后的历史序列聚类集中的历史序列聚类各自对应的序列质心确定为所述目标序列质心集中的所述目标序列质心。3.根据权利要求2所述的方法,其特征在于,所述将更新后的历史序列聚类集分别对应的序列质心确定为所述目标序列质心集中的所述目标序列质心包括:在更新后的所述历史序列聚类集中的目标历史序列聚类中包括多个所述历史序列和所述当前序列聚类中的多个所述增量序列的情况下,分别获取所述当前序列聚类中的多个所述增量序列对应的序列向量,与所述序列向量的转置向量的向量点积,并根据多个所述增量序列各自对应的向量点积和确定为与多个所述增量序列对应的增量特征值;根据所述目标历史序列聚类中包括的所述历史序列对应的历史特征值,和所述增量特征值确定所述目标历史序列聚类对应的所述目标序列质心;在更新后的所述历史序列聚类集中的目标历史序列聚类中只包括所述当前序列聚类中的多个所述当前序列的情况下,分别获取所述当前序列聚类中的多个所述增量序列对应的序列向量,与所述序列向量的转置向量的向量点积,并根据多个所述增量序列各自对应的向量点积和确定为与多个所述增量序列对应的当前特征值;根据所述当前特征值确定所
述目标历史序列聚类对应的所述目标序列质心;其中,所述目标历史序列聚类中包括的多个序列各自对应的所述序列向量与所述目标序列质心对应的质心向量之间的向量距离的距离和小于或等于参考距离阈值。4.根据权利要求2所述的方法,其特征在于,所述将更新后的历史序列聚类集分别对应的序列质心确定为所述目标序列质心集中的所述目标序列质心时,还包括:在更新后的所述历史序列聚类集中的目标历史序列聚类中包括多个所述历史序列和所述当前序列聚类中的多个所述增量序列的情况下,获取所述当前序列聚类中的多个所述增量序列各自的序列向量分别与所述当前序列质心对应的质心向量的向量距离的向量距离和;获取所述目标历史序列聚类对应的所述质心距离阈值,并获取与所述当前序列质心对应的第一权重系数,以及与所述历史序列质心对应的第二权重系数;根据所述第一权重系数与所述向量距离和的第一乘积,以及所述第二权重系数与所述质心距离阈值的第二乘积确定所述目标序列质心对应的质心距离阈值;在更新后的所述历史序列聚类集中的目标历史序列聚类中只包括所述当前序列聚类中的多个所述当前序列的情况下,获取所述当前序列聚类中的多个所述增量序列各自的序列向量分别与所述当前序列质心对应的质心向量的向量距离的向量距离和;将所述向量距离和确定为所述目标序列质心对应的质心距离阈值。5.根据权利要求1所述的方法,其特征在于,所述将所述增量序列集中的每个所述增量序列分别与所述目标序列质心集中包括的多个目标序列质心进行比对,得到与每个所述增量序列匹配的目标序列距离包括:获取与所述目标序列质心集中包括的多个所述目标序列质心分别对应的距离权重系数;获取所述增量序列集中的一个所述增量序列作为当前增量序列,重复如下步骤,直至遍历所述当前增量序列集中的每一个所述增量序列:分别获取所述当前增量序列与多个所述目标序列质心之间的参考序列距离;根据多个目标序列质心分别对应的距离权重系数和获取的多个所述参考序列距离确定所述当前增量序列匹配的所述目标序列距离。6.根据权利要求5所述的方法,其特征在于,所述分别获取所述当前增量序列与多个所述目标序列质心之间的参考序列距离包括:从多个所述目标序列质心中依次获取一个所述目标序列质心作为一个当前序列质心,重复如下步骤,直至遍历多个所述目标序列质心:获取与所...
【专利技术属性】
技术研发人员:石志林,
申请(专利权)人:腾讯数码天津有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。