流数据质量检测方法和装置、存储介质及电子设备制造方法及图纸

技术编号:39242835 阅读:12 留言:0更新日期:2023-10-30 11:55
本公开提供了一种流数据质量检测方法和装置、存储介质及电子设备。其中,该方法包括:获取对目标数据流采集到的增量序列集,增量序列集中包括从目标数据流采集到的多个增量序列;获取增量序列集对应的当前序列质心集,以及基于在增量序列集之前对目标数据流的历史序列集获取到的历史序列质心集;在利用当前序列质心集对历史序列质心集更新得到目标序列质心集之后,将增量序列集中的每个增量序列分别与目标序列质心集中包括的多个目标序列质心进行比对,得到与每个增量序列匹配的目标序列距离;将目标序列距离大于序列距离阈值的增量序列确定为异常序列。本公开解决了相关流数据质量检测方法的效率较低的技术问题。据质量检测方法的效率较低的技术问题。据质量检测方法的效率较低的技术问题。

【技术实现步骤摘要】
流数据质量检测方法和装置、存储介质及电子设备


[0001]本专利技术涉及计算机领域,具体而言,涉及一种流数据质量检测方法和装置、存储介质及电子设备。

技术介绍

[0002]数据序列是一系列的有序测量值,例如可以是某种业务场景下的实时业务数据组成的数值序列,还可以是某种电子设备在运行过程中产生的运行数据组成的数值序列。在实际生产中,通常需要对数值序列进行实时监测,以发现数值序列中的异常序列,从而及时发现生产中的异常情况。
[0003]现有的序列异常检测方法通常在通过保存数据流中的大量数据序列之后,根据大量数据序列的出现的周期性检测新增数据序列中的异常情况,但是在这种方式中,需要通过大量数据序列与新增数据序列进行不断比对,才能确定出比对结果,计算过程复杂且对存储能力以及计算性能的要求较高。也就是说,现有的流数据质量检测方法存在检测效率低的技术问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种流数据质量检测方法和装置、存储介质及电子设备,以至少解决现有的流数据质量检测方法存在检测效率低的技术问题的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种流数据质量检测方法,包括:获取对目标数据流采集到的增量序列集,其中,上述增量序列集中包括从上述目标数据流采集到的多个增量序列,上述增量序列中包括按照接收时间排序的M个目标业务的业务特征值,上述M为大于1的整数;获取上述增量序列集对应的当前序列质心集,以及基于在上述增量序列集之前对上述目标数据流的历史序列集获取到的历史序列质心集,其中,上述当前序列质心集用于表示对上述增量序列集中各个增量序列的聚类结果,上述历史序列质心集用于表示对上述历史序列集中各个历史序列的聚类结果,上述当前序列质心集中包括的多个当前质心和上述历史序列质心集中包括的多个历史序列质心分别用于指示一个序列聚类;在利用上述当前序列质心集对上述历史序列质心集更新得到目标序列质心集之后,将上述增量序列集中的每个上述增量序列分别与上述目标序列质心集中包括的多个目标序列质心进行比对,得到与每个上述增量序列匹配的目标序列距离;将上述目标序列距离大于序列距离阈值的上述增量序列确定为异常序列。
[0007]根据本专利技术实施例的另一方面,还提供了一种流数据质量检测装置,包括:第一获取单元,用于获取对目标数据流采集到的增量序列集,其中,上述增量序列集中包括从上述目标数据流采集到的多个增量序列,上述增量序列中包括按照接收时间排序的M个目标业务的业务特征值,上述M为大于1的整数;第二获取单元,用于获取上述增量序列集对应的当前序列质心集,以及基于在当前增量序列集之前对上述目标数据流的历史序列集获取到的
历史序列质心集,其中,上述当前序列质心集用于表示对上述增量序列集中各个增量序列的聚类结果,上述历史序列质心集用于表示对上述历史序列集中各个历史序列的聚类结果,上述当前序列质心集中包括的多个当前质心和上述历史序列质心集中包括的多个历史序列质心分别用于指示一个序列聚类;比对单元,用于在利用上述当前序列质心集对上述历史序列质心集更新得到目标序列质心集之后,将上述增量序列集中的每个上述增量序列分别与上述目标序列质心集中包括的多个目标序列质心进行比对,得到与每个上述增量序列匹配的目标序列距离;确定单元,用于将上述目标序列距离大于序列距离阈值的上述增量序列确定为异常序列。
[0008]根据本专利技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述流数据质量检测方法。
[0009]根据本申请实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上流数据质量检测方法。
[0010]根据本专利技术实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的流数据质量检测方法。
[0011]在本专利技术实施例中,采用获取对目标数据流采集到的增量序列集,增量序列集中包括从目标数据流采集到的多个增量序列;获取增量序列集对应的当前序列质心集,以及基于在增量序列集之前对目标数据流的历史序列集获取到的历史序列质心集,当前序列质心集用于表示对增量序列集中各个增量序列的聚类结果,历史序列质心集用于表示对历史序列集中各个历史序列的聚类结果;在利用当前序列质心集对历史序列质心集更新得到目标序列质心集之后,将增量序列集中的每个增量序列分别与目标序列质心集中包括的多个目标序列质心进行比对,得到与每个增量序列匹配的目标序列距离;将目标序列距离大于序列距离阈值的增量序列确定为异常序列,从而实现了对流数据质量检测。
[0012]在上述流数据质量检测方法中,获取到增量序列集中的多个增量序列的情况下,先获取根据多个增量序列聚类得到的当前序列质心集以及用于表征历史聚类结果的历史序列质心集,并基于历史序列质心集和当前序列质心集更新得到目标序列质心集,从而根据质心的比较和更新得到最新的聚类结果,避免了利用历史聚类操作得到的多个序列聚类中的原始序列与增量序列进行比对和聚类,提高了聚类过程中的效率;
[0013]进一步地,再根据表征最新的聚类结果的目标序列质心集与增量序列集中的多个增量序列进行比对,进而确定出异常序列,避免了利用历史聚类得到的全部原始序列与新增序列进行比对,进而显著减少了比对数量和操作复杂度,在提高聚类过程中的效率的基础上,进一步提升了异常序列检测过程的检测效率,解决了现有检测方法的检测效率低的技术问题。
附图说明
[0014]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本发
明的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0015]图1是根据本专利技术实施例的一种可选的流数据质量检测方法的硬件环境的示意图;
[0016]图2是根据本专利技术实施例的一种可选的流数据质量检测方法的流程图;
[0017]图3是根据本专利技术实施例的一种可选的流数据质量检测方法的示意图;
[0018]图4是根据本专利技术实施例的一种可选的流数据质量检测方法的流程图;
[0019]图5根据本专利技术实施例的一种可选的流数据质量检测装置的结构示意图;
[0020]图6是根据本专利技术实施例的一种可选的电子设备的结构示意图。
具体实施方式
[0021]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流数据质量检测方法,其特征在于,包括:获取对目标数据流采集到的增量序列集,其中,所述增量序列集中包括从所述目标数据流采集到的多个增量序列,所述增量序列中包括目标业务的按照接收时间排序的多个业务特征值;获取所述增量序列集对应的当前序列质心集,以及基于在所述增量序列集之前对所述目标数据流的历史序列集获取到的历史序列质心集,其中,所述当前序列质心集用于表示对所述增量序列集中各个增量序列的聚类结果,所述历史序列质心集用于表示对所述历史序列集中各个历史序列的聚类结果,所述当前序列质心集中包括的多个当前质心和所述历史序列质心集中包括的多个历史序列质心分别用于指示一个序列聚类;在利用所述当前序列质心集对所述历史序列质心集更新得到目标序列质心集之后,将所述增量序列集中的每个所述增量序列分别与所述目标序列质心集中包括的多个目标序列质心进行比对,得到与每个所述增量序列匹配的目标序列距离;将所述目标序列距离大于序列距离阈值的所述增量序列确定为异常序列。2.根据权利要求1所述的方法,其特征在于,在将所述增量序列集中的每个所述增量序列分别与所述目标序列质心集中包括的多个目标序列质心进行比对,得到与每个所述增量序列匹配的目标序列距离之前,还包括:分别获取所述当前序列质心集中的每一个所述当前序列质心,与所述历史序列质心集中的每一个所述历史序列质心之间的特征距离;在所述历史序列质心集中包括所述特征距离小于质心距离阈值的历史序列质心的情况下,将所述当前序列质心对应的当前序列聚类中的多个所述增量序列添加至所述历史序列质心对应的历史序列聚类,得到更新后的所述历史序列聚类,其中,所述历史序列质心集中的每一个所述历史序列质心分别对应于一个所述质心距离阈值;在所述历史序列质心集中不包括所述特征距离小于质心距离阈值的历史序列质心的情况下,将所述当前序列质心对应的当前序列聚类作为所述历史序列聚类中新增的所述历史序列聚类;将更新后的历史序列聚类集中的历史序列聚类各自对应的序列质心确定为所述目标序列质心集中的所述目标序列质心。3.根据权利要求2所述的方法,其特征在于,所述将更新后的历史序列聚类集分别对应的序列质心确定为所述目标序列质心集中的所述目标序列质心包括:在更新后的所述历史序列聚类集中的目标历史序列聚类中包括多个所述历史序列和所述当前序列聚类中的多个所述增量序列的情况下,分别获取所述当前序列聚类中的多个所述增量序列对应的序列向量,与所述序列向量的转置向量的向量点积,并根据多个所述增量序列各自对应的向量点积和确定为与多个所述增量序列对应的增量特征值;根据所述目标历史序列聚类中包括的所述历史序列对应的历史特征值,和所述增量特征值确定所述目标历史序列聚类对应的所述目标序列质心;在更新后的所述历史序列聚类集中的目标历史序列聚类中只包括所述当前序列聚类中的多个所述当前序列的情况下,分别获取所述当前序列聚类中的多个所述增量序列对应的序列向量,与所述序列向量的转置向量的向量点积,并根据多个所述增量序列各自对应的向量点积和确定为与多个所述增量序列对应的当前特征值;根据所述当前特征值确定所
述目标历史序列聚类对应的所述目标序列质心;其中,所述目标历史序列聚类中包括的多个序列各自对应的所述序列向量与所述目标序列质心对应的质心向量之间的向量距离的距离和小于或等于参考距离阈值。4.根据权利要求2所述的方法,其特征在于,所述将更新后的历史序列聚类集分别对应的序列质心确定为所述目标序列质心集中的所述目标序列质心时,还包括:在更新后的所述历史序列聚类集中的目标历史序列聚类中包括多个所述历史序列和所述当前序列聚类中的多个所述增量序列的情况下,获取所述当前序列聚类中的多个所述增量序列各自的序列向量分别与所述当前序列质心对应的质心向量的向量距离的向量距离和;获取所述目标历史序列聚类对应的所述质心距离阈值,并获取与所述当前序列质心对应的第一权重系数,以及与所述历史序列质心对应的第二权重系数;根据所述第一权重系数与所述向量距离和的第一乘积,以及所述第二权重系数与所述质心距离阈值的第二乘积确定所述目标序列质心对应的质心距离阈值;在更新后的所述历史序列聚类集中的目标历史序列聚类中只包括所述当前序列聚类中的多个所述当前序列的情况下,获取所述当前序列聚类中的多个所述增量序列各自的序列向量分别与所述当前序列质心对应的质心向量的向量距离的向量距离和;将所述向量距离和确定为所述目标序列质心对应的质心距离阈值。5.根据权利要求1所述的方法,其特征在于,所述将所述增量序列集中的每个所述增量序列分别与所述目标序列质心集中包括的多个目标序列质心进行比对,得到与每个所述增量序列匹配的目标序列距离包括:获取与所述目标序列质心集中包括的多个所述目标序列质心分别对应的距离权重系数;获取所述增量序列集中的一个所述增量序列作为当前增量序列,重复如下步骤,直至遍历所述当前增量序列集中的每一个所述增量序列:分别获取所述当前增量序列与多个所述目标序列质心之间的参考序列距离;根据多个目标序列质心分别对应的距离权重系数和获取的多个所述参考序列距离确定所述当前增量序列匹配的所述目标序列距离。6.根据权利要求5所述的方法,其特征在于,所述分别获取所述当前增量序列与多个所述目标序列质心之间的参考序列距离包括:从多个所述目标序列质心中依次获取一个所述目标序列质心作为一个当前序列质心,重复如下步骤,直至遍历多个所述目标序列质心:获取与所...

【专利技术属性】
技术研发人员:石志林
申请(专利权)人:腾讯数码天津有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1