【技术实现步骤摘要】
一种时序数据的异常检测方法、装置、电子设备和介质
本申请涉及分布式数据管理
,特别涉及一种时序数据的异常检测方法、装置、电子设备和计算机可读存储介质。
技术介绍
基于数据质量约束规则的复杂性和多样性,当数据规模变大时,这种高度复杂性会导致传统的数据清洗工具在大型数据集上难以进行计算,并极大地降低其性能。目前,关于大数据量级的数据清洗系统并不多见。现有的处理方式属于单机的全量式的处理方式,处理效率较低且性能不高。还有,现有的大数据量级的清洗系统例如BigDansing只能处理离线数据集,即数据的规模不再改变。但是,对于企业来说,数据量每天都在增加,只能离线进行异常检测,导致不能及时的进行数据清洗,存在时间延误。
技术实现思路
本申请的目的是提供一种时序数据的异常检测方法、装置、电子设备和计算机可读存储介质,可以实现在spark平台下在线进行异常数据检测,提高了数据清洗的效率,减少了异常检测的等待时间,提高用户体验。其具体方案如下:第一方面,本申请公开了一种时序数据的异常检测的方法,包括 ...
【技术保护点】
1.一种时序数据的异常检测方法,其特征在于,包括:/n在spark平台下,根据异常检测规则,创建detect算子;/n当在所述spark平台下获取到输入的数据流后,对所述数据流进行预处理,得到目标数据集;/n利用所述detect算子对所述目标数据集进行检测,得到异常数据。/n
【技术特征摘要】
1.一种时序数据的异常检测方法,其特征在于,包括:
在spark平台下,根据异常检测规则,创建detect算子;
当在所述spark平台下获取到输入的数据流后,对所述数据流进行预处理,得到目标数据集;
利用所述detect算子对所述目标数据集进行检测,得到异常数据。
2.根据权利要求1所述的时序数据的异常检测方法,其特征在于,对所述数据流进行预处理,得到目标数据集,包括:
对所述数据流进行切片得到RDD数据,并将所述RDD数据转化为DataFrame格式数据;
将所述DataFrame格式数据作为所述目标数据集。
3.根据权利要求2所述的时序数据的异常检测方法,其特征在于,将所述DataFrame格式数据作为所述目标数据集,包括:
利用输入的SQL语句,对所述DataFrame格式数据进行选择操作以及投影操作,得到目标数据集。
4.根据权利要求1所述的时序数据的异常检测方法,其特征在于,利用所述detect算子对所述目标数据集进行检测,得到异常数据,包括:
利用所述detect算子,对所述目标数据集与所述spark平台存储的历史数据进行检测,得到所述异常数据;所述detect算子的异常检测规则包含所述目标数据集与所述spark平台存储的历史数据进行冲突检测。
5.根据权利要求1所述的时序数据的异常检测方法,其特征在于,在所述利用detect算子对所述目标数据集...
【专利技术属性】
技术研发人员:袁俊,汪文涛,张少男,陈家熠,吴婉婷,
申请(专利权)人:华润电力技术研究院有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。