【技术实现步骤摘要】
异常数据检测方法及装置、电子设备和存储介质
[0001]本公开涉及大数据
,更具体地,涉及一种异常数据检测方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
[0002]大数据时代,随着业务数据的体量越来越庞大,数据仓库的应用越来越广泛。大量业务数据产生后在数仓系统中进行数据加工处理,输出一系列数据仓库模型(表),最后将加工处理后的数据仓库模型同步到数据产品应用中,模型的数据质量为下游数据使用者进行数据分析与指标评估等提供了保障,因此,模型数据的可靠性非常重要。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:目前,对于数据仓库模型数据的异常检测效果不理想,存在部分异常数据无法识别的情况。
技术实现思路
[0004]有鉴于此,本公开提供了一种异常数据检测方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]本公开的一个方面提供了一种异常数据检测方法,包括:
[0006]利用预设聚类算法对数据集中目标维度的待检测业 ...
【技术保护点】
【技术特征摘要】
1.一种异常数据检测方法,包括:利用预设聚类算法对数据集中目标维度的待检测业务数据进行聚类,确定二叉树中当前层数据节点的当前目标分割点;基于所述当前目标分割点对所述当前层数据节点中的待检测业务数据进行分割,以得到下一层数据节点分别对应的待检测业务数据;迭代执行利用所述预设聚类算法确定所述下一层数据节点的下一层目标分割点,并基于所述下一层目标分割点对所述下一层数据节点中的待检测业务数据进行分割,直到满足预设分割终止条件,得到构建好的二叉树;以及根据每条所述待检测业务数据在所述二叉树中的位置,确定所述每条待检测业务数据的异常值。2.根据权利要求1所述的方法,其中,所述利用预设聚类算法对数据集中目标维度的待检测业务数据进行聚类,确定二叉树中当前层数据节点的当前目标分割点包括:利用所述预设聚类算法,将所述数据集中目标维度的待检测业务数据聚类为第一目标分类数据集和第二目标分类数据集,其中所述第一目标分类数据集对应第一目标聚类中心,所述第二目标分类数据集对应第二目标聚类中心;将所述第一目标分类数据集中,与所述第二目标聚类中心之间的距离满足预设距离阈值的数据点,确定为所述目标分割点;或者将所述第二目标分类数据集中,与所述第一目标聚类中心之间的距离满足预设距离阈值的数据点,确定为所述目标分割点。3.根据权利要求2所述的方法,其中,所述利用所述预设聚类算法,将所述数据集中目标维度的待检测业务数据聚类为第一目标分类数据集和第二目标分类数据集,包括:利用所述预设聚类算法,将所述数据集中目标维度的待检测业务数据完成当前次聚类的情况下,迭代执行:根据当前次第一聚类中心确定下一次第一聚类中心、以及根据当前次第二聚类中心确定下一次第二聚类中心的操作,直至预设终止条件,得到最终确定的所述第一目标聚类中心和所述第二目标聚类中心;根据所述第一目标聚类中心和所述第二目标聚类中心,将所述数据集中目标维度的待检测业务数据聚类为所述第一目标分类数据集和所述第二目标分类数据集。4.根据权利要求3所述的方法,其中,所述根据所述第一目标聚类中心和所述第二目标聚类中心,将所述数据集中目标维度的待检测业务数据聚类为所述第一目标分类数据集和所述第二目标分类数据集包括:计算每个所述目标维度的待检测业务数据,与所述第一聚类中心之间的距离,以得到多个第一距离;计算每个所述目标维度的待检测业务数据,与所述第二聚类中心之间的距离,以得到多个第二距离;根据所述多个第一距离和所述多个第二距离,将所述数据集中...
【专利技术属性】
技术研发人员:姜乐,张增,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。