一种异常数据检测方法及装置制造方法及图纸

技术编号:21479084 阅读:34 留言:0更新日期:2019-06-29 05:08
本发明专利技术实施例提供了一种异常数据检测方法及装置,涉及数据处理技术领域,该方法包括:获取目标对象的待检测数据,基于目标对象的待检测数据,遍历孤立森林模型中每棵随机二叉树,确定目标对象在每棵随机二叉树上的位置。根据目标对象在每棵随机二叉树上的位置,确定目标对象的异常分值,然后根据目标对象的异常分值,确定目标对象的异常情况。由于采用孤立森林模型检测目标对象的异常情况,减少了对人工的依赖,简化了检测过程。训练孤立森林模型时,训练样本的特征至少包括目标对象的时序特征,故孤立森林模型在检测目标对象的异常情况时,会考虑目标对象的时序特征对异常情况的影响,从而提高异常检测的准确性,降低误告警。

【技术实现步骤摘要】
一种异常数据检测方法及装置
本专利技术实施例涉及数据处理
,尤其涉及一种异常数据检测方法及装置。
技术介绍
互联网日常运营数据种类繁多,不同场景的运营指标的曲线特点不同,且相同指标在不同业务之间的波动范围也不同。如何在保证告警准确性的同时,兼顾通用性,使异常检测方法适用于多种场景下的不同业务,且又不过多依赖人为因素,是异常检测所面临的主要难点。目前,异常检测方法包括阈值法,即基于对待检测曲线的波动范围进行分析,设置告警阈值。该方法依赖人工经验,并且对于不同指标、不同业务需要单独配置,配置过程繁琐。另外周期内不同时刻波动区间往往差别比较大,仅仅依靠设置的阈值检测异常,往往存在较多的误告警。
技术实现思路
由于采用阈值法检测异常过于依赖人工,不仅配置过程繁琐,且存在较多的误告警的问题,本专利技术实施例提供了一种异常数据检测方法及装置。一方面,本专利技术实施例提供了一种异常数据检测方法,包括:获取目标对象的待检测数据;基于所述目标对象的待检测数据,遍历孤立森林模型中每棵随机二叉树,确定所述目标对象在每棵随机二叉树上的位置,所述孤立森林模型是以所述目标对象的历史数据为训练样本训练获得,所述本文档来自技高网...

【技术保护点】
1.一种异常数据检测方法,其特征在于,包括:获取目标对象的待检测数据;基于所述目标对象的待检测数据,遍历孤立森林模型中每棵随机二叉树,确定所述目标对象在每棵随机二叉树上的位置,所述孤立森林模型是以所述目标对象的历史数据为训练样本训练获得,所述目标对象的历史数据周期性变化,所述训练样本的特征至少包括所述目标对象的时序特征;根据所述目标对象在每棵随机二叉树上的位置,确定所述目标对象的异常分值;根据所述目标对象的异常分值,确定所述目标对象的异常情况。

【技术特征摘要】
1.一种异常数据检测方法,其特征在于,包括:获取目标对象的待检测数据;基于所述目标对象的待检测数据,遍历孤立森林模型中每棵随机二叉树,确定所述目标对象在每棵随机二叉树上的位置,所述孤立森林模型是以所述目标对象的历史数据为训练样本训练获得,所述目标对象的历史数据周期性变化,所述训练样本的特征至少包括所述目标对象的时序特征;根据所述目标对象在每棵随机二叉树上的位置,确定所述目标对象的异常分值;根据所述目标对象的异常分值,确定所述目标对象的异常情况。2.如权利要求1所述的方法,其特征在于,所述孤立森林模型是以所述目标对象的历史数据为训练样本训练获得,包括:获取目标对象的历史数据作为训练样本;确定所述训练样本的特征集合,所述特征集合中至少包括所述目标对象的时序特征;对所述训练样本进行N次随机抽样,每次抽取M个采样样本构建随机二叉树,构建所述随机二叉树时,以从所述特征集合中随机抽取的特征作为分界特征,以所述分界特征的取值区间内随机选取的值作为分界值,M大于0,N大于0;根据构建的N棵随机二叉树确定孤立森林模型。3.如权利要求1所述的方法,其特征在于,还包括:在所述目标对象的历史数据更新时,以更新的历史数据为训练样本重新训练,获得更新的孤立森林模型。4.如权利要求1至3任一所述的方法,其特征在于,还包括:根据多个目标对象的异常情况确定异常类型;根据所述异常类型确定是否告警。5.如权利要求4所述的方法,其特征在于,所述根据多个目标对象的异常情况确定异常类型,包括:将多个目标对象的异常情况输入预设的决策矩阵,确定异常类型。6.如权利要求4所述的方法,其特征在于,所述根据多个目标对象的异常情况确定异常类型,包括:将多...

【专利技术属性】
技术研发人员:程超金欢
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1