异常值检测方法技术

技术编号:39643056 阅读:11 留言:0更新日期:2023-12-09 11:10
本申请涉及一种异常值检测方法

【技术实现步骤摘要】
异常值检测方法、装置、电子设备及存储介质


[0001]本申请涉及信息提取领域,尤其涉及一种异常值检测方法

装置

电子设备及存储介质


技术介绍

[0002]孤立森林是传统的用于异常值检测的算法之一,其中,异常值检测是找出数据中离群值的过程,离群值是在给定数据集中,与其他数据点显著不同的数据点

[0003]然而,由于孤立森林算法是无监督建模,使得孤立森林算法在金融风控场景下的使用具有局限性

[0004]针对上述孤立森林算法在金融风控场景下的局限性问题,目前尚未提出有效的解决方案


技术实现思路

[0005]本申请提供了一种异常值检测方法

装置

电子设备及存储介质,以解决现有孤立森林算法在金融风控场景下的局限性问题

[0006]第一方面,本申请提供了一种异常值检测方法,所述方法包括:
[0007]获取用户输入的待预测样本;
[0008]将所述待预测样本输入异常值检测模型,获得待预测样本的异常值,其中,所述异常值表征所述待预测样本的异常情况;所述异常值检测模型是基于用户输入的训练样本进行模型训练得到的,所述训练样本存在对应的标签

[0009]可选的,生成所述异常值检测模型,包括:
[0010]获取用户输入的训练样本,所述训练样本存在对应的标签;
[0011]基于用户输入的训练样本和标签进行单一决策树的训练;
[0012]对训练好的单一决策树进行分解,获得分解后的第一规则集;
[0013]在所述第一规则集中的规则击中训练样本的信息熵小于等于设定阈值的情况下,将所述规则放入纯熵队列;
[0014]在所述第一规则集中的规则击中训练样本的信息熵大于设定阈值的情况下,将所述规则放入优先队列;
[0015]将所述优先队列中的规则数量与预设数量作比较,获得比较结果;
[0016]在所述比较结果为优先队列中的规则数量小于等于预设数量的情况下,将训练好的决策树构成的森林作为异常值检测模型

[0017]可选的,所述方法还包括:
[0018]在所述比较结果为优先队列中的规则数量大于预设数量的情况下,对所述优先队列中的规则进行再提取,获得提取规则;
[0019]基于所述提取规则确定第一子样本,其中,第一子样本包括已训练好的决策树中叶子节点覆盖的样本;
[0020]基于所述提取规则和第一子样本进行新的单一决策树的训练;
[0021]对训练好的新的单一决策树进行分解,获得分解后的第二规则集;
[0022]在所述第二规则集中的规则击中第一子样本的信息熵小于等于设定阈值的情况下,将所述规则放入纯熵队列;
[0023]在所述第二规则集中的规则击中第一子样本的信息熵大于设定阈值的情况下,将所述规则放入优先队列;
[0024]返回执行所述将所述优先队列中的规则数量与预设数量作比较,获得比较结果的步骤

[0025]可选的,所述将所述待预测样本输入异常值检测模型,获得待预测样本的异常值,包括:
[0026]获取待预测样本击中纯熵队列的第三规则集;
[0027]将所述第三规则集中的所有规则击中训练样本的平均响应率与训练样本平均响应率进行比较,获得比较结果;
[0028]在所述比较结果为第三规则集中的规则击中训练样本的平均响应率大于训练样本平均响应率的情况下,在预设得分的基础上加上所述规则的长度,更新所述预设得分;
[0029]在所述比较结果为第三规则集中的规则击中训练样本的平均响应率小于等于训练样本平均响应率的情况下,在预设得分的基础上减去所述规则的长度,更新所述预设得分;
[0030]在所述第三规则集中所有规则完成击中训练样本的平均响应率与训练样本平均响应率的比较的情况下,将所述预设得分确定为所述待预测样本的异常值

[0031]可选的,在所述基于用户输入的训练样本和标签进行单一决策树的训练之前,所述方法还包括:
[0032]检测所述用户输入的训练样本和标签是否合规;
[0033]基于用户输入的训练样本和标签进行单一决策树的训练,包括:
[0034]在检测到所述用户输入的训练样本和训练样本对应的标签合规的情况下,基于用户输入的训练样本和标签进行单一决策树的训练

[0035]可选的,所述对训练好的单一决策树进行分解,获得分解后的第一规则集,包括:
[0036]从训练好的单一决策树的根节点开始进行分解,获得单一决策树的根节点到每一个叶子节点的路径;
[0037]将所述单一决策树的根节点到每一个叶子节点的路径确定为所述单一决策树分解后的多个规则,所述多个规则组成所述第一规则集

[0038]可选的,所述方法还包括:
[0039]获取用户输入的决策树参数;
[0040]所述基于用户输入的训练样本和标签进行单一决策树的训练,包括:
[0041]基于用户输入的训练样本

标签和决策树参数进行单一决策树的训练

[0042]第二方面,本申请提供了一种异常值检测装置,所述装置包括:
[0043]待预测样本获取单元,用于获取用户输入的待预测样本;
[0044]异常值获取单元,用于将所述待预测样本输入异常值检测模型,获得待预测样本的异常值,其中,所述异常值表征所述待预测样本的异常情况;所述异常值检测模型是基于
用户输入的训练样本进行模型训练得到的,所述训练样本存在对应的标签

[0045]第三方面,本申请提供了一种电子设备,包括:至少一个通信接口;与所述至少一个通信接口相连接的至少一个总线;与所述至少一个总线相连接的至少一个处理器;与所述至少一个总线相连接的至少一个存储器,其中,所述处理器通过计算机程序执行本申请上述任一项所述的异常值检测的方法

[0046]第四方面,本申请还提供了一种计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行本申请上述任一项所述的异常值检测方法

[0047]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,通过获取用户输入的待预测样本;将待预测样本输入异常值检测模型,获得待预测样本的异常值,其中,异常值表征待预测样本的异常情况;异常值检测模型是基于用户输入的训练样本进行模型训练得到的,训练样本存在对应的标签

本申请通过将孤立森林无监督的建模过程变成有监督的建模过程,将传统的孤立森林算法进化为更适合金融风控实际场景的算法,提高了运用层面的效果,克服了孤立森林算法在金融风控场景的局限性

附图说明
[0048]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种异常值检测方法,其特征在于,所述方法包括:获取用户输入的待预测样本;将所述待预测样本输入异常值检测模型,获得待预测样本的异常值,其中,所述异常值表征所述待预测样本的异常情况;所述异常值检测模型是基于用户输入的训练样本进行模型训练得到的,所述训练样本存在对应的标签
。2.
根据权利要求1所述的方法,其特征在于,生成所述异常值检测模型,包括:获取用户输入的训练样本,所述训练样本存在对应的标签;基于用户输入的训练样本和标签进行单一决策树的训练;对训练好的单一决策树进行分解,获得分解后的第一规则集;在所述第一规则集中的规则击中训练样本的信息熵小于等于设定阈值的情况下,将所述规则放入纯熵队列;在所述第一规则集中的规则击中训练样本的信息熵大于设定阈值的情况下,将所述规则放入优先队列;将所述优先队列中的规则数量与预设数量作比较,获得比较结果;在所述比较结果为优先队列中的规则数量小于等于预设数量的情况下,将训练好的决策树构成的森林作为异常值检测模型
。3.
根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述比较结果为优先队列中的规则数量大于预设数量的情况下,对所述优先队列中的规则进行再提取,获得提取规则;基于所述提取规则确定第一子样本,其中,第一子样本包括已训练好的决策树中叶子节点覆盖的样本;基于所述提取规则和第一子样本进行新的单一决策树的训练;对训练好的新的单一决策树进行分解,获得分解后的第二规则集;在所述第二规则集中的规则击中第一子样本的信息熵小于等于设定阈值的情况下,将所述规则放入纯熵队列;在所述第二规则集中的规则击中第一子样本的信息熵大于设定阈值的情况下,将所述规则放入优先队列;返回执行所述将所述优先队列中的规则数量与预设数量作比较,获得比较结果的步骤
。4.
根据权利要求2所述的方法,其特征在于,所述将所述待预测样本输入异常值检测模型,获得待预测样本的异常值,包括:获取待预测样本击中纯熵队列的第三规则集;将所述第三规则集中的所有规则击中训练样本的平均响应率与训练样本平均响应率进行比较,获得比较结果;在所述比较结果为第三规则集中的规则击中训练样本的平均响应率大于训练样本平均响应率的情况下,在预设得分的基础上加上所述规则的长度,更新所述预设得分;在所述比较结果为第三规则集中的规则击中训练...

【专利技术属性】
技术研发人员:林建明杨懿宁
申请(专利权)人:深圳萨摩耶数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1