【技术实现步骤摘要】
异常值检测方法、装置、电子设备及存储介质
[0001]本申请涉及信息提取领域,尤其涉及一种异常值检测方法
、
装置
、
电子设备及存储介质
。
技术介绍
[0002]孤立森林是传统的用于异常值检测的算法之一,其中,异常值检测是找出数据中离群值的过程,离群值是在给定数据集中,与其他数据点显著不同的数据点
。
[0003]然而,由于孤立森林算法是无监督建模,使得孤立森林算法在金融风控场景下的使用具有局限性
。
[0004]针对上述孤立森林算法在金融风控场景下的局限性问题,目前尚未提出有效的解决方案
。
技术实现思路
[0005]本申请提供了一种异常值检测方法
、
装置
、
电子设备及存储介质,以解决现有孤立森林算法在金融风控场景下的局限性问题
。
[0006]第一方面,本申请提供了一种异常值检测方法,所述方法包括:
[0007]获取用户输入的待预测样本;
[0008]将所述待预测样本输入异常值检测模型,获得待预测样本的异常值,其中,所述异常值表征所述待预测样本的异常情况;所述异常值检测模型是基于用户输入的训练样本进行模型训练得到的,所述训练样本存在对应的标签
。
[0009]可选的,生成所述异常值检测模型,包括:
[0010]获取用户输入的训练样本,所述训练样本存在对应的标签;
[0011]基于用户输入的训练样本和标签进行单一决策树 ...
【技术保护点】
【技术特征摘要】
1.
一种异常值检测方法,其特征在于,所述方法包括:获取用户输入的待预测样本;将所述待预测样本输入异常值检测模型,获得待预测样本的异常值,其中,所述异常值表征所述待预测样本的异常情况;所述异常值检测模型是基于用户输入的训练样本进行模型训练得到的,所述训练样本存在对应的标签
。2.
根据权利要求1所述的方法,其特征在于,生成所述异常值检测模型,包括:获取用户输入的训练样本,所述训练样本存在对应的标签;基于用户输入的训练样本和标签进行单一决策树的训练;对训练好的单一决策树进行分解,获得分解后的第一规则集;在所述第一规则集中的规则击中训练样本的信息熵小于等于设定阈值的情况下,将所述规则放入纯熵队列;在所述第一规则集中的规则击中训练样本的信息熵大于设定阈值的情况下,将所述规则放入优先队列;将所述优先队列中的规则数量与预设数量作比较,获得比较结果;在所述比较结果为优先队列中的规则数量小于等于预设数量的情况下,将训练好的决策树构成的森林作为异常值检测模型
。3.
根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述比较结果为优先队列中的规则数量大于预设数量的情况下,对所述优先队列中的规则进行再提取,获得提取规则;基于所述提取规则确定第一子样本,其中,第一子样本包括已训练好的决策树中叶子节点覆盖的样本;基于所述提取规则和第一子样本进行新的单一决策树的训练;对训练好的新的单一决策树进行分解,获得分解后的第二规则集;在所述第二规则集中的规则击中第一子样本的信息熵小于等于设定阈值的情况下,将所述规则放入纯熵队列;在所述第二规则集中的规则击中第一子样本的信息熵大于设定阈值的情况下,将所述规则放入优先队列;返回执行所述将所述优先队列中的规则数量与预设数量作比较,获得比较结果的步骤
。4.
根据权利要求2所述的方法,其特征在于,所述将所述待预测样本输入异常值检测模型,获得待预测样本的异常值,包括:获取待预测样本击中纯熵队列的第三规则集;将所述第三规则集中的所有规则击中训练样本的平均响应率与训练样本平均响应率进行比较,获得比较结果;在所述比较结果为第三规则集中的规则击中训练样本的平均响应率大于训练样本平均响应率的情况下,在预设得分的基础上加上所述规则的长度,更新所述预设得分;在所述比较结果为第三规则集中的规则击中训练...
【专利技术属性】
技术研发人员:林建明,杨懿宁,
申请(专利权)人:深圳萨摩耶数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。