风险检测模型训练方法、装置、介质及设备制造方法及图纸

技术编号：38257235 阅读：8 留言：0更新日期：2023-07-27 10:19

本说明书实施例公开了一种风险检测模型训练方法、装置、存储介质及设备。该方法包括：对第一样本数据进行规则学习，得到与第一样本数据对应的风险检测规则，第一样本数据包括未标记样本和标记风险样本，未标记样本的数量大于标记风险样本的数量；基于风险检测规则对第一样本数据中的未标记样本进行标记，得到第二样本数据，第二样本数据包括潜在风险样本、潜在正常样本以及标记风险样本；基于第二样本数据，对风险检测模型进行训练。对风险检测模型进行训练。对风险检测模型进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
风险检测模型训练方法、装置、介质及设备

[0001]本说明书涉及机器学习
，尤其涉及一种风险检测模型训练方法、装置、存储介质及设备。

技术介绍

[0002]风险检测，旨在通过机器学习等方式发现潜在的风险案例，在金融风控例如信用卡欺诈等场景具有广泛需要。
[0003]在相关技术方案中，通过无监督学习例如异常检测算法或者有监督的学习方法来确定潜在的风险案例。然而，在真实的任务场景中，无监督学习方法往往检测的准确性较低，而有监督学习方法则需要消耗大量的人力财力来进行标注。
[0004]因此，如何准确并且低成本地确定潜在的风险案例，成为了亟待解决的技术难题。

技术实现思路

[0005]本说明书提供一种风险检测模型训练方法、装置、存储介质及设备，能够准确并且低成本地确定潜在的风险案例。
[0006]第一方面，本说明书实施例提供一种风险检测模型训练方法，包括：
[0007]对第一样本数据进行规则学习，得到与所述第一样本数据对应的风险检测规则，所述第一样本数据包括未标记样本和标记风险样本，所述未标记样本的数量大于所述标记风险样本的数量；
[0008]基于所述风险检测规则对所述第一样本数据中的所述未标记样本进行标记，得到第二样本数据，所述第二样本数据包括潜在风险样本、潜在正常样本以及所述标记风险样本；
[0009]基于所述第二样本数据，对所述风险检测模型进行训练。
[0010]第二方面，本说明书实施例提供一种风险检测模型训练装置，包括：
[0011...

【技术保护点】

【技术特征摘要】
1.一种风险检测模型训练方法，包括：对第一样本数据进行规则学习，得到与所述第一样本数据对应的风险检测规则，所述第一样本数据包括未标记样本和标记风险样本，所述未标记样本的数量大于所述标记风险样本的数量；基于所述风险检测规则对所述第一样本数据中的所述未标记样本进行标记，得到第二样本数据，所述第二样本数据包括潜在风险样本、潜在正常样本以及所述标记风险样本；基于所述第二样本数据，对所述风险检测模型进行训练。2.根据权利要求1所述的方法，其中，所述基于所述第二样本数据，对所述风险检测模型进行训练，包括：基于所述第二样本数据，通过代价敏感学习的方式对所述风险检测模型进行训练，其中，所述第二样本数据中所述潜在风险样本的损失权重大于所述潜在正常样本的损失权重。3.根据权利要求2所述的方法，其中，所述基于所述第二样本数据，通过代价敏感学习的方式对所述风险检测模型进行训练，包括：基于所述潜在风险样本的样本数量与所述潜在正常样本的样本数量，确定所述潜在风险样本的损失权重以及所述潜在正常样本的损失权重；基于所述损失权重，确定所述潜在风险样本或所述潜在正常样本对应的所述风险检测模型的加权模型损失；基于所述加权模型损失，对所述风险检测模型进行训练。4.根据权利要求3所述的方法，其中，所述基于所述潜在风险样本的样本数量与所述潜在正常样本的样本数量，确定所述潜在风险样本的损失权重以及所述潜在正常样本的损失权重，包括：确定所述潜在风险样本的样本数量与所述潜在正常样本的样本数量的比例；基于所述比例确定所述潜在风险样本的损失权重以及所述潜在正常样本的损失权重，其中，所述潜在风险样本与所述潜在正常样本的损失权重与样本数量之间成反比例。5.根据权利要求1所述的方法，其中，在所述基于所述第二样本数据，对所述风险检测模型进行训练之前，所述方法还包括：基于上一训练轮次的各个样本数据的输出得分，从多个所述潜在风险样本中选取预定比例的潜在风险样本；所述基于所述第二样本数据，对所述风险检测模型进行训练，包括：针对当前训练轮次，基于所述预定比例的潜在风险样本，对所述风险检测模型进行训练。6.根据权利要求1所述的方法，其中，所述风险检测模型包括多个学习器，所述多个学习器中的一个学习器为当前学习器，所述多个学习器中的所述当前学习器之外的学习器为参考学习器，所述基于所述第二样本数据，对所述风险检测模型进行训练，包括：针对所述当前学习器，根据各个所述参考学习器的上一训练轮次的样本数据的输出得分，获取各个所述参考学习器对应的预定比例的参考样本数据；基于所述参考样本数据，对所述当前学习器进行训练，得到所述当前学习器的当前训练轮次的各个参考样本数据的输出得分。
7.根据权利要求6所述的方法，其中，所述多个学习器包括第一学习器和第二学习器...

【专利技术属性】
技术研发人员：张雅淋，李龙飞，周俊，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人