风险检测模型训练方法、装置、介质及设备制造方法及图纸

技术编号:38257235 阅读:8 留言:0更新日期:2023-07-27 10:19
本说明书实施例公开了一种风险检测模型训练方法、装置、存储介质及设备。该方法包括:对第一样本数据进行规则学习,得到与第一样本数据对应的风险检测规则,第一样本数据包括未标记样本和标记风险样本,未标记样本的数量大于标记风险样本的数量;基于风险检测规则对第一样本数据中的未标记样本进行标记,得到第二样本数据,第二样本数据包括潜在风险样本、潜在正常样本以及标记风险样本;基于第二样本数据,对风险检测模型进行训练。对风险检测模型进行训练。对风险检测模型进行训练。

【技术实现步骤摘要】
风险检测模型训练方法、装置、介质及设备


[0001]本说明书涉及机器学习
,尤其涉及一种风险检测模型训练方法、装置、存储介质及设备。

技术介绍

[0002]风险检测,旨在通过机器学习等方式发现潜在的风险案例,在金融风控例如信用卡欺诈等场景具有广泛需要。
[0003]在相关技术方案中,通过无监督学习例如异常检测算法或者有监督的学习方法来确定潜在的风险案例。然而,在真实的任务场景中,无监督学习方法往往检测的准确性较低,而有监督学习方法则需要消耗大量的人力财力来进行标注。
[0004]因此,如何准确并且低成本地确定潜在的风险案例,成为了亟待解决的技术难题。

技术实现思路

[0005]本说明书提供一种风险检测模型训练方法、装置、存储介质及设备,能够准确并且低成本地确定潜在的风险案例。
[0006]第一方面,本说明书实施例提供一种风险检测模型训练方法,包括:
[0007]对第一样本数据进行规则学习,得到与所述第一样本数据对应的风险检测规则,所述第一样本数据包括未标记样本和标记风险样本,所述未标记样本的数量大于所述标记风险样本的数量;
[0008]基于所述风险检测规则对所述第一样本数据中的所述未标记样本进行标记,得到第二样本数据,所述第二样本数据包括潜在风险样本、潜在正常样本以及所述标记风险样本;
[0009]基于所述第二样本数据,对所述风险检测模型进行训练。
[0010]第二方面,本说明书实施例提供一种风险检测模型训练装置,包括:
[0011]规则学习模块,用于对第一样本数据进行规则学习,得到与所述第一样本数据对应的风险检测规则,所述第一样本数据包括未标记样本和标记风险样本,所述未标记样本的数量大于所述标记风险样本的数量;
[0012]标记模块,用于基于所述风险检测规则对所述第一样本数据中的所述未标记样本进行标记,得到第二样本数据,所述第二样本数据包括潜在风险样本、潜在正常样本以及所述标记风险样本;
[0013]训练模块,用于基于所述第二样本数据,对所述风险检测模型进行训练。
[0014]第三方面,本说明书实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法的步骤。
[0015]第四方面,本说明书实施例提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或处理器执行上述的方法的步骤。
[0016]第五方面,本说明书实施例提供一种电子设备,包括:处理器和存储器;其中,所述
存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法的步骤。
[0017]根据本说明书实施例的技术方案,一方面,引入规则学习的方式,得到样本数据对应的风险检测规则,基于风险检测规则对未标记的大量样本进行标记,从而能够以一个低成本的方式生成标记样本,例如仅需要专家去对学习到的规则进行校正,而不需要去逐个判断未标记样本的标签;另一方面,由于能够低成本地生成标记样本,基于重新标记的样本集合,对风险检测模型进行训练,从而能够通过训练后的风险检测模型准确并且低成本地确定潜在的风险案例。
附图说明
[0018]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本说明书实施例提供的一种风险检测模型训练方法的实施环境的示意图;
[0020]图2为本说明书实施例提供的一种风险检测模型训练方法的流程示意图;
[0021]图3为根据本说明书实施例提供的通过代价敏感学习的方式对风险检测模型进行训练的流程示意图;
[0022]图4为根据本说明书实施例提供的通过多个学习器对风险检测模型进行训练的流程示意图;
[0023]图5为根据本说明书实施例提供的通过两个学习器对风险检测模型进行训练的流程示意图;
[0024]图6为根据本说明书实施例提供的风险检测模型训练方法的实施系统的架构示意图;
[0025]图7为本说明书实施例提供的一种风险检测模型训练装置的结构示意图;
[0026]图8为本说明书实施例提供的一种电子设备的结构示意图。
具体实施方式
[0027]为使得本说明书的特征和优点能够更加的明显和易懂,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而非全部实施例。基于本说明书中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
[0028]首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
[0029]规则学习:规则学习是从训练数据中学习出一组能用于对未见示例进行判别的规则,例如形式为IF

THEN

的形式,规则可以包括一个条件和一个预测,每个规则的条件部分都有一个或多个属性值,如岁数>30。规则学习属于符号主义学习的一类,与神经网络和支持向量机等这样的“黑箱模型”相比,规则学习具有更好的解释性,能使用户更直观地对判别过程有所了解。
[0030]风险检测:机器学习的一类重要问题,即通过对数据样本的分析,去发现数据中具有风险的样本。在诸如非法账户检测、欺诈交易检测等问题上有着广泛的应用。
[0031]代价敏感学习:是用于解决类别不平衡问题的一类重要方法,代价敏感学习中不同的样本的代价例如损失权重不同。该方法在训练分类模型时,不再以样本的整体误差较小化为训练目标,而是转而以整体误分代价的较小化为训练目标。
[0032]弱监督学习:机器学习的一类重要问题,其使用有限的、含有噪声的或者标注不准确的数据来进行模型参数的训练。相比传统监督学习,弱监督学习中的监督信息相对匮乏;相比无监督学习,又具有一定数量的监督信息。
[0033]基于机器学习确定潜在的风险案例主要有两种方式:一种是通过无监督学习方法,例如异常检测方法来挖掘异常风险的模式,从而定位潜在风险;另一种是通过有监督学习方法定位潜在风险,有监督学习方法在具备足够数量的标记样本的前提下,往往能够取得不错的效果。
[0034]然而,在真实的任务场景中,无监督学习方法往往检测的准确性较低,而有监督学习方法则需要消耗大量的人力财力来进行标注。在真实的任务场景下,往往仅能够拿到比较少量的标注样本(比如用户电话反馈问题获得的标记),如何基于这些少量的标注样本去构建合适的风险检测模型成为了关注的焦点。然而,在实践中发现,由于标注样本的匮乏,即使是针对性设计的风险检测模型表现依然不尽人意。
[0035]基于上述内容,本说明书实施例提供了一种基于极少量有标记风险样本的风本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种风险检测模型训练方法,包括:对第一样本数据进行规则学习,得到与所述第一样本数据对应的风险检测规则,所述第一样本数据包括未标记样本和标记风险样本,所述未标记样本的数量大于所述标记风险样本的数量;基于所述风险检测规则对所述第一样本数据中的所述未标记样本进行标记,得到第二样本数据,所述第二样本数据包括潜在风险样本、潜在正常样本以及所述标记风险样本;基于所述第二样本数据,对所述风险检测模型进行训练。2.根据权利要求1所述的方法,其中,所述基于所述第二样本数据,对所述风险检测模型进行训练,包括:基于所述第二样本数据,通过代价敏感学习的方式对所述风险检测模型进行训练,其中,所述第二样本数据中所述潜在风险样本的损失权重大于所述潜在正常样本的损失权重。3.根据权利要求2所述的方法,其中,所述基于所述第二样本数据,通过代价敏感学习的方式对所述风险检测模型进行训练,包括:基于所述潜在风险样本的样本数量与所述潜在正常样本的样本数量,确定所述潜在风险样本的损失权重以及所述潜在正常样本的损失权重;基于所述损失权重,确定所述潜在风险样本或所述潜在正常样本对应的所述风险检测模型的加权模型损失;基于所述加权模型损失,对所述风险检测模型进行训练。4.根据权利要求3所述的方法,其中,所述基于所述潜在风险样本的样本数量与所述潜在正常样本的样本数量,确定所述潜在风险样本的损失权重以及所述潜在正常样本的损失权重,包括:确定所述潜在风险样本的样本数量与所述潜在正常样本的样本数量的比例;基于所述比例确定所述潜在风险样本的损失权重以及所述潜在正常样本的损失权重,其中,所述潜在风险样本与所述潜在正常样本的损失权重与样本数量之间成反比例。5.根据权利要求1所述的方法,其中,在所述基于所述第二样本数据,对所述风险检测模型进行训练之前,所述方法还包括:基于上一训练轮次的各个样本数据的输出得分,从多个所述潜在风险样本中选取预定比例的潜在风险样本;所述基于所述第二样本数据,对所述风险检测模型进行训练,包括:针对当前训练轮次,基于所述预定比例的潜在风险样本,对所述风险检测模型进行训练。6.根据权利要求1所述的方法,其中,所述风险检测模型包括多个学习器,所述多个学习器中的一个学习器为当前学习器,所述多个学习器中的所述当前学习器之外的学习器为参考学习器,所述基于所述第二样本数据,对所述风险检测模型进行训练,包括:针对所述当前学习器,根据各个所述参考学习器的上一训练轮次的样本数据的输出得分,获取各个所述参考学习器对应的预定比例的参考样本数据;基于所述参考样本数据,对所述当前学习器进行训练,得到所述当前学习器的当前训练轮次的各个参考样本数据的输出得分。
7.根据权利要求6所述的方法,其中,所述多个学习器包括第一学习器和第二学习器...

【专利技术属性】
技术研发人员:张雅淋李龙飞周俊
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1