System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多维风险决策规则的生成方法及装置制造方法及图纸_技高网

一种多维风险决策规则的生成方法及装置制造方法及图纸

技术编号:39965725 阅读:4 留言:0更新日期:2024-01-09 00:23
本申请提供了一种多维风险决策规则的生成方法及装置,包括:获取训练数据集;按照每个训练样本对应的多个风险变量及风险标签对训练数据集递归式的进行区域划分,构建二叉回归树;从二叉回归树的根节点开始遍历二叉回归树,按照基尼指数构建二叉分类树;对二叉分类树进行减枝处理,得到多个子树,通过交叉验证法从多个子树中确定最优子树,得到至少一个最优规则集合,每个最优规则集合包括多个目标风险变量;对每个最优规则集合进行规则归纳,确定每个最优规则集合对应的最优风险策略。本申请通过二叉树和归纳算法相结合,智能的从多维风险数据空间中快速挖掘出最优风险决策规则,提高风险决策确定效率以及准确性。

【技术实现步骤摘要】

本申请涉及风险决策,尤其涉及一种多维风险决策规则的生成方法及装置


技术介绍

1、传统的风险决策规则通常是从风控数据中加工相关的特征指标,然后按照风险策略规则的原理逻辑,形成专家风险控制策略,然后根据风险策略具体决策逻辑,对场景客户进行量化分析与风险评估,同时以风控决策引擎配置好的风险决策规则,来对客户进行审批和授信。

2、也就是说,现有技术中主要依赖专家经验等常规手段配置并确定风险决策规则,但是风控专家受知识和认知深度的影响,往往无法提取经验之外的风险决策规则,造成风险决策规则与实际效果存在偏差。


技术实现思路

1、有鉴于此,本申请的目的在于至少提供一种多维风险决策规则的生成方法及装置,通过二叉树和归纳算法相结合,智能的从多维风险数据空间中快速挖掘出最优风险决策规则,提高风险决策确定效率以及准确性。

2、本申请主要包括以下几个方面:

3、第一方面,本申请实施例提供一种多维风险决策规则的生成方法,方法包括:获取训练数据集,训练数据集包括多个训练样本,每个训练样本包括多个风险变量及风险标签;按照每个训练样本对应的多个风险变量及风险标签对训练数据集递归式的进行区域划分,构建二叉回归树;从二叉回归树的根节点开始遍历二叉回归树,按照基尼指数构建二叉分类树;对二叉分类树进行减枝处理,得到多个子树,通过交叉验证法从多个子树中确定最优子树,得到至少一个最优规则集合,每个最优规则集合包括多个目标风险变量;对每个最优规则集合进行规则归纳,确定每个最优规则集合对应的最优风险策略。

4、在一可选实施方式中,通过以下方式构建二叉回归树:遍历训练数据集,对训练数据集执行区域划分:从每个训练样本对应的多个风险变量中,确定最优切分变量,使用最优切分变量对训练数据集进行切分,得到多个目标分区以及每个目标分区对应的最优预测风险标签;判断多个目标分区是否均满足划分截止条件;若多个目标分区均分区均满足划分截止条件,则直接完成对该目标分区的处理,由多个目标分区以及每个目标分区对应的最优预测风险标签,形成二叉回归树;若存在任一目标分区不满足划分截止条件,则分别对不满足划分截止条件的目标分区再次进行区域划分。

5、在一可选实施方式中,通过以下方式确定训练数据集对应的多个目标分区以及每个目标分区对应的最优预测风险标签:针对每个训练样本对应的每个风险变量,执行以下处理:分别以该风险变量为切分变量和以该风险变量对应的数据值作为切分点,将每个训练样本中该风险变量对应的数据值与切分点进行比较;将该风险变量对应的数据值小于或者等于切分点的训练样本划分至第一分区,将该风险变量对应的数据值大于切分点的训练样本划分至第二分区;利用第一分区及其对应的第一预设风险标签和第二分区及其对应的第二预设风险标签,确定以该风险变量作为切分变量的切分误差;将全部训练样本下的最小切分误差对应的风险变量作为最优切分变量;将最优切分变量对应的第一分区和第二分区,确定为训练数据集对应的多个目标分区;针对每个目标分区,将该目标分区中各训练样本对应的风险标签之间的均值确定为该目标分区对应的最优预测风险标签。

6、在一可选实施方式中,通过以下方式确定每个变量对应的切分误差:针对第一分区中的每个训练样本,计算该训练样本对应的风险标签与第一预设风险标签之间的第一均方误差;针对第二分区中的每个训练样本,计算该训练样本对应的风险标签与第二预设风险标签之间的第二均方误差;确定第一分区中全部第一均方误差之间的第一和值与第二分区中全部第二均方误差之间的第二和值;将第一和值与第二和值之间的差值确定为该变量对应的切分误差。

7、在一可选实施方式中,从二叉回归树的根节点开始遍历二叉回归树,按照基尼指数构建二叉分类树的步骤包括:针对二叉回归树中的每个节点,执行以下处理:获取该节点对应的目标分区对应的数据集合;针对数据集合中的每个风险变量,执行以下分叉处理:获取该风险变量在全部训练样本中对应的多个取值,分别计算该风险变量在每个可能取值下对应的基尼指数;将最小基尼指数对应的风险变量以及取值确定为最优风险变量以及最优切分点;生成该节点下对应的两个子节点,并按照最优风险变量以及最优切分点,将该节点对应的目标分区中的多个训练样本分配至两个子节点;针对每个子节点,判断该子节点是否满足第二截止条件,若该子节点满足第二截止条件,则停止分叉,若该子节点不满足第二截止条件,则继续对该子节点执行分叉处理;在二叉回归树中节点全部遍历完成后,生成二叉分类树。

8、在一可选实施方式中,通过以下方式确定每个风险变量在每个取值下对应的基尼指数:针对该节点对应的每个风险变量对应的每个取值,执行以下处理:针对该节点对应的每个训练样本,判断该训练样本中该风险变量的取值与该取值是否相等,若该训练样本中该风险变量的取值与该取值相等,则将该训练样本划分至第一特征子集,若该训练样本中该风险变量的取值与该取值不相等,则将该训练样本划分至第二特征子集;结合第一特征子集和第二特征子集,根据基尼指数计算公式确定该风险变量在该取值下的基尼指数。

9、在一可选实施方式中,通过以下方式确定至少一个最优规则集合:对二叉分类树进行剪枝处理:自下而上访问二叉分类树中的每个节点;针对每个节点,确定该节点对应的减枝子树并根据当前损失参数计算减枝子树对应的子树损失;判断子树损失是否等于当前损失参数;若子树损失等于当前损失参数,则从当前二叉分类树中减去最小子树损失对应的减枝子树,并对该节点以多数表决法决定其类,得到当前叉分类树经处理后的分类子树;判断分类子树是否是由根节点单独构成的树,若分类子树为由根节点单独构成的树,则将最小子树损失确定为新的损失参数继续访问下一节点;采用交叉验证法在得到的多个分类子树中选取最优分类子树;确定最优分类子树对应的至少一个最优规则集合,每个最优规则集合包括多个目标风险变量。

10、在一可选实施方式中,通过以下方式确定与每个最优规则集合对应的最优风险策略:获取预设箱子,预设箱子对应的初始值为训练数据集;针对该最优规则集合中每个目标风险变量,按照预设剔除比例确定该目标风险变量对应的候选剔除区域;针对每个候选剔除区域,确定从预设箱子剔除该候选剔除区域后,剩余区域对应的正样本浓度;将最小正样本浓度对应的候选剔除区域确定为目标剔除区域;从预设箱子中剔除目标剔除区域,得到更新后的预设箱子;确定训练数据集中属于更新后的预设箱子的正样本数量占比;若样本数量占比小于或者等于预设占比,则将更新后的预设箱子确定为最优风险策略,若样本数量占比大于预设占比,则利用更新后的预设箱子,返回重新确定每个目标风险变量对应的候选剔除区域。

11、在一可选实施方式中,候选剔除区域包括第一候选剔除区域和第二候选剔除区域,其中,通过以下方式确定每个目标风险变量对应的候选剔除区域:按照预设剔除比例确定预设箱子中的第一分位和第二分位,第一分位为预设剔除比例对应的分位,第二分位为剩余比例对应的分位,预设剔除比例和剩余比例的和值为1;针对每个目标风险变量,执行以下处理:分别确定该目标本文档来自技高网...

【技术保护点】

1.一种多维风险决策规则的生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,通过以下方式构建二叉回归树:

3.根据权利要求2所述的方法,其特征在于,通过以下方式确定所述训练数据集对应的多个目标分区以及每个目标分区对应的最优预测风险标签:

4.根据权利要求2所述的方法,其特征在于,通过以下方式确定每个变量对应的切分误差:

5.根据权利要求1所述的方法,其特征在于,从二叉回归树的根节点开始遍历二叉回归树,按照基尼指数构建二叉分类树的步骤包括:

6.根据权利要求5所述的方法,其特征在于,通过以下方式确定每个风险变量在每个取值下对应的基尼指数:

7.根据权利要求1所述的方法,其特征在于,通过以下方式确定至少一个最优规则集合:

8.根据权利要求1所述的方法,其特征在于,通过以下方式确定与每个最优规则集合对应的最优风险策略:

9.根据权利要求8所述的方法,其特征在于,所述候选剔除区域包括第一候选剔除区域和第二候选剔除区域,

10.一种多维风险决策规则的生成装置,其特征在于,所述装置包括:

...

【技术特征摘要】

1.一种多维风险决策规则的生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,通过以下方式构建二叉回归树:

3.根据权利要求2所述的方法,其特征在于,通过以下方式确定所述训练数据集对应的多个目标分区以及每个目标分区对应的最优预测风险标签:

4.根据权利要求2所述的方法,其特征在于,通过以下方式确定每个变量对应的切分误差:

5.根据权利要求1所述的方法,其特征在于,从二叉回归树的根节点开始遍历二叉回归树,按照基尼指数构建二叉分类树的步骤...

【专利技术属性】
技术研发人员:陈明石建伟肖勃飞戈汉权杜培良
申请(专利权)人:中电金信数字科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1