一种随机森林模型的可视化方法、装置及存储介质制造方法及图纸

技术编号:25951193 阅读:21 留言:0更新日期:2020-10-17 03:43
本发明专利技术公开了一种随机森林模型的可视化方法、装置及存储介质,涉及机器学习技术领域,方法包括:从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;获取每一决策树中的每个特征变量的变量重要度,并对所有特征变量按变量重要度进行降序排序;根据目标训练样本集和降序排序后的所有特征变量,从分类树的根节点开始,以基尼系数作为分裂规则依次确定出分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到分类树;生成分类树对应的树形可视化图并输出。本发明专利技术能够将随机森林模型的决策过程进行可视化展现,提升模型的可解释性。

【技术实现步骤摘要】
一种随机森林模型的可视化方法、装置及存储介质
本专利技术涉及机器学习
,特别涉及一种随机森林模型的可视化方法、装置及存储介质。
技术介绍
随机森林算法是利用集成学习的思想将多棵决策树集成的一种算法,通过生成若干弱分类器——决策树,并采用随机选择变量与样本的袋装算法,将弱分类器的投票结果作为最终的预测结果进行输出,从而能得到更合理的分类决策边界,减少整体错误,实现更好的分类效果,现广泛应用于金融风控等领域,具有较强的预测稳定性、抗过拟合性。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:由于随机森林算法是将弱分类器进行集成袋装,在一定程度上类似于黑箱算法,从而导致在结果输出时的可解释性大大降低,目前暂无相关的技术方案可以将随机森林的分类结果通过可视化手段进行展现,这进一步导致用户(例如,风控人员)难以理解模型,并且在多变量情况下,难以识别哪些变量在决策中起到了何种作用,也无法使随机森林模型的决策过程向相关受众进行展现。
技术实现思路
为了解决相关技术中存在的问题,本专利技术实施例提供了一种随机森林模型的可视化方法、装置及存储介质,能够将随机森林模型的决策过程进行可视化展现,提升模型的可解释性。本专利技术实施例提供的具体技术方案如下:第一方面,提供了一种随机森林模型的可视化方法,所述方法包括:从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;获取每一所述决策树中的每个特征变量的变量重要度,并对所有所述特征变量按变量重要度进行降序排序;根据所述目标训练样本集和降序排序后的所有所述特征变量,从所述分类树的根节点开始,以基尼系数作为分裂规则依次确定出所述分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到所述分类树;生成所述分类树对应的树形可视化图并输出。进一步地,所述从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集,包括:在所述随机森林模型的训练过程中,记录每个所述决策树对对应的每一个训练样本的样本类别进行分类投票的投票结果;根据所述记录的投票结果,确定每个所述训练样本的票数最高的样本类别;针对每个所述训练样本,判断所述训练样本的票数最高的样本类别所对应的得票率是否超过第一阈值,若是,则将所述训练样本确定为所述目标训练样本;形成包含多个所述目标训练样本的所述目标训练样本集。进一步地,所述获取每一所述决策树中的每个特征变量的变量重要度,包括:按照各个所述决策树中的基尼系数,在各个所述决策树的袋外样本上计算各个所述决策树中的每个特征变量的变量重要度。进一步地,所述根节点对应的样本集为所述目标训练样本集,所述根据所述目标训练样本集和降序排序后的所有所述特征变量,从所述分类树的根节点开始,以基尼系数作为分裂规则依次确定出所述分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到所述分类树,包括:S1,以所述分类树的根节点作为当前节点,并以降序排序在首位的所述特征变量作为当前特征变量;S2,判断所述当前特征变量是否具有用以划分所述当前节点的当前特征值,以使得所述当前节点对应的基尼系数的减少量不低于第二阈值,若是,则执行步骤S3,否则,则执行步骤S4;S3,以所述当前特征变量以及所述当前特征值作为所述当前节点对应的最优特征变量以及最优分割值,对所述当前节点对应的样本集进行划分生成所述当前节点对应的下一级节点,并执行步骤S5;S4,以所述当前特征变量之后的下一个特征变量作为所述当前特征变量,返回执行步骤S2;S5,以所述当前特征变量之后的下一个特征变量作为所述当前特征变量,并以所述当前节点对应的下一级节点作为所述当前节点,递归执行步骤S2,直至到达叶子节点。进一步地,所述方法还包括:根据所述树形可视化图的结果反馈信息,生成针对所述随机森林模型中的模型参数和/或变量参数进行调整的提示信息。第二方面,提供了一种随机森林模型的可视化装置,所述装置包括:筛选模块,用于从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;获取模块,用于获取每一所述决策树中的每个特征变量的变量重要度,并对所有所述特征变量按变量重要度进行降序排序;构建模块,用于根据所述目标训练样本集和降序排序后的所有所述特征变量,从所述分类树的根节点开始,以基尼系数作为分裂规则依次确定出所述分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到所述分类树;可视化模块,用于生成所述分类树对应的树形可视化图并输出。进一步地,所述筛选模块具体用于:在所述随机森林模型的训练过程中,记录每个所述决策树对对应的每一个训练样本的样本类别进行分类投票的投票结果;根据所述记录的投票结果,确定每个所述训练样本的票数最高的样本类别;针对每个所述训练样本,判断所述训练样本的票数最高的样本类别所对应的得票率是否超过第一阈值,若是,则将所述训练样本确定为所述目标训练样本;形成包含多个所述目标训练样本的所述目标训练样本集。进一步地,所述获取模块具体用于:按照各个所述决策树中的基尼系数,在各个所述决策树的袋外样本上计算各个所述决策树中的每个特征变量的变量重要度。进一步地,所述根节点对应的样本集为所述目标训练样本集,所述构建模块具体用于执行如下步骤:S1,以所述分类树的根节点作为当前节点,并以降序排序在首位的所述特征变量作为当前特征变量;S2,判断所述当前特征变量是否具有用以划分所述当前节点的当前特征值,以使得所述当前节点对应的基尼系数的减少量不低于第二阈值,若是,则执行步骤S3,否则,则执行步骤S4;S3,以所述当前特征变量以及所述当前特征值作为所述当前节点对应的最优特征变量以及最优分割值,对所述当前节点对应的样本集进行划分生成所述当前节点对应的下一级节点,并执行步骤S5;S4,以所述当前特征变量之后的下一个特征变量作为所述当前特征变量,返回执行步骤S2;S5,以所述当前特征变量之后的下一个特征变量作为所述当前特征变量,并以所述当前节点对应的下一级节点作为所述当前节点,递归执行步骤S2,直至到达叶子节点。进一步地,所述装置还包括:提示模块,用于根据所述树形可视化图的结果反馈信息,生成针对所述随机森林模型中的模型参数和/或变量参数进行调整的提示信息。第三方面,提供了一种随机森林模型的可视化装置,所述装置包括:一个或者多个处理器;存储器;所述存储在所述存储器中的程序,当被所述一个或者多个处理器执行时,所述程序使所述处理器执行如上述第一方面任意一项所述的随机森林模型的可视化方法的步骤。第四方面,提供了一种计算机可读存储介质,所述计算机可本文档来自技高网...

【技术保护点】
1.一种随机森林模型的可视化方法,其特征在于,所述方法包括:/n从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;/n获取每一所述决策树中的每个特征变量的变量重要度,并对所有所述特征变量按变量重要度进行降序排序;/n根据所述目标训练样本集和降序排序后的所有所述特征变量,从所述分类树的根节点开始,以基尼系数作为分裂规则依次确定出所述分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到所述分类树;/n生成所述分类树对应的树形可视化图并输出。/n

【技术特征摘要】
1.一种随机森林模型的可视化方法,其特征在于,所述方法包括:
从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集;
获取每一所述决策树中的每个特征变量的变量重要度,并对所有所述特征变量按变量重要度进行降序排序;
根据所述目标训练样本集和降序排序后的所有所述特征变量,从所述分类树的根节点开始,以基尼系数作为分裂规则依次确定出所述分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到所述分类树;
生成所述分类树对应的树形可视化图并输出。


2.根据权利要求1所述的方法,其特征在于,所述从随机森林模型的每个决策树对应的训练样本集中筛选出满足预设条件的目标训练样本,以形成用于构建分类树的目标训练样本集,包括:
在所述随机森林模型的训练过程中,记录每个所述决策树对对应的每一个训练样本的样本类别进行分类投票的投票结果;
根据所述记录的投票结果,确定每个所述训练样本的票数最高的样本类别;
针对每个所述训练样本,判断所述训练样本的票数最高的样本类别所对应的得票率是否超过第一阈值,若是,则将所述训练样本确定为所述目标训练样本;
形成包含多个所述目标训练样本的所述目标训练样本集。


3.根据权利要求1所述的方法,其特征在于,所述获取每一所述决策树中的每个特征变量的变量重要度,包括:
按照各个所述决策树中的基尼系数,在各个所述决策树的袋外样本上计算各个所述决策树中的每个特征变量的变量重要度。


4.根据权利要求1至3任一所述的方法,其特征在于,所述根节点对应的样本集为所述目标训练样本集,所述根据所述目标训练样本集和降序排序后的所有所述特征变量,从所述分类树的根节点开始,以基尼系数作为分裂规则依次确定出所述分类树中的各个节点对应的最优特征变量以及最优分割值,以构建得到所述分类树,包括:
S1,以所述分类树的根节点作为当前节点,并以降序排序在首位的所述特征变量作为当前特征变量;
S2,判断所述当前特征变量是否具有用以划分所述当前节点的当前特征值,以使得所述当前节点对应的基尼系数的减少量不低于第二阈值,若是,则执行步骤S3,否则,则执行步骤S4;
S3,以所述当前特征变量以及所述当前特征值作为所述当前节点对应的最优特征变量以及最优分割值,对所述当前节点对应的样本集进行划分生成所述当前节点对应的下一级节点,并执行步骤S5;
S4,以所述当前特征变量之后的下一个特征变量作为所述当前特征变量,返回执行步骤S2;
S5,以所述当前特征变量之后的下一个特征变量作为所述当前特征变量,并以所述当前节点对应的下一级节点作为所述当前节点,递归执行步骤S2,直至到达叶子节点。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

【专利技术属性】
技术研发人员:刘师雨
申请(专利权)人:苏宁金融科技南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1