当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于随机森林的离婚判决方法和系统技术方案

技术编号:28040012 阅读:52 留言:0更新日期:2021-04-09 23:23
本发明专利技术公开了一种基于随机森林的离婚判决方法和系统,所述基于随机森林的离婚判决包括数据处理模块、变量筛选模块、模型训练模块和判决预测模块,获取多个粗筛选变量,并对所述粗筛选变量进行数据整合和缺失值填充;接着,利用逐步回归对所述粗筛选变量进行初步拟合,并根据每个所述粗筛选变量的量级程度,得到多个最终变量;然后,利用随机森林的方法分批次对多个所述最终变量进行训练,然后利用调整参数后的所述随机森林模型进行预测估计,提高模型预测准确度。

【技术实现步骤摘要】
一种基于随机森林的离婚判决方法和系统
本专利技术涉及机器学习
,尤其涉及一种基于随机森林的离婚判决方法和系统。
技术介绍
从本质上来讲,这是一个在离婚纠纷案件中,以原被告基本信息情况为自变量,裁判结果为因变量的二值分类问题。解决这类分类问题的传统方法莫过于决策树模型。通常决策树模型建立的目的是为了将目标变量以一定标准区分,也就是寻求最纯净的划分,这通常涉及两方面内容:一是决策树的建立,二是决策树的减枝。前者主要通过信息熵,基尼系数等方法确定最优的父节点和子节点(变量重要程度的选择次序)和对于每个变量的最优分裂点;而后者主要为了防止分类节点不断的重复所造成的决策树分支过多而导致的过拟合现象(主要分为预剪枝和后剪枝)。总体而言,传统决策树模型存在以下几个问题:即使引入剪枝的方法,决策树模型也很容易形成过拟合,从而导致模型的泛化能力很弱;并且还容易受到异常值的影响;当处理非均衡的数据时,结果会有明显的失真,从而导致预测准确率低下。
技术实现思路
本专利技术提供了一种基于随机森林的离婚判决方法和系统,提高模型预测准确率本文档来自技高网...

【技术保护点】
1.一种基于随机森林的离婚判决方法,其特征在于,包括以下步骤:/n获取多个粗筛选变量,并对所述粗筛选变量进行数据整合和缺失值填充;/n利用逐步回归模型对所述粗筛选变量进行初步拟合,并根据每个所述粗筛选变量的量级程度,得到多个最终变量;/n利用随机森林的方法份批次对多个所述最终变量进行训练利用所述随机森林模型对多个所述最终变量进行训练,并利用调整参数后的所述随机森林模型进行预测估计。/n

【技术特征摘要】
1.一种基于随机森林的离婚判决方法,其特征在于,包括以下步骤:
获取多个粗筛选变量,并对所述粗筛选变量进行数据整合和缺失值填充;
利用逐步回归模型对所述粗筛选变量进行初步拟合,并根据每个所述粗筛选变量的量级程度,得到多个最终变量;
利用随机森林的方法份批次对多个所述最终变量进行训练利用所述随机森林模型对多个所述最终变量进行训练,并利用调整参数后的所述随机森林模型进行预测估计。


2.如权利要求1所述的一种基于随机森林的离婚判决方法,其特征在于,利用逐步回归对所述粗筛选变量进行初步拟合,并根据每个所述粗筛选变量的量级程度,得到多个最终变量,包括:首先引入一个粗筛选变量,先查看这个所述粗筛选变量是否使模型发生显著性变化(F检验),若发生显著变化,则再对所有逐个最终变量进行t检验,当由于新引入变量而导致其中一个不再显著时,则剔除该变量,反复如此,直到既无新引入变量也无再剔除变量。


3.如权利要求2所述的一种基于随机森林的离婚判决方法,其特征在于,得到设定T(可调参数)个决策树,并对每个所述决策树进行拟合,通过每个决策树的结果“投票”出整个随机森林模型的结果。
对于每个决策树的拟合:总基于计算出的信息增益和基尼指数,按照设定的分裂法,得到对应的分裂顺序和分裂阈值点;根据所述分裂顺序和所述分裂阈值点,得到对应的决策树模型。


4.如权利要求3所述的一种基于随机森林的离婚判决方法,其特征在于,基于计算出的信息增益和基尼指数,按照设定的分裂法,得到对应的分裂顺序和分裂阈值点之前,所述方法还包括:
将对应分类下的样本率与以2为底所...

【专利技术属性】
技术研发人员:郭兵朱劲松罗亚潘建新
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1