当前位置: 首页 > 专利查询>四川大学专利>正文

基于XGboost的两阶段离婚判决方法与系统技术方案

技术编号:31379148 阅读:31 留言:0更新日期:2021-12-15 11:21
本发明专利技术涉及法律服务领域,具体涉及一种基于XGboost的两阶段离婚判决方法与系统,包括对样本中离婚双方数据进行预处理,得到完备样本;将完备样本拆分成训练集和测试集并消除变量的不平衡性;利用XGboost对训练集初步进行拟合,并根据拟合得分对初步筛选变量进行筛选,得到第一阶段XGboost模型;基于第一阶段XGboost模型和投票算法得到可识别数据集和未识别数据集:对于可识别数据集,利用第一阶段所筛选的变量并结合第一阶段XGboost模型进行拟合预测,对于未识别数据集,重新定位原始数据,重新筛选变量,利用XGboost进行第二次模型构造与预测,从而可以保证模型根据数据特性因地制宜,提高预测准确性。提高预测准确性。提高预测准确性。

【技术实现步骤摘要】
基于XGboost的两阶段离婚判决方法与系统


[0001]本专利技术涉及法律服务领域,尤其涉及一种基于XGboost的两阶段离婚判决方法与系统。

技术介绍

[0002]离婚判决为以原被告基本信息情况,案件事实情况为自变量,以法院判决是否离婚为因变量的二值分类问题。解决这个问题的传统机器学习方法有:支持向量机,决策树,随机森林等模型。
[0003]对于支持向量机,决策树,随机森林等技术,其缺陷主要在于以下几个方面:
[0004]1.当自变量大量不显著时,数据会呈现一种“重叠”或“不可识别”的现象,进而影响模型的稳健性和准确率。具体来说,在模型剔除大量不重要变量而保留少量重要变量后,数据会呈现一种“重叠”的现象,即对于某些样本,其每个自变量上均显示相同数值,但是其最终因变量却不一致。
[0005]2.模型十分容易过拟合,导致训练集和测试集上的准确度大相径庭(测试集准确度高,训练集准确度低)。
[0006]3.缺少填充缺失值的方法。传统方法主要包括:1)舍弃大量样本,这样会导致数据信息损失。2)平均值,中位数填充,这样本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于XGboost的两阶段离婚判决方法,其特征在于,包括:对样本中离婚双方数据进行预处理,得到完备样本;将完备样本拆分成训练集和测试集并消除变量的不平衡性;利用XGboost对训练集初步进行拟合,并根据拟合得分对初步筛选变量进行筛选,得到第一组筛选变量,并进行第一次XGboost回归,得到第一阶段XGboost模型;基于第一阶段XGboost模型和投票算法得到可识别数据集和未识别数据集,对于可识别数据集,利用第一阶段所筛选的变量并结合第一阶段XGboost模型进行拟合预测,对于未识别数据集,重新定位原始数据,重新筛选变量,并利用XGboost进行第二次模型构造与预测。2.如权利要求1所述的一种基于XGboost的两阶段离婚判决方法,其特征在于,所述对样本中离婚双方数据进行预处理,得到完备样本的具体步骤是:获取样本中离婚双方的数据;对数据进行筛除;基于数据相关性进行数据整合和缺失值填充;基于Logistic回归对数据进行深度填充。3.如权利要求2所述的一种基于XGboost的两阶段离婚判决方法,其特征在于,所述对数据进行筛除的具体方式是:剔除数据缺失率高于60%的数据。4.如权利要求2所述的一种基于XGboost的两阶段离婚判决方法,其特征在于,所述基于Logistic回归对数据进行深度填充的具体步骤是:对于含有缺失值的样本,利用现有的完备样本对缺失位置的变量进行Logistic回归;预测出缺失位置理论上应填充数值的概率;基于概率通过随机数生成数值进行填充。5.如权利要求1所述的一种基于XGboost的两阶段离婚判决方法,其特征在于,所述将完备样本拆分成训练集和测试集并消除变量的不平衡性的具体步骤是:计算训练集数据中离婚样...

【专利技术属性】
技术研发人员:朱劲松郭兵罗应婷潘建新
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1