基于机器学习的预测企业合同违约概率的方法及系统技术方案

技术编号:37473203 阅读:9 留言:0更新日期:2023-05-06 09:57
本发明专利技术公开了一种基于机器学习的预测企业合同违约概率的方法及系统,方法包括以下步骤:划分时间窗口为观察期和表现期,采集企业及其关联企业观察期内的风险特征数据;基于预先构建的风险特征指标,生成风险特征数据表;筛选作为过合同纠纷裁判文书中被告的企业,根据裁判文书,生成标签数据表;将标签数据表与风险特征数据表拼接形成宽表;采用LightGBM学习算法,对宽表数据进行建模,并对模型进行迭代优化;基于优化后的模型,进行企业合同违约风险概率的预测。本发明专利技术通过窗口划分,根据当前及历史信息实现对未来违约风险概率的预测,从目标企业和关联企业的风险特征两个维度考虑,全面反映了企业违约概率,提高了预测结果的准确性。的准确性。的准确性。

【技术实现步骤摘要】
基于机器学习的预测企业合同违约概率的方法及系统


[0001]本专利技术涉及一种基于机器学习的预测企业合同违约概率的方法及系统,属于大数据分析


技术介绍

[0002]企业寻找供应商或者客户时,需要考虑合同违约等因素,企业一旦违约,将会给投资者带来巨大的损失,投资前对企业的合同履约能力进行评估,就能够得知企业合同违约的风险,减少损失,企业的合同违约风险评价是以帮助企业寻找供应商或者客户为目的,对目标企业进行合同违约风险的评估。
[0003]企业的合同违约风险评价反映了目标企业履行合同的程度,在现有技术中,对企业的合同违约风险评价往往通过人为依据经验规定企业的评分规则来进行对企业违约风险的评价,受到规则制定人主观影响较大,容易出现人为偏差,导致评价结果的准确性较差,且现有方法一般基于目标企业有关合同纠纷的裁判文书来评估企业的合同违约风险,仅考虑目标企业涉及的已裁决合同纠纷,维度比较单一,使得得到的合同违约风险评价并不能全面且准确的反映企业存在的风险,评估结果只反应当前的风险水平,没有去预测未来的风险水平。

技术实现思路

[0004]为了解决上述问题,本专利技术提出了一种基于机器学习的预测企业合同违约概率的方法及系统。全面反映了目标企业存在的风险,实现了对未来企业合同违约风险概率的预测,提高了预测结果的准确性。
[0005]本专利技术解决其技术问题采取的技术方案是:
[0006]一方面,本专利技术实施例提供的一种基于机器学习的预测企业合同违约概率的方法,包括以下步骤:
>[0007]划分时间窗口为观察期和表现期,采集企业及其关联企业观察期内的风险特征数据;
[0008]基于预先构建的风险特征指标,生成风险特征数据表;
[0009]筛选出作为过合同纠纷裁判文书中的被告的企业,根据裁判文书,生成标签数据表;
[0010]将标签数据表与风险特征数据表拼接形成要分析的宽表;
[0011]采用LightGBM学习算法,对所述宽表数据进行建模,并对模型进行迭代优化得到企业合同违约风险预测模型;
[0012]基于优化后的企业合同违约风险预测模型,进行企业合同违约风险概率的预测。
[0013]作为本实施例一种可能的实现方式,所述划分时间窗口为观察期和表现期,包括:
[0014]根据是否作为过合同纠纷裁判文书中的被告将企业定义为合同违约客户和企业正常客户,所述合同违约客户为出现过作为被告的合同纠纷的企业,所述合同正常客户为
截止当前,没有出现过作为被告的合同纠纷的企业;
[0015]对于合同违约客户,将裁判文书的判决日期所在月份前推6个月作为表现期,对于合同正常客户,将当前日期所在月份前推6个月作为表现期;
[0016]将表现期期初前推3

5年作为观察期。
[0017]作为本实施例一种可能的实现方式,所述采集企业及其关联企业观察期内的风险特征数据,包括:
[0018]所述风险特征数据为企业的工商信息、司法信息、经营信息和舆情信息;其中,所述工商信息至少包括股东信息、对外投资、变更信息、分支机构;所述司法信息至少包括法院公告、开庭公告、被执行人、失信被执行人、裁判文书;所述经营信息至少包括融资信息、股权出质、股权质押、环保处罚、清算信息、税收违法信息、欠税公告、行政处罚。
[0019]作为本实施例一种可能的实现方式,所述基于预先构建的风险特征指标,生成风险特征数据表,包括:
[0020]将所述企业及其关联企业的风险特征数据分别作为第一风险特征和第二风险特征;
[0021]基于预先构建的风险特征指标,生成第一风险特征月度数据表和第二风险特征数据表。
[0022]作为本实施例一种可能的实现方式,所述筛选出作为过合同纠纷裁判文书中的被告的企业,根据裁判文书,生成标签数据表,包括:
[0023]所述标签数据表包括企业ID、企业名称、角色、判决日期、裁判月份和月份,所述月份为包括判决月份在内的判决月份前推6个月的月份。
[0024]作为本实施例一种可能的实现方式,所述将标签数据表与风险特征数据表拼接形成要分析的宽表,包括:
[0025]按照企业ID和月份两个关键字段将标签数据表和第一风险特征月度数据表拼接;
[0026]按照企业ID关键字段将第二风险特征数据表与上述拼接后表格拼接形成要分析的宽表。
[0027]作为本实施例一种可能的实现方式,所述采用LightGBM学习算法,对所述宽表数据进行建模,并对模型进行迭代优化得到企业合同违约风险预测模型,包括:
[0028]将宽表数据样本划分为测试集和训练集,并对测试集和训练集做特征工程;
[0029]采用K

fold交叉验证方法确定模型最优参数组合;
[0030]采用LightGBM学习算法建立模型,并对模型进行评价:
[0031][0032]其中,precision表示模型测试后的精确率,recall表示模型测试后的召回率;
[0033]precision(精确率)和recall(召回率),是二分类问题常用的评价指标,precision表示模型测试后的精确率,表示预测的结果中有多少样本是正确,当值为100%时,表示没有误检,recall表示模型测试后的召回率,表示预测的结果中有多少是合同违约客户,当取值为100%时,标识没有捡漏,精确率和召回率是相互影响的,理想情况下做到两者都高,但是一般情况下精确率高、召回率就低,召回率低,精确率就高,在两者都要求高的情况下,用F1来衡量。
[0034]将测试集数据输入训练好的模型,根据F1值评估模型的泛化能力,泛化能力达不到设定要求时,调整LightGBM模型参数并进行训练优化迭代,直至泛化能力达到设定要求。
[0035]另一方面,本专利技术实施例提供的一种基于机器学习的预测企业合同违约概率的系统,包括:
[0036]数据采集模块,用于划分时间窗口为观察期和表现期,采集企业及其关联企业观察期内的风险特征数据;
[0037]风险特征获取模块,用于基于预先构建的风险特征指标,生成风险特征数据表;
[0038]标签数据获取模块,用于筛选出作为过合同纠纷裁判文书中的被告的企业,根据裁判文书,生成标签数据表;
[0039]数据关联模块,用于将标签数据表与风险特征数据表拼接形成要分析的宽表;
[0040]模型建立模块,用于采用LightGBM学习算法,对所述宽表数据进行建模,并对模型进行迭代优化得到企业合同违约风险预测模型;
[0041]违约风险预测模块,用于基于优化后的企业合同违约风险预测模型,进行企业合同违约风险概率的预测。
[0042]第三方面,本专利技术实施例提供的一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述AGV仿真装置运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的预测企业合同违约概率的方法,其特征在于,包括以下步骤:划分时间窗口为观察期和表现期,采集企业及其关联企业观察期内的风险特征数据;基于预先构建的风险特征指标,生成风险特征数据表;筛选出作为过合同纠纷裁判文书中的被告的企业,根据裁判文书,生成标签数据表;将标签数据表与风险特征数据表拼接形成要分析的宽表;采用LightGBM学习算法,对所述宽表数据进行建模,并对模型进行迭代优化得到企业合同违约风险预测模型;基于优化后的企业合同违约风险预测模型,进行企业合同违约风险概率的预测。2.根据权利要求1所述的一种基于机器学习的预测企业合同违约概率的方法,其特征在于,所述划分时间窗口为观察期和表现期,包括:根据是否作为过合同纠纷裁判文书中的被告将企业定义为合同违约客户和企业正常客户,所述合同违约客户为出现过作为被告的合同纠纷的企业,所述合同正常客户为截止当前,没有出现过作为被告的合同纠纷的企业;对于合同违约客户,将裁判文书的判决日期所在月份前推6个月作为表现期,对于合同正常客户,将当前日期所在月份前推6个月作为表现期;将表现期期初前推3

5年作为观察期。3.根据权利要求1所述的一种基于机器学习的预测企业合同违约概率的方法,其特征在于,所述采集企业及其关联企业观察期内的风险特征数据,包括:所述风险特征数据为企业的工商信息、司法信息、经营信息和舆情信息;其中,所述工商信息至少包括股东信息、对外投资、变更信息、分支机构;所述司法信息至少包括法院公告、开庭公告、被执行人、失信被执行人、裁判文书;所述经营信息至少包括融资信息、股权出质、股权质押、环保处罚、清算信息、税收违法信息、欠税公告、行政处罚。4.根据权利要求1所述的一种基于机器学习的预测企业合同违约概率的方法,其特征在于,所述基于预先构建的风险特征指标,生成风险特征数据表,包括:将所述企业及其关联企业的风险特征数据分别作为第一风险特征和第二风险特征;基于预先构建的风险特征指标,生成第一风险特征月度数据表和第二风险特征数据表。5.根据权利要求4所述的一种基于机器学习的预测企业合同违约概率的方法,其特征在于,所述标签数据表包括企业ID、企业名称、角色、判决日期、裁判月份和月份,所述月份为包括判决月份在内的判决月份前推6个月的月份。6.根据权利要求5所述的一种基于机器学习的预测企业合同违约概率的方法,其特征...

【专利技术属性】
技术研发人员:李立红张挚庸王继瑞阎锦韬
申请(专利权)人:山东省征信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1