基于逻辑回归模型的企业外迁风险评估方法技术

技术编号:20426830 阅读:36 留言:0更新日期:2019-02-23 09:04
本发明专利技术公开了一种基于逻辑回归模型的企业外迁风险评估方法,其包括如下步骤:S1,收集企业外迁实例的信息字段以及运营商提供的脱敏电信数据,选取企业外迁相关变量;S2,对企业外迁相关变量进行数据分箱;S3,筛除低预测能力指标;S4,剔除高相关性指标:S5,采用逻辑回归构建企业外迁预测模型;S6,对预测模型进行检验;S7,通过所述步骤S6输出的企业外迁预测模型对企业外迁风险评估。本发明专利技术基于逻辑回归构建企业外迁预测模型,填补了企业外迁量化分析模型的空白,且模型具有较强的预测能力。

【技术实现步骤摘要】
基于逻辑回归模型的企业外迁风险评估方法
本专利技术涉及风险评估的
,特别涉及一种基于逻辑回归模型的企业外迁风险评估方法。
技术介绍
企业迁移是企业发展与成长过程中对资源、要素、市场、环境等做出的一种综合选择,是市场经济发展到一定阶段的必然产物。虽然如此,对于具体城市而言高端制造业的流失无疑是不利于其对应的产业发展与升级,因此地方政府非常希望能够将具有外迁风险的企业预先识别出来,使得政府部门有时间提前做出应对措施防止其外迁。然而至今为止,并没有一套完整的对于城市企业外迁风险进行量化预测评估的有效方法。
技术实现思路
本专利技术的主要目的是提供一种基于逻辑回归模型的企业外迁风险评估方法,以实现企业外迁风险进行量化预测评估。为实现上述目的,本专利技术提供了一种基于逻辑回归模型的企业外迁风险评估方法,其包括如下步骤:S1,收集企业外迁实例的信息字段以及运营商提供的脱敏电信数据,选取企业外迁相关变量;S2,对企业外迁相关变量进行数据分箱,将企业外迁相关变量中的类别类变量、定性类变量与连续数值类变量均转化为离散定量分箱指标;S3,筛除低预测能力指标:S31,根据所述步骤S2中各项指标分箱情况,计算各指标的信息价值IV,计算方法如下:S32,根据计算结果,剔除掉IV值小于设定阈值的变量指标,得到评价指标集;S4,剔除高相关性指标:S41,计算评价指标集中各指标的相关系数ρXY,计算公式为:其中X,Y为评价指标集中任意两个不同指标的数值,Cov(X,Y)为X,Y协方差,D(X)、D(Y)为X,Y方差;S42,找出相关系数值超出设定的可接受阈值范围的两个指标,剔除其中IV值较低的一个;S43,重复步骤S42,直至所有指标的相关系数均在可接受阈值范围内,求得企业外迁指标集;S5,根据步骤S42中获取的企业外迁指标集,采用逻辑回归构建企业外迁预测模型;S6,对预测模型进行检验:S61,选取非训练样本,通过企业外迁预测模型预测非训练样本中的高外迁风险企业,统计高外迁风险企业总数;S62,计算外迁企业查准率,当外迁企业查准率小于设定的阈值时,重复步骤S1-步骤S5,重新构建外迁预测模型,直至外迁企业查准率大于等于设定的阈值;当外迁企业查准率大于设定的阈值时,直接输出企业外迁预测模型;S7,通过所述步骤S62输出的企业外迁预测模型对企业外迁风险评估。优选地,所述步骤S2中,对企业外迁相关变量进行数据分箱的方法如下:对类别类变量与定性类变量采用直接分箱法,对连续数值类变量分箱采用卡方分箱法进行分箱。进一步地,对连续数值类变量分箱采用卡方分箱法包括如下步骤:S21,根据自由度和显著性水平计算每个连续数值类变量对应的卡方阈值;S22,对连续性变量的实例进行排序,每个实例属于一个区间;S23,计算每对相邻实例区间卡方值X2,计算公式为:其中Aij表示第i个区间第j类指标的实例数量;Eij表示Aij的期望频率;S24,将卡方值最小的一对区间合并为一个区间;S25,重复步骤S23-步骤S24,直至最小卡方值超过设定阈值为止,结束对连续数值类变量的分箱。优选地,所述步骤S5中,构建企业外迁预测模型的过程如下:S51,采用Sigmoid函数构造预测函数其中x=[x0,x1,x2,...,xn]表示单个企业外迁实例所获取的n项指标数值;θ=[θ0,θ1,θ2,...,θn]T表示需优化的n项指标的权重;hθ(x)表示在当前指标权重与数值下企业的外迁概率;S52,构造损失函数Jθ(x):根据最大似然估计推导,对单个样本构造Cost函数:其中y代表样本外迁情况:y=1代表样本发生外迁,y=0代表企业为发生外迁;选取m个企业样本作为训练集合,构造损失函数Jθ(x):S53,采用梯度下降法更新预测模型的权重指数,其中第j项权重指标更新步骤如下:其中,α代表学习率;S54,持续迭代权重系数,直到损失函数Jθ(x)满足阈值要求,输出最优权重指标θ*与企业外迁预测模型hθ(x)。本专利技术的技术方案通过对分析各指标信息价值因素与各指标相关性因素,从复杂的企业样本字段中筛选出适合用于建立企业外迁模型指标,避免了人工设定指标所带来的主观性与局限性;根据这些指标构建企业外迁预测模型,填补了企业外迁量化分析模型的空白,并具有较强的预测能力。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。图1为本专利技术企业外迁预测模型的构建流程图;本专利技术目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式本专利技术提出一种基于逻辑回归模型的企业外迁风险评估方法。在本专利技术实施例中,该基于逻辑回归模型的企业外迁风险评估方法,其包括如下步骤:S1,收集企业外迁实例的信息字段以及运营商提供的脱敏电信数据,选取企业外迁相关变量。其中,企业外迁相关变量包括:币种、注册资本、相关行业、成立时间、办公面积、公司规模(员工人数)、财务指标、企业排污费、企业污染指数、本科以上学历比重、博士学历比重、员工平均收入、员工本地户口占比、适用会计制度、欠税情况、企业固话拆机月份、企业装机指数、企业拆机指数等因素。S2,对企业外迁相关变量进行数据分箱,将企业外迁相关变量中的类别类变量、定性类变量与连续数值类变量均转化为离散定量分箱指标,以便用于后续的量化模型构建。具体地,在步骤S2中,对企业外迁相关变量进行数据分箱的方法如下:一、对类别类变量与定性类变量采用直接分箱法;二、对连续数值类变量分箱采用卡方分箱法进行分箱。进一步地,对连续数值类变量分箱采用卡方分箱法包括如下步骤:S21,根据自由度和显著性水平计算每个连续数值类变量对应的卡方阈值;S22,对连续性变量的实例进行排序,每个实例属于一个区间;S23,计算每对相邻实例区间卡方值X2,计算公式为:其中Aij表示第i个区间第j类指标的实例数量;Eij表示Aij的期望频率;S24,将卡方值最小的一对区间合并为一个区间;S25,重复步骤S23-步骤S24,直至最小卡方值超过设定阈值为止,结束对连续数值类变量的分箱工作。S3,筛除低预测能力指标:S31,根据所述步骤S2中各项指标分箱情况,计算各指标的信息价值IV,信息价值代表单一指标对企业外迁概率的预测能力。对于特定一分箱数为i的指标,其信息价值IV的具体计算方法如下:S32,根据计算结果,剔除掉IV值小于设定阈值的变量指标,从而可以获取与企业外迁相关度较高的若干评价指标,构建评价指标集。在步骤S3中,通过计算评估指标的信息价值,能够从繁杂数据字段种类中筛选出与企业外迁行为最相关的若干指标,避免了人工设定评价指标的主观性与模糊性。S4,剔除高相关性指标:S41,计算评价指标集中各指标的相关系数ρXY,计算公式为:其中X,Y为评价指标集中任意两个不同指标的数值,Cov(X,Y)为X,Y协方差,D(X)、D(Y)为X,Y方差;S42,找出相关系数值超出设定的可接受阈值范围的两个指标,剔除其中IV值较低的一个;S43,重复步骤S42,直至所有指标的相关系数均在可接受阈值范围内,求得企业外迁指本文档来自技高网...

【技术保护点】
1.一种基于逻辑回归模型的企业外迁风险评估方法,其特征在于,包括如下步骤:S1,收集企业外迁实例的信息字段以及运营商提供的脱敏电信数据,选取企业外迁相关变量;S2,对企业外迁相关变量进行数据分箱,将企业外迁相关变量中的类别类变量、定性类变量与连续数值类变量均转化为离散定量分箱指标;S3,筛除低预测能力指标:S31,根据所述步骤S2中各项指标分箱情况,计算各指标的信息价值IV,计算方法如下:

【技术特征摘要】
1.一种基于逻辑回归模型的企业外迁风险评估方法,其特征在于,包括如下步骤:S1,收集企业外迁实例的信息字段以及运营商提供的脱敏电信数据,选取企业外迁相关变量;S2,对企业外迁相关变量进行数据分箱,将企业外迁相关变量中的类别类变量、定性类变量与连续数值类变量均转化为离散定量分箱指标;S3,筛除低预测能力指标:S31,根据所述步骤S2中各项指标分箱情况,计算各指标的信息价值IV,计算方法如下:S32,根据计算结果,剔除掉IV值小于设定阈值的变量指标,得到评价指标集;S4,剔除高相关性指标:S41,计算评价指标集中各指标的相关系数ρXY,计算公式为:其中X,Y为评价指标集中任意两个不同指标的数值,Cov(X,Y)为X,Y协方差,D(X)、D(Y)为X,Y方差;S42,找出相关系数值超出设定的可接受阈值范围的两个指标,剔除其中IV值较低的一个;S43,重复步骤S42,直至所有指标的相关系数均在可接受阈值范围内,求得企业外迁指标集;S5,根据步骤S42中获取的企业外迁指标集,采用逻辑回归构建企业外迁预测模型;S6,对预测模型进行检验:S61,选取非训练样本,通过企业外迁预测模型预测非训练样本中的高外迁风险企业,统计高外迁风险企业总数;S62,计算外迁企业查准率,当外迁企业查准率小于设定的阈值时,重复步骤S1-步骤S5,重新构建外迁预测模型,直至外迁企业查准率大于等于设定的阈值;当外迁企业查准率大于设定的阈值时,直接输出企业外迁预测模型;S7,通过所述步骤S62输出的企业外迁预测模型对企业外迁风险评估。2.如权利要求1所述的基于逻辑回归模型的企业外迁风险评估方法,其特征在于,所述步骤S2中,对企业外迁相关...

【专利技术属性】
技术研发人员:尤加辉刘驰肖骥李耀东张福成
申请(专利权)人:中电科新型智慧城市研究院有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1