一种风险识别方法和系统技术方案

技术编号:20919223 阅读:21 留言:0更新日期:2019-04-20 10:15
本申请提供了一种风险识别方法,用于对企业空壳风险进行识别,所述方法包括:获取企业空壳样本集;通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型,其中,所述空壳识别模型中包括至少两个决策树模型;获取待预测企业的信息数据;将所述待预测企业的信息数据输入至所述空壳识别模型中,根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。本申请还提供了一种风险识别系统。通过本申请提供的风险识别方法和系统,增加训练的模型的准确度,在判断企业是否为空壳企业时可以更加全面地进行数据分析,以提高数据的判断准确度。

A Risk Identification Method and System

This application provides a risk identification method for enterprise shell risk identification, which includes acquiring enterprise shell sample set, training the enterprise shell sample set through at least two machine learning algorithms to obtain shell recognition model, in which the shell recognition model includes at least two decision tree models, and acquiring information of the enterprise to be predicted. The information data of the enterprise to be predicted is input into the shell recognition model, and the shell recognition model is predicted by preset rules according to the problem types identified. The application also provides a risk identification system. Through the risk identification method and system provided in this application, the accuracy of training model can be increased, and data analysis can be carried out more comprehensively when judging whether an enterprise is a shell enterprise or not, so as to improve the accuracy of data judgment.

【技术实现步骤摘要】
一种风险识别方法和系统
本申请属于数据处理
,具体涉及一种风险识别方法和风险识别系统。
技术介绍
企业在生产经营过程中,需要通过金融市场的金融工具实现资金的筹备等,而,企业空壳会对金融市场造成严重的损失,金融企业通过建立风险模型并通过风险模型对企业经营风险进行预测,以使得金融企业保持投资回报。在企业经营过程中,每个企业每天都在发生着改变,这些改变有可能使得企业越来越好,也有可能使得企业面临各种风险。面对企业的千万级数据,从中分析出企业的风险信息对企业运营的决策和投资者都是比较好的参考。目前已有的企业经营风险预测方法主要包括于统计学的方法和基于机器学习的方法。目前,现有的企业风险预测评估方法不完善,而且在风险模型的建立过程中数据处理量过大,对服务器造成巨大压力,且数据处理速度过慢。因此,亟待一种企业风险识别能够结合企业的各种资产、财务数据、经营数据、债务相关数据,迅速建立模型并将该模型应用到预测数据中,从不同维度对企业风险进行预测。
技术实现思路
为了解决现有技术存在的上述问题,本申请目的在于提供一种风险识别方法和系统,旨在解决现有预测模型对内存消耗过大,存在大量不必要的数据计算的问题。为解决上述技术问题,本申请提供了一种风险识别方法,用于对企业空壳风险进行识别,所述方法包括:获取企业空壳样本集;通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型,其中,所述空壳识别模型中包括至少两个决策树模型;获取待预测企业的信息数据;将所述待预测企业的信息数据输入至所述空壳识别模型中,根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。可选地,通过smote算法对所述企业空壳样本集进行过采样。可选地,经过所述过采样的企业空壳样本集包括空壳企业和非空壳企业,其中,所述空壳企业与非空壳企业的数量比为1:2。可选地,所述根据待识别的空壳问题类型以预设规则通过所述空壳识别模型进行预测的步骤,包括:确定所述待识别的空壳问题类型为分类问题,则根据所述至少两个决策树模型的分类结果进行投票,根据投票结果确定最终分类结果;确定所述待识别的空壳问题类型为回归问题,则根据所述至少两个决策树模型的预测值的均值确定最终预测结果。可选地,所述通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型的步骤,包括:根据bootstraping算法从所述企业空壳样本集中生成至少两个训练集;所述通过至少两个机器学习算法分别对所述至少两个训练集进行训练以得到空壳识别模型。可选地,所述通过至少两个机器学习算法分别对所述至少两个训练集进行训练以得到空壳识别模型的步骤,包括:对所述至少两个训练集进行标准化;通过对标准化后的数据进行清洗和选择分别得到所述至少两个训练集对应的特征数据和标签;将所述至少两个训练集对应的特征数据和标签分别输入至所述机器学习算法,以得到空壳识别模型。可选地,所述特征数据包括但不限于经营年限、注册资金、所有关联公司数量、所有股东平均经营年限、所有股东平均注册资金、所有对外投资公司平均经营年限、所有对外投资公司平均注册资金、所有对外投资公司平均空壳次数、所有对外投资公司空壳次数总和、所有对外投资公司平均被金融机构起诉次数、所有对外投资公司被金融机构起诉次数总和。可选地,所述将所述至少两个训练集对应的特征数据和标签分别输入至所述机器学习算法,以得到空壳识别模型的步骤,包括:根据预设的特征选择算法和所述标签确定从所述训练集中确定对应的所述所述机器学习算法所对应的当前最优特征和待分裂特征数据;根据所述当前最优特征建立对应决策树当前节点,根据所述待分裂特征数据建立以所述当前节点为父节点的分支,直止满足于预设条件停止继续构建决策树以生成空壳风险识别模型。可选地,所述预设的特征选择算法至少包括如下一种:信息增益算法、信息增益比算法和基尼指数算法。本申请还提供了一种风险识别系统,用于对企业空壳风险进行识别,所述系统包括:采集模块,用于获取企业空壳样本集;建树模块,用于通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型,其中,所述空壳识别模型中包括至少两个决策树模型;信息获取模块,用于获取待预测企业的信息数据;识别模块,用于将所述待预测企业的信息数据输入至所述空壳识别模型中,根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。通过本申请提供的风险识别模型,通过smoke算法对企业空壳样本集进行过采样进行扩充,以提高训练集的数量,增加训练的模型的准确度;同时,通过随机获取多个训练集,并通过不同的训练集根据不同的机器学习算法训练得到不同的决策树模型,在判断企业是否为空壳企业时可以更加全面地进行数据分析,以提高数据的判断准确度。附图说明图1为本申请流程图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本专利技术的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。图1是本申请提供的一风险识别方法的流程图。该实施例的方法一旦被用户触发,则该实施例中的流程通过终端自动运行,其中,各个步骤在运行的时候可以是按照如流程图中的顺序先后进行,也可以是根据实际情况多个步骤同时进行,在此并不做限定。本申请提供的风险识别方法用于对企业空壳风险进行识别。本申请提供的信息提示方法包括如下步骤:步骤S110,获取企业空壳样本集;步骤S120,通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型,其中,所述空壳识别模型中包括至少两个决策树模型;步骤S130,获取待预测企业的信息数据;步骤S140,将所述待预测企业的信息数据输入至所述空壳识别模型中,根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。通过上述实施方式,可以快速根据企业的相关数据信息判断该企业是否为空壳企业,以帮助相关机构根据判断结果做出相应的措施。下面将结合具体实施例对上述各步骤进行详细的叙述。在步骤S110中,获取企业空壳样本集。其中,企业空壳样本集用于训练风险识别模型。可以通过网络爬虫的方式从网上获取相关的与企业空壳相关的信息作为样本集的数据。举例而言,可以从如下途径获取相关的信息工商信息、行政处罚、开庭公告、裁判文书、招投标、司法拍卖、商标注册、空壳被执行、专利、执行等企业正面和负面的信息等。在本实施方式中,企业空壳样本集中包括空壳企业和非空壳企业。其中,空壳企业的数量为2500个,非空壳企业的数量为10000个。在本实施方式中,所述步骤S110还包括通过smote算法对所述企业空壳样本集进行过采样。由于空壳企业数量比较少,因此为了充分训练模型,采用了过采样增加样本。其中,经过过采样扩充后的企业空壳样本集中,所述空壳企业与非空壳企业的数量比为1:2。需要说明的是,还可以通过其他的方式对企业空壳样本集进行扩充,具体不做限定。通过上述实施方式,可以弥补现有的空壳企业样本较少导致的训练结果不够全面的问题。在步骤S120中,通过至少两个机器学习算法对所述企业空壳样本集进行训练以本文档来自技高网...

【技术保护点】
1.一种风险识别方法,其特征在于,用于对企业空壳风险进行识别,所述方法包括:获取企业空壳样本集;通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型,其中,所述空壳识别模型中包括至少两个决策树模型;获取待预测企业的信息数据;将所述待预测企业的信息数据输入至所述空壳识别模型中,根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。

【技术特征摘要】
1.一种风险识别方法,其特征在于,用于对企业空壳风险进行识别,所述方法包括:获取企业空壳样本集;通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型,其中,所述空壳识别模型中包括至少两个决策树模型;获取待预测企业的信息数据;将所述待预测企业的信息数据输入至所述空壳识别模型中,根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。2.如权利要求1所述的风险识别方法,其特征在于,通过smote算法对所述企业空壳样本集进行过采样。3.如权利要求2所述的风险识别方法,其特征在于,经过所述过采样的企业空壳样本集包括空壳企业和非空壳企业,其中,所述空壳企业与非空壳企业的数量比为1:2。4.如权利要求1所述的风险识别方法,其特征在于,所述根据待识别的空壳问题类型以预设规则通过所述空壳识别模型进行预测的步骤,包括:确定所述待识别的空壳问题类型为分类问题,则根据所述至少两个决策树模型的分类结果进行投票,根据投票结果确定最终分类结果;确定所述待识别的空壳问题类型为回归问题,则根据所述至少两个决策树模型的预测值的均值确定最终预测结果。5.如权利要求1所述的风险识别方法,其特征在于,所述通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型的步骤,包括:根据bootstraping算法从所述企业空壳样本集中生成至少两个训练集;所述通过至少两个机器学习算法分别对所述至少两个训练集进行训练以得到空壳识别模型。6.如权利要求5所述的风险识别方法,其特征在于,所述通过至少两个机器学习算法分别对所述至少两个训练集进行训练以得到空壳识别模型的步骤,包括:对所述至少两个训练集进行标准化;通过对标准化后的数据进行清洗和选择分别得到所...

【专利技术属性】
技术研发人员:陈玮刘德彬黄远江严开陈长沙
申请(专利权)人:重庆誉存大数据科技有限公司
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1