一种基于机器学习的金融领域数据预测方法、设备及介质技术

技术编号:33554269 阅读:21 留言:0更新日期:2022-05-26 22:50
本发明专利技术涉及一种基于机器学习的金融领域数据预测方法,包括:步骤S1、获取样本数据并进行数据预处理;步骤S2、采用多种机器学习模型对预处理后的样本数据进行分类;采用分类评估指标以及拟合网格图对分类结果进行评估,从中选取两个表现最为出色的机器学习模型;步骤S3、利用基于单特征AUC模型的特征工程筛选最优特征,并采用选出的机器学习模型进行训练,选取分类效果最佳的模型作为最终预测模型;步骤S4、采用SMOTE算法进行数据均衡化处理,优化最终预测模型;步骤S5、采用优化后的最终预测模型对金融领域数据进行预测,得到数据预测结果。与现有技术相比,本发明专利技术具有预测准确率高的优点。的优点。的优点。

【技术实现步骤摘要】
一种基于机器学习的金融领域数据预测方法、设备及介质


[0001]本专利技术涉及数据预测领域,尤其是涉及一种基于机器学习的金融领域数据预测方法、设备及介质。

技术介绍

[0002]金融领域的财务危机是一种动态可持续的过程。一家能够达到上市要求的公司,说明其经营状况在一定的时期和程度上都是良好的,所以不会立即陷入财务危机的状况。文献研究表明,进入破产状态的英国公司,从经营状态良好到发生财务风险,最终走向破产最少需要三年时间。这一情况同样也适用于美国公司。这两类公司的共同点在于,公司在申请破产的前两年,就停止提供财务报表。在中国,上市企业连续两年的净利润为负值,就会被标注出来,做特别处理,即被标注ST;而一家上市企业连续三年的净利润为负值,则会收到退市警告,即标注*ST。上市公司陷入财务困境,将会给包括股东、经理、投资者、债权人、供应商、客户等利益相关者带来负面影响,情节严重的会给中国社会经济带来不良的波动。随着这些不良影响带来的是高昂代价,这种代价使得在公司遭遇财务危机之前进行相应的预警十分重要。
[0003]针对以上情况,需要设计一种准确性高的金融领域数据预测方法,以应对金融领域企业的财务危机。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供了一种预测准确性高的基于机器学习的金融领域数据预测方法、设备及介质。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]根据本专利技术的第一方面,提供了一种基于机器学习的金融领域数据预测方法,包括:
[0007]步骤S1、获取样本数据并进行数据预处理;
[0008]步骤S2、采用多种机器学习模型对预处理后的样本数据进行分类;采用分类评估指标以及拟合网格图对分类结果进行评估,从中选取两个表现最为出色的机器学习模型;
[0009]步骤S3、利用基于单特征AUC模型的特征工程筛选最优特征,并采用选出的机器学习模型进行训练,选取分类效果最佳的模型作为最终预测模型;
[0010]步骤S4、采用SMOTE算法进行数据均衡化处理,优化最终预测模型;
[0011]步骤S5、采用优化后的最终预测模型对金融领域数据进行预测,得到数据预测结果。
[0012]优选地,所述步骤S1中数据预处理具体为:
[0013]S11、样本数据空值处理、样本数据标准化处理;
[0014]S12、引入t

SNE降维算法对样本数据进行降维可视化,去除无效数据。
[0015]优选地,所述引入t

SNE降维算法对样本数据进行降维可视化具体为:
[0016]1)将样本数据点之间的相似度转化为条件概率,原始空间中样本数据点的相似度采用高斯联合分布表示,嵌入空间中样本数据点的相似度由学生t分布表示;
[0017]2)将原始空间和嵌入空间的联合概率分布的KL散度作为损失函数,通过梯度下降算法最小化损失函数来评估嵌入效果的好坏;基于将降维可视化结果去除无效样本数据。
[0018]优选地,所述步骤S2中的分类评估指标包括准确率、精确率、召回率、F1得分以及AUC值。
[0019]优选地,所述步骤S2中多种机器学习模型包括支持向量机SVM模型、逻辑回归模型、随机森林模型、XGBoot模型以及BP神经网络模型。
[0020]优选地,所述步骤S3中利用基于单特征AUC模型的特征工程筛选最优特征,具体包括以下子步骤:
[0021]步骤S31、利用单特征AUC模型对分别计算预设指标对应的AUC值,并基于AUC值对所述预设指标进行重要性排序;
[0022]步骤S32、依据重要性排序结果,增量式逐个增加特征,基于每个特征组合的AUC值选取最优特征组合。
[0023]优选地,所述步骤S4包括以下子步骤:
[0024]步骤S41、将非平衡的样本数据划分为正类样本和负类样本,其中正类样本为两种样本中样本数量较少的样本集;
[0025]步骤S42、对于M个正类样本中,选取每个正类样本对应的K近邻样本,记为a
k
,k=1,2,...,K;
[0026]步骤S43、基于正类样本和负类样本的数量差值设定采样倍率N,从K近邻样本a
k
中随机选取N个样本,记为b
n
,n=1,2,...,N,采用插值公式进行样本扩展,所述差值公式表达式为:
[0027]Z
n
=a
k
+rand(0,1)*(b
n

a
k
)k=1,2,

,K
[0028]其中,Z
n
为生成的新样本,rand(0,1)为0到l之间的一个随机数;b
n
表示与正类样本a
k
最邻近的第n个正类样本。
[0029]优选地,所述步骤S4还包括采用三倍标准差对样本数据中的异常值进行处理。
[0030]根据本专利技术的第二方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现任一项所述的方法。
[0031]根据本专利技术的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现任一项所述的方法。
[0032]与现有技术相比,本专利技术具有以下优点:
[0033]1)本专利技术的方法基于五种机器模型进行训练学习选取最优的两个机器学习模型,在进行单特征AUC模型的特征筛选后,二次筛选得到最终预测模型,采用最优预测模型进行金融领域数据预测,预测的准确性更高;
[0034]2)本专利技术采用t

SNE降维可视化确保样本数据的可分性,提高了样本数据的有效性;采用SMOTE算法进行数据均衡化,有效克服了样本数据不平衡情况下,采用取样控制样本数量相同,导致主观性损失关键信息、信息利用不完全,使得ST公司的财务数据不客观的缺陷,提高了预测结果的准确性;
[0035]3)本专利技术采用单特征AUC模型对预设指标进行筛选,通过寻找具有强代表性的最
优特征子集,保证了指标的简洁有效性,降低了特征冗余,减少了模型预测的计算量;
[0036]4)本专利技术将设计基于机器学习的金融领域数据预测方法应用到上市公司财务危机预测的场景中,结合上市公司发生财务危机的根本原因和科技创新型上市公司研发支出巨大以及研发创新成果转化率不确定性的行业特点,改进了原有的财务危机预警指标体系,结合运营能力、创新能力以及审计报告指标,提出的包含7个一级指标41个二级指标的财务危机预警指标体系,更适用于科创型上市公司;
[0037]5)本专利技术的样本数据采用的是A股市场和创业板市场中科技创新型上市公司作为模型研究的混合样本,扩充了样本数据的范围,具有特定代表性,提高了预测的准确性。
附图说明
[0038]图1为本专利技术的基于机器学习的金融领域数据预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的金融领域数据预测方法,其特征在于,包括:步骤S1、获取样本数据并进行数据预处理;步骤S2、采用多种机器学习模型对预处理后的样本数据进行分类;采用分类评估指标以及拟合网格图对分类结果进行评估,从中选取两个表现最为出色的机器学习模型;步骤S3、利用基于单特征AUC模型的特征工程筛选最优特征,并采用选出的机器学习模型进行训练,选取分类效果最佳的模型作为最终预测模型;步骤S4、采用SMOTE算法进行数据均衡化处理,优化最终预测模型;步骤S5、采用优化后的最终预测模型对金融领域数据进行预测,得到数据预测结果。2.根据权利要求1所述的一种基于机器学习的金融领域数据预测方法,其特征在于,所述步骤S1中数据预处理具体为:S11、样本数据空值处理、样本数据标准化处理;S12、引入t

SNE降维算法对样本数据进行降维可视化,去除无效数据。3.根据权利要求2所述的一种基于机器学习的金融领域数据预测方法,其特征在于,所述引入t

SNE降维算法对样本数据进行降维可视化具体为:1)将样本数据点之间的相似度转化为条件概率,原始空间中样本数据点的相似度采用高斯联合分布表示,嵌入空间中样本数据点的相似度由学生t分布表示;2)将原始空间和嵌入空间的联合概率分布的KL散度作为损失函数,通过梯度下降算法最小化损失函数来评估嵌入效果的好坏;基于将降维可视化结果去除无效样本数据。4.根据权利要求1所述的一种基于机器学习的金融领域数据预测方法,其特征在于,所述步骤S2中的分类评估指标包括准确率、精确率、召回率、F1得分以及AUC值。5.根据权利要求1所述的一种基于机器学习的金融领域数据预测方法,其特征在于,所述步骤S2中多种机器学习模型包括支持向量机SVM模型、逻辑回归模型、随机森林模型、XGBoot模型以及BP神经网络模型。6.根据权利要求5所述的一种基于机器学习的金融领域数据预测方法,其特征在于,所述步骤S3中利用基于单...

【专利技术属性】
技术研发人员:杨韫涵
申请(专利权)人:中银金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1