一种基于大数据的金融风险分析方法技术

技术编号:17008902 阅读:52 留言:0更新日期:2018-01-11 04:57
本发明专利技术公开了一种基于大数据的金融风险分析方法,包括:构建多层次的数据仓库;进行数据预处理;跟踪入库的店铺,构建正负样本;通过随机森林算法构建店铺的成长能力、运营能力、盈利能力风险控制模型;根据随机森林算法取出成长能力指标、运营能力指标、盈利能力指标,对指标进行标准化处理,使用层次分析法确定指标权重,计算每个指标的指数,对指标求和,将该值作为店铺的风险指数。将风险控制模型计算的结果和实际情况中出现的相关问题进行对比分析,进行优化,将优化好的模型投入到实际生产中。本发明专利技术采取多数据源汇聚和大数据的分布式计算,实现建模后即完成风险模型计算的实时效果,并通过多数据源的汇聚分析降低金融风险。

【技术实现步骤摘要】
一种基于大数据的金融风险分析方法
本专利技术属于金融分析领域,尤其涉及一种基于大数据的金融风险分析方法。
技术介绍
目前的金融风险分析方法(主要针对淘宝天猫电商平台)的主要缺陷在于:(1)计算速度慢。每次计算需要数分钟甚至数小时的计算时间,在此期间用户不能操作软件,只有等待计算完成;(2)不能充分利用现代CPU的多核心特性,无论用户的电脑有多少个处理核心,都只能利用其中一个,资源利用率低;(3)数据来源渠道单一。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基于大数据的金融风险分析方法,提高风险模型的计算速度,实现风险模型实时计算效果,多数据源数据汇总,提高发现企业风险的准确性。本专利技术的目的是通过以下技术方案来实现的:一种基于大数据的金融风险分析方法,包括以下步骤:(1)构建一个多层次的数据仓库:是从互联网获取有关信用突变的数据、网上公开的电子商户数据、从电商客户获取自述数据及相关证明材料、从第三方数据平台获取数据;(2)数据预处理,主要采用以下方式进行过滤:主观过滤:将数据划分为字符型字段和数字型字段,根据业务经验剔除无用字段;缺失过滤:实际字段和加工字段并不会百本文档来自技高网...
一种基于大数据的金融风险分析方法

【技术保护点】
一种基于大数据的金融风险分析方法,其特征在于,包括以下步骤:(1)构建一个多层次的数据仓库:是从互联网获取有关信用突变的数据、网上公开的电子商户数据、从电商客户获取自述数据及相关证明材料、从第三方数据平台获取数据;(2)数据预处理,主要采用以下方式进行过滤:主观过滤:将数据划分为字符型字段和数字型字段,根据业务经验剔除无用字段;缺失过滤:实际字段和加工字段并不会百分之百完整,如果缺失率低,通过缺失值补充算法进行补充,若字段的缺失率大于阈值则直接舍弃;方差过滤:剔除方差极小的字段;相关性过滤:找出所有相关性高的字段,去掉方差小的字段;(3)正负样本的构建:跟踪入库的店铺,定期统计出这些店铺所有字...

【技术特征摘要】
1.一种基于大数据的金融风险分析方法,其特征在于,包括以下步骤:(1)构建一个多层次的数据仓库:是从互联网获取有关信用突变的数据、网上公开的电子商户数据、从电商客户获取自述数据及相关证明材料、从第三方数据平台获取数据;(2)数据预处理,主要采用以下方式进行过滤:主观过滤:将数据划分为字符型字段和数字型字段,根据业务经验剔除无用字段;缺失过滤:实际字段和加工字段并不会百分之百完整,如果缺失率低,通过缺失值补充算法进行补充,若字段的缺失率大于阈值则直接舍弃;方差过滤:剔除方差极小的字段;相关性过滤:找出所有相关性高的字段,去掉方差小的字段;(3)正负样本的构建:跟踪入库的店铺,定期统计出这些店铺所有字段的表格,挑选历史记录中表现良好的店铺作为正样本,将随着时间推移关店的店铺作为负样本,通过步骤(2)的数据预处理方法定期清洗出一批样本数据;(4)风险控制模型的构建:通过随机森林算法构建店铺的成长能力、运营能力、盈利能力风险控制模型。(5)评分机制:对正负样本进行k-means分类,根据某一字段或者某些字段的指标进行相应评估;根据随机森林算法取出成长能力指标、运营能力指标、盈利能力指标,对指标进行标准化处理,使用层次分析法确定指标权重,计算出每个指标的指数,再对这些指标求和,将该值作为店铺的风险指数。(6)将风险控制模型计算的结果和实际情况中出现的相关问题进行对比分析,进行优化,将优化好的模型投入到实际生产中。2.根据权利要求1所述的一种基于大数据的金融风险分析方法,其特征在于,所述步骤(4)中,随机森林模型中基尼系数的计算和分裂节点的确定方法如下:假设T为一份抽样样本,T=si,i=1,...,k,k为抽样次数,样本T包含正样本(A)和负样本(B),其中训练样本的数量为N(T),正样本的数量为N(A),负样本的数量为N(B);a.计算训练样本基尼系数Gini(T)Gini(T)=1-pA(T)2-pB(T)2其中,表示正样本在训练样本T中的概率;表示负样本在...

【专利技术属性】
技术研发人员:许林伟刘伟龙
申请(专利权)人:杭州云算信达数据技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1