一种基于多源异构数据融合的金融企业经营风险预警方法技术

技术编号:36187119 阅读:30 留言:0更新日期:2022-12-31 20:53
本发明专利技术涉及一种基于多源异构数据融合的金融企业经营风险预警方法,针对金融企业经营风险模型构建的数据获取模块,通过数据获取模块获取的数据进行分析、加工后构建特征,对构建的特征进行相关性分析获得相关系数,筛选获得金融企业经营风险预警模型特征,融合网格搜索和交叉验证策略对金融企业经营风险预警模型进行训练,根据金融企业经营风险预警模型对金融企业进行实时监控,并提供监管的优先级名单;本发明专利技术提供的基于多源异构数据融合的金融企业经营风险预警方法充分挖掘各个预警特征背后的交叉和掩藏关系,可以根据模型得到金融企业预警的优先级,大大节约了人力成本,提升监管的效率和准确率。监管的效率和准确率。监管的效率和准确率。

【技术实现步骤摘要】
一种基于多源异构数据融合的金融企业经营风险预警方法


[0001]本专利技术涉及自然语言处理(NLP)和机器学习(ML)领域,具体涉及一种基于多源异构数据融合的金融企业经营风险预警方法。

技术介绍

[0002]现有技术中的金融企业经营风险预警方法,主要用于政府监管部门对金融企业的监管,可以划分企业的金融风险等级,实现对金融企业监管的优先级划分,提升监管的效率。金融市场主体可以通过线上、线下的形式,以高额的利息回报吸引大量的资本。金融市场主体涉及资本大,如果一旦出现“暴雷”情况,就会产生巨大的社会影响,对人民群众的财产带来不可弥补的损失。正确地对金融市场主体的经营风险进行分析与预测,准确地对风险作出预警,并迅速地措施与决策,是规避金融风险的有效途径。建立金融企业的经营风险预警模型,坚持用数据说话,对于指导相关部门执法的针对性、时效性,维护社会稳定有重大意义。
[0003]在自然语言处理领域,预训练语言模型在2015年被首次提出,但在2018年才发生了重大进展,以Google提出的BERT为代表的预训练语言模型,被证实在大量NLP任务上都很有效,例如ELMO,XLNet,GPT,RoBERTa,ALBERT等。这些预训练语言模型均是无监督形式,使得模型能够从无标注语料中获得通用的语言建模能力。而预训练模型的成功之处是Self

Attention机制的使用,它可以有效融合文本前后之间的语义关系,将文本编码成掩藏语义关系的特征向量,在一些下游的NLP任务中,借助预训练模型的文本表达能力,使用少量的标注数据,对下游的NLP任务进行微调,使得模型不需要大量的训练数据也能够达到不错的效果,可很大程度缓解低资源任务对大量标注数据的需求。
[0004]当前金融企业经营风险预警技术主要是接到投诉电话,相关部门去被投诉的企业查访,但投诉电话也可能不准确,过程耗时且需要的人力大;较为先进一些的地区会构建相应的金融企业风险预警的指标体系或使用统计预警的方式来实现,但都不能够将多源的数据融合使用,发现数据背后特征之间的交叉掩藏规律,进行金融企业的风险预警。
[0005]本专利技术提供了一种能够充分挖掘各个预警特征背后的交叉和掩藏关系,可以根据模型得到金融企业预警的优先级,大大节约了人力成本,提升监管的效率和准确率的一种基于多源异构数据融合的金融企业经营风险预警方法。

技术实现思路

[0006]为解决上述技术问题,本专利技术的目的是提供一种基于多源异构数据融合的金融企业经营风险预警方法。
[0007]本专利技术的基于多源异构数据融合的金融企业经营风险预警方法,包括以下步骤:
[0008]S1、针对金融企业经营风险模型构建的数据获取模块;
[0009]S2、对步骤S1中通过数据获取模块获取的数据进行分析、加工后构建特征;
[0010]S3、对步骤S2构建的特征进行相关性分析获得相关系数,筛选获得金融企业经营
风险预警模型特征;
[0011]S4、融合网格搜索和交叉验证策略对金融企业经营风险预警模型进行训练;
[0012]S5、根据金融企业经营风险预警模型对金融企业进行实时监控,并提供监管的优先级名单。
[0013]在本专利技术提供的具体实施例中,所述步骤S2中通过数据获取模块获取的数据包括12345热线的工单内容、企业舆情信息、企业工商信息以及公安经侦的经营异常金融企业名单。
[0014]在本专利技术提供的具体实施例中,所述步骤S2中的12345热线的工单内容是通过对12345热线使用BERT算法进行提取,借助预训练模型的有效的特征表达能力,对一小部分的工单中企业名称进行标注,进行12345工单中企业实体识别的模型微调,使用训练得到的模型,在新的工单内容进行自动的企业实体识别,得到被投诉工单中的标准企业名称,再使用BLEU算法对提取的企业进行标准化映射,最后获取12345热线中企业被投诉的次数特征。
[0015]在本专利技术提供的具体实施例中,所述步骤S2是将所述企业舆情信息经过tokenizer编码,并添加特殊字符,输入BERT模型获取对企业舆情信息的编码向量,关注特殊字符对应的输出结果,将输出结果送入一个softmax全连接层进行分类输出,BERT模型为企业舆情数据打上标签,最后获取企业存在消极标签舆情的次数特征。
[0016]在本专利技术提供的具体实施例中,所述步骤S2中企业工商信息包括对企业经营范围变更前后的文本进行清洗,包括;一、标点符号统一化,因为文本中中英文符号使用的混淆,会导致后续文本切分的错误,导致文本相似度计算的误差,本案列中全部清洗成中文状态下的标点符号;二、经营范围文本中一些无关文本的删除,如”许可项目“等内容;对于清洗后的文本按照事项名称进行切分,得到经营范围变更前后文本的两个事项列表,统计变化前后企业经营范围文本的交并比,将通过以下公式计算出交并比作为特征输入:
[0017][0018]式(1)中A和B分别指的是变化前后的企业经营范围变更的文本清洗后,经过切分的事项列表。
[0019]在本专利技术提供的具体实施例中,所述步骤S2中的特征指的是对于步骤S1中获得的文本数据进行量化操作后得到的金融企业经营风险模型的文本特征,并且融合已经包含详细数据条目的企业工商信息特征等,作为金融企业经营风险模型的特征。
[0020]在本专利技术提供的具体实施例中,所述步骤S3中特征之间相关性是通过相关系数来刻画的,相关系数定义特征(X,Y)之间的相关程度计算如下式所示:
[0021][0022](2)式中cov(X,Y)为协方差,σ为标准差,计算公式如式(3)(4)和(5)所示:
[0023][0024][0025][0026]将上述公式代入到(2)式中得到最终的相关系数得计算公式:
[0027][0028]删除相关性高的维度特征,降低训练数据的维度,加快模型训练速度,并得到训练数据集,降低模型过拟合的风险,在一定程度上会提升模型泛化能力,删除相关性高的特征后留下的特征数据就是用于金融企业经营风险预警模型的训练数据集。
[0029]在本专利技术提供的具体实施例中,所述步骤S4中金融企业经营风险预警模型的训练包括构建LR分类器,将步骤S3中得到的特征作为训练LR分类器的数据,公安经侦的经营异常金融企业名单作为训练LR分类器的标签数据,对数据进行均匀划分,训练LR金融企业经营风险预警模型。逻辑回归是通过将线性函数的结果映射到Sigmoid()函数中,预估单个金融企业出现经营风险的概率。
[0030]在本专利技术提供的具体实施例中,所述步骤S4中金融企业经营风险预警模型的训练具体包括以下步骤:
[0031]S41、逻辑回归模型输入及输出:
[0032][0033]S42、逻辑回归模型:
[0034][0035]通过Logistic函数归一化到(0,1)间,y的取值有特殊的含义,它表示结果取1的概率;
[0036]S43、逻辑回归损失函数:得到逻辑回归的表达式后,采用极大似然估计法求解模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源异构数据融合的金融企业经营风险预警方法,其特征在于,包括以下步骤:S1、针对金融企业经营风险模型构建的数据获取模块;S2、对步骤S1中通过数据获取模块获取的数据进行分析、加工后构建特征;S3、对步骤S2构建的特征进行相关性分析获得相关系数,筛选获得金融企业经营风险预警模型特征;S4、融合网格搜索和交叉验证策略对金融企业经营风险预警模型进行训练;S5、根据金融企业经营风险预警模型对金融企业进行实时监控,并提供监管的优先级名单。2.根据权利要求1所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于:所述步骤S2中通过数据获取模块获取的数据包括12345热线的工单内容、企业舆情信息、企业工商信息以及公安经侦的经营异常金融企业名单。3.根据权利要求2所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于:所述步骤S2中的12345热线的工单内容是通过对12345热线使用BERT算法进行提取,得到被投诉的企业,再使用BLEU算法对提取的企业进行标准化映射,最后获取12345热线中企业被投诉的次数特征。4.根据权利要求2所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于:所述步骤S2是将所述企业舆情信息经过tokenizer编码,并添加特殊字符,输入BERT模型获取对企业舆情信息的编码向量,关注特殊字符对应的输出结果,将输出结果送入一个softmax全连接层进行分类输出,BERT模型为企业舆情数据打上标签,最后获取企业存在消极标签舆情的次数特征。5.根据权利要求2所述的基于多源异构数据融合的金融企业经营风险预警方法,其特征在于:所述步骤S2中企业工商信息包括对企业经营范围变更前后的文本进行清洗,统计变化前后企业经营范围文本的交并比,将通过以下公式计算出交并比作为特征输入:式(1)中A和B分别指的是变化前后的企业经营范围变更的文本。6.根据权利要求1所述的基于多源异构数据融合的金融企...

【专利技术属性】
技术研发人员:张磊陶虹张旭方熊懿清
申请(专利权)人:苏州城方信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1