System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种企业年报风险分析方法,尤其涉及一种基于深度学习的企业年报风险分析方法。
技术介绍
1、企业年报是企业每年出具的主要财务报告,目的是向公众和监管机构透露企业的运营情况和重要信息。通过企业年报,可了解企业的市场地位、盈利状况、资产质量、经营风险,以及企业的现状和发展战略等。
2、当前针对企业年报的风险分析方法主要有两种:一种是分析年报中相关财务数据风险,如传统咨询公司大多基于相关专家经验进行财务数据指标分析,其专业性强,且操作相对复杂,分析过程中应用大量的规则,可扩展性差,且规则的维护能力差;目前也存在大量的基于统计学对财务数据构建模型,用于识别财务数据粉饰等,其整体分析效果有所改善,且迭代能力有所增强,但从模型角度上还有提升空间。另一种是针对年报中的文字进行风险挖掘,利用文本情感分析风险年报,多采用doc2vec方式进行encoder,然后采用文本分类方法进行数据挖掘,其文本表征相对简单,分析算法也相对简单,不能有效分析年报文本中潜在的关联信息。这两种方式在做年度风险分析时,特征应用相对单一,多采用单独针对财务指标或者文本进行分析,分析方法主要为规则策略或简单的统计模型,对于年报数据的encoder,未考虑引入类目特征;且对于年报的特征挖掘能力不够,年报中非常重要的实体关系特征未挖掘应用到风险识别,实体及实体关系的构建相对复杂。
技术实现思路
1、为了解决上述技术所存在的不足之处,本专利技术提供了一种基于深度学习的企业年报风险分析方法。
2、
3、步骤s1:抓取全量的年报数据,对年报数据进行解析和预处理;
4、步骤s2:对预处理后的年报数据进行结构分析;年报数据包括年报结构化数据和年报非结构化数据,年报非结构化数据包括年报文本数据;
5、步骤s3:利用全量的年报文本数据分别构建segment embedding、tokenembedding、position embedding输入,通过fin-bert模型进行fine-tune,生成年报数据领域的bert预训练模型,从而构建年报文本特征和年报文本表征;
6、步骤s4:对年报结构化数据进行提取、对齐处理后基于bert预训练模型构建数值特征和数值表征;
7、步骤s5:针对年报文本数据,基于bert预训练模型构建ner实体识别模型,并进行实体挖掘;
8、步骤s6:基于双向gru+softmax构建关系挖掘模型,通过关系挖掘模型对全量的关系描述文本进行关系挖掘,从而挖掘实体关系;
9、步骤s7:基于实体关系分别构建异构图,利用图卷积神经网络变体公式对不同的异构图进行特征编码,从而构建实体关系网络特征和实体关系网络表征,图卷积神经网络变体公式为:
10、h=a*d*x;
11、其中,h为embedding编码矩阵;a为n*n的关系邻接矩阵;d为a的度矩阵;x为节点n*l的节点特征矩阵;
12、步骤s8:将步骤s3中的年报文本表征、步骤s4中的数值表征和步骤s7中的实体关系网络表征利用多头attention思想进行attention交互,实现跨类型特征融合。
13、进一步地,步骤1中利用网络爬虫在上市公司财务信息网站、证券监管机构抓取全量的年报数据,并通过beautifulsoup对抓取的年报数据进行解析。
14、进一步地,步骤s2中对年报数据进行结构分析,针对年报数据为结构化数据的年报结构化数据,根据自身的结构抽取相关财务指标的数值数据;针对年报数据为非结构化数据的年报非结构化数据,利用jieba对年报非结构化数据中的年报文本数据进行切词,并通过金融规则词库对切词后的年报文本数据进行校正;所述步骤s3生成bert预训练模型后对全量的年报文本数据进行embedding表示。
15、进一步地,步骤s4中提取年报中资产负债表、利润表、现金流量表中的结构化的数值数据,并提取各个表中相应类目数据及数值数据,并进行对齐;将表中类目数据的文本进行切词处理,并通过bert预训练模型进行encoder;将类目数据的文本encoder特征与数值特征进行串联将各个类目的数值数据打平并进行拼接,作为数据层面的特征输入;数值特征包括期末余额/年初余额、本期余额/上期余额、余额占比。
16、进一步地,步骤s5中首先利用开源msra数据集对年报文本数据进行bio标识;其次,基于bilstm+crf模型实现ner实体识别模型,通过ner实体识别模型对年报文本数据的标注任务进行实体训练模型;最后,利用jieba分词器对年报数据中的年报文本数据进行切词处理,输入到实体模型训练中进行实体标注。
17、进一步地,步骤s6挖掘实体关系,是以企业客户为实体的节点,包括挖掘企业之间投资关系、企业之间参股关系、企业之间股东关系;挖掘实体关系首先要构建企业之间投资关系、企业之间参股关系、企业之间股东关系的关键词词库,利用实体及包含不同关系关键词的文本标注部分实体关系,作为关系样本数据;其次,通过关键词词库基于bert预训练模型构建词向量,抽取部分包含实体的文本进行切词,通过bert预训练模型构建文本向量,若文本中包含多个词,则多个词向量相加,然后取平均;利用euclidean distance计算词向量和文本向量的相似度,取部分文本向量加入关系样本数据集合;将实体关系抽取任务抽象为多分类任务,输入为关系描述文本与关系类型标签,通过双向gru+softmax构建文本识别网络并调整网络参数,构建关系挖掘模型;最后,通过关系挖掘模型对全量的关系描述文本进行关系挖掘,输出相应的关系的实体及关系标签。
18、进一步地,步骤s7中分别对异构图中的不同关系进行编码,是指实体的节点不变,针对实体对应的3种关系分别构建3个关联关系图,对于每张图,分别利用图卷积神经网络变体公式进行相应特征编码;针对同种实体的节点的不同关联关系图,在不同关系单独特征编码后,打平串联相应的编码,以便进行特征融合。
19、进一步地,步骤s8中特征融合的输入层为步骤s3中的年报文本表征、步骤s4中的数值表征和步骤s7中的实体关系网络表征;隐藏层为年报文本表征、数值表征、实体关系网络表征单独进行全连接层处理,处理后输出规定长度表征数据,分别进入attention交互处理,经过concat处理,实现年报数据的encoder;输出层对编码器部分输出的encoder向量做映射,变换成不同的logits向量,之后进入softmax层变换为概率值,进而得到对应的概率矩阵,经过损失函数调整训练相关参数。
20、进一步地,步骤s8中利用步骤s3中的年报文本特征、步骤s4中的数值特征和步骤s7中的实体关系网络特征计算attention的值,计算attention值的公式为:
21、
22、attention(q,本文档来自技高网...
【技术保护点】
1.一种基于深度学习的企业年报风险分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤S1中利用网络爬虫在上市公司财务信息网站、证券监管机构抓取全量的年报数据,并通过beautifulsoup对抓取的年报数据进行解析。
3.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤S2中对年报数据进行结构分析,针对年报数据为结构化数据的年报结构化数据,根据自身的结构抽取相关财务指标的数值数据;针对年报数据为非结构化数据的年报非结构化数据,利用jieba对年报非结构化数据中的年报文本数据进行切词,并通过金融规则词库对切词后的年报文本数据进行校正;所述步骤S3生成bert预训练模型后对全量的年报文本数据进行embedding表示。
4.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤S4中提取年报中资产负债表、利润表、现金流量表中的结构化的数值数据,并提取各个表中相应类目数据及数值数据,并进行对齐;将各个表中类目数据的文本进行切词处理,并
5.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤S5中首先利用开源MSRA数据集对年报文本数据进行BIO标识;其次,基于BiLSTM+CRF模型实现NER实体识别模型,通过对年报文本数据的标注任务进行实体训练模型;最后,利用jieba分词器对年报数据中的年报文本数据进行切词处理,输入到实体模型训练中进行实体标注。
6.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤S6挖掘实体关系,是以企业客户为实体的节点,包括挖掘企业之间投资关系、企业之间参股关系、企业之间股东关系;挖掘实体关系首先要构建企业之间投资关系、企业之间参股关系、企业之间股东关系的关键词词库,利用实体及包含不同关系关键词的文本标注部分实体关系,作为关系样本数据;其次,通过关键词词库基于bert预训练模型构建词向量,抽取部分包含实体的文本进行切词,通过bert预训练模型构建文本向量,若文本包含多个词,则多个该词的词向量相加,然后取平均;利用Euclidean Distance计算词向量和文本向量的相似度,取部分文本向量加入关系样本数据集合;将实体关系抽取任务抽象为多分类任务,输入为关系描述文本与关系类型标签,通过双向GRU+softmax构建文本识别网络并调整网络参数,构建关系挖掘模型;最后,通过关系挖掘模型对全量的关系描述文本进行关系挖掘,输出相应的关系的实体及关系的标签。
7.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤S7中分别对异构图中的不同关系进行编码,是指实体的节点不变,针对实体对应的企业之间投资关系、企业之间参股关系、企业之间股东关系分别构建3个关联关系图,对于每张图,分别利用图卷积神经网络变体公式进行相应的特征编码。
8.根据权利要求7所述的基于深度学习的企业年报风险分析方法,其特征在于:针对同种的所述实体的节点的不同的关联关系图,在不同关系单独特征编码后,打平串联相应的编码,以便进行特征融合。
9.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤S8中特征融合的输入层为步骤S3中的年报文本表征、步骤S4中的数值表征和步骤S7中的实体关系网络表征;隐藏层为年报文本表征、数值表征、实体关系网络表征分别单独进行全连接层处理,处理后输出规定长度表征数据,分别进入Attention交互处理,经过Concat处理,实现年报数据的encoder;输出层对编码器部分输出的encoder向量做映射,变换成不同的logits向量,进入softmax层变换概率值,进而得到对应的概率矩阵,经过损失函数调整训练相关参数。
10.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤S8中利用步骤S3中的年报文本特征、步骤S4中的数值特征和步骤S7中的实体关系网络特征计算Attention的值,计算Attention值的公式为:
...【技术特征摘要】
1.一种基于深度学习的企业年报风险分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤s1中利用网络爬虫在上市公司财务信息网站、证券监管机构抓取全量的年报数据,并通过beautifulsoup对抓取的年报数据进行解析。
3.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤s2中对年报数据进行结构分析,针对年报数据为结构化数据的年报结构化数据,根据自身的结构抽取相关财务指标的数值数据;针对年报数据为非结构化数据的年报非结构化数据,利用jieba对年报非结构化数据中的年报文本数据进行切词,并通过金融规则词库对切词后的年报文本数据进行校正;所述步骤s3生成bert预训练模型后对全量的年报文本数据进行embedding表示。
4.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤s4中提取年报中资产负债表、利润表、现金流量表中的结构化的数值数据,并提取各个表中相应类目数据及数值数据,并进行对齐;将各个表中类目数据的文本进行切词处理,并通过bert预训练模型进行encoder;将类目数据的文本encoder特征与数值特征进行串联将各个类目的数值数据打平并进行拼接,作为数据层面的特征输入;数值特征包括期末余额和年初余额、本期余额和上期余额、余额占比。
5.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤s5中首先利用开源msra数据集对年报文本数据进行bio标识;其次,基于bilstm+crf模型实现ner实体识别模型,通过对年报文本数据的标注任务进行实体训练模型;最后,利用jieba分词器对年报数据中的年报文本数据进行切词处理,输入到实体模型训练中进行实体标注。
6.根据权利要求1所述的基于深度学习的企业年报风险分析方法,其特征在于:所述步骤s6挖掘实体关系,是以企业客户为实体的节点,包括挖掘企业之间投资关系、企业之间参股关系、企业之间股东关系;挖掘实体关系首先要构建企业之间投资关系、企业之间参股关系、企业之间股东关系的关键词词库,利用实体及包含不...
【专利技术属性】
技术研发人员:姜超,李学勇,何海清,
申请(专利权)人:渤海银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。