一种基于深度学习的企业年报风险分析方法技术

技术编号：40306482 阅读：6 留言：0更新日期：2024-02-07 20:51

本发明专利技术公开了一种基于深度学习的企业年报风险分析方法，包括以下步骤：抓取全量的年报数据，对年报数据进行解析和预处理；对预处理后的年报数据进行结构分析，分为年报结构化数据和年报文本数据，通过fin‑bert模型进行fine‑tune微调，构建年报文本特征表征；对年报结构化数据进行特征抽取和特征构建，构建数值特征和数值表征；挖掘实体和实体关系；对于不同的实体关系利用图卷积神经网络变体公式构建实体关系网络特征表征；最终进行Attention交互实现特征融合。提出年报数据风险识别的多种类型特征融合算法，在不同深度上通过Attention实现跨类型特征融合，提升特征encoder能力，挖掘年报风险。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种企业年报风险分析方法，尤其涉及一种基于深度学习的企业年报风险分析方法。

技术介绍

1、企业年报是企业每年出具的主要财务报告，目的是向公众和监管机构透露企业的运营情况和重要信息。通过企业年报，可了解企业的市场地位、盈利状况、资产质量、经营风险，以及企业的现状和发展战略等。

2、当前针对企业年报的风险分析方法主要有两种：一种是分析年报中相关财务数据风险，如传统咨询公司大多基于相关专家经验进行财务数据指标分析，其专业性强，且操作相对复杂，分析过程中应用大量的规则，可扩展性差，且规则的维护能力差；目前也存在大量的基于统计学对财务数据构建模型，用于识别财务数据粉饰等，其整体分析效果有所改善，且迭代能力有所增强，但从模型角度上还有提升空间。另一种是针对年报中的文字进行风险挖掘，利用文本情感分析风险年报，多采用doc2vec方式进行encoder，然后采用文本分类方法进行数据挖掘，其文本表征相对简单，分析算法也相对简单，不能有效分析年报文本中潜在的关联信息。这两种方式在做年度风险分析时，特征应用相对单一，多采用单独针对财务指标或者文本进行分析，分析方法主要为规则策略或简单的统计模型，对于年报数据的encoder，未考虑引入类目特征；且对于年报的特征挖掘能力不够，年报中非常重要的实体关系特征未挖掘应用到风险识别，实体及实体关系的构建相对复杂。

技术实现思路

1、为了解决上述技术所存在的不足之处，本专利技术提供了一种基于深度学习的企业年报风险分析方法。

2、

3、步骤s1：抓取全量的年报数据，对年报数据进行解析和预处理；

4、步骤s2：对预处理后的年报数据进行结构分析；年报数据包括年报结构化数据和年报非结构化数据，年报非结构化数据包括年报文本数据；

5、步骤s3：利用全量的年报文本数据分别构建segment embedding、tokenembedding、position embedding输入，通过fin-bert模型进行fine-tune，生成年报数据领域的bert预训练模型，从而构建年报文本特征和年报文本表征；

6、步骤s4：对年报结构化数据进行提取、对齐处理后基于bert预训练模型构建数值特征和数值表征；

7、步骤s5：针对年报文本数据，基于bert预训练模型构建ner实体识别模型，并进行实体挖掘；

8、步骤s6：基于双向gru+softmax构建关系挖掘模型，通过关系挖掘模型对全量的关系描述文本进行关系挖掘，从而挖掘实体关系；

9、步骤s7：基于实体关系分别构建异构图，利用图卷积神经网络变体公式对不同的异构图进行特征编码，从而构建实体关系网络特征和实体关系网络表征，图卷积神经网络变体公式为：

10、h＝a*d*x；

11、其中，h为embedding编码矩阵；a为n*n的关系邻接矩阵；d为a的度矩阵；x为节点n*l的节点特征矩阵；

12、步骤s8：将步骤s3中的年报文本表征、步骤s4中的数值表征和步骤s7中的实体关系网络表征利用多头attention思想进行attention交互，实现跨类型特征融合。

13、进一步地，步骤1中利用网络爬虫在上市公司财务信息网站、证券监管机构抓取全量的年报数据，并通过beautifulsoup对抓取的年报数据进行解析。

14、进一步地，步骤s2中对年报数据进行结构分析，针对年报数据为结构化数据的年报结构化数据，根据自身的结构抽取相关财务指标的数值数据；针对年报数据为非结构化数据的年报非结构化数据，利用jieba对年报非结构化数据中的年报文本数据进行切词，并通过金融规则词库对切词后的年报文本数据进行校正；所述步骤s3生成bert预训练模型后对全量的年报文本数据进行embedding表示。

15、进一步地，步骤s4中提取年报中资产负债表、利润表、现金流量表中的结构化的数值数据，并提取各个表中相应类目数据及数值数据，并进行对齐；将表中类目数据的文本进行切词处理，并通过bert预训练模型进行encoder；将类目数据的文本encoder特征与数值特征进行串联将各个类目的数值数据打平并进行拼接，作为数据层面的特征输入；数值特征包括期末余额/年初余额、本期余额/上期余额、余额占比。

16、进一步地，步骤s5中首先利用开源msra数据集对年报文本数据进行bio标识；其次，基于bilstm+crf模型实现ner实体识别模型，通过ner实体识别模型对年报文本数据的标注任务进行实体训练模型；最后，利用jieba分词器对年报数据中的年报文本数据进行切词处理，输入到实体模型训练中进行实体标注。

17、进一步地，步骤s6挖掘实体关系，是以企业客户为实体的节点，包括挖掘企业之间投资关系、企业之间参股关系、企业之间股东关系；挖掘实体关系首先要构建企业之间投资关系、企业之间参股关系、企业之间股东关系的关键词词库，利用实体及包含不同关系关键词的文本标注部分实体关系，作为关系样本数据；其次，通过关键词词库基于bert预训练模型构建词向量，抽取部分包含实体的文本进行切词，通过bert预训练模型构建文本向量，若文本中包含多个词，则多个词向量相加，然后取平均；利用euclidean distance计算词向量和文本向量的相似度，取部分文本向量加入关系样本数据集合；将实体关系抽取任务抽象为多分类任务，输入为关系描述文本与关系类型标签，通过双向gru+softmax构建文本识别网络并调整网络参数，构建关系挖掘模型；最后，通过关系挖掘模型对全量的关系描述文本进行关系挖掘，输出相应的关系的实体及关系标签。

18、进一步地，步骤s7中分别对异构图中的不同关系进行编码，是指实体的节点不变，针对实体对应的3种关系分别构建3个关联关系图，对于每张图，分别利用图卷积神经网络变体公式进行相应特征编码；针对同种实体的节点的不同关联关系图，在不同关系单独特征编码后，打平串联相应的编码，以便进行特征融合。

19、进一步地，步骤s8中特征融合的输入层为步骤s3中的年报文本表征、步骤s4中的数值表征和步骤s7中的实体关系网络表征；隐藏层为年报文本表征、数值表征、实体关系网络表征单独进行全连接层处理，处理后输出规定长度表征数据，分别进入attention交互处理，经过concat处理，实现年报数据的encoder；输出层对编码器部分输出的encoder向量做映射，变换成不同的logits向量，之后进入softmax层变换为概率值，进而得到对应的概率矩阵，经过损失函数调整训练相关参数。

20、进一步地，步骤s8中利用步骤s3中的年报文本特征、步骤s4中的数值特征和步骤s7中的实体关系网络特征计算attention的值，计算attention值的公式为：

21、

22、attention(q,本文档来自技高网...

【技术保护点】

1.一种基于深度学习的企业年报风险分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤S1中利用网络爬虫在上市公司财务信息网站、证券监管机构抓取全量的年报数据，并通过beautifulsoup对抓取的年报数据进行解析。

3.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤S2中对年报数据进行结构分析，针对年报数据为结构化数据的年报结构化数据，根据自身的结构抽取相关财务指标的数值数据；针对年报数据为非结构化数据的年报非结构化数据，利用jieba对年报非结构化数据中的年报文本数据进行切词，并通过金融规则词库对切词后的年报文本数据进行校正；所述步骤S3生成bert预训练模型后对全量的年报文本数据进行embedding表示。

4.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤S4中提取年报中资产负债表、利润表、现金流量表中的结构化的数值数据，并提取各个表中相应类目数据及数值数据，并进行对齐；将各个表中类目数据的文本进行切词处理，并

5.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤S5中首先利用开源MSRA数据集对年报文本数据进行BIO标识；其次，基于BiLSTM+CRF模型实现NER实体识别模型，通过对年报文本数据的标注任务进行实体训练模型；最后，利用jieba分词器对年报数据中的年报文本数据进行切词处理，输入到实体模型训练中进行实体标注。

6.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤S6挖掘实体关系，是以企业客户为实体的节点，包括挖掘企业之间投资关系、企业之间参股关系、企业之间股东关系；挖掘实体关系首先要构建企业之间投资关系、企业之间参股关系、企业之间股东关系的关键词词库，利用实体及包含不同关系关键词的文本标注部分实体关系，作为关系样本数据；其次，通过关键词词库基于bert预训练模型构建词向量，抽取部分包含实体的文本进行切词，通过bert预训练模型构建文本向量，若文本包含多个词，则多个该词的词向量相加，然后取平均；利用Euclidean Distance计算词向量和文本向量的相似度，取部分文本向量加入关系样本数据集合；将实体关系抽取任务抽象为多分类任务，输入为关系描述文本与关系类型标签，通过双向GRU+softmax构建文本识别网络并调整网络参数，构建关系挖掘模型；最后，通过关系挖掘模型对全量的关系描述文本进行关系挖掘，输出相应的关系的实体及关系的标签。

7.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤S7中分别对异构图中的不同关系进行编码，是指实体的节点不变，针对实体对应的企业之间投资关系、企业之间参股关系、企业之间股东关系分别构建3个关联关系图，对于每张图，分别利用图卷积神经网络变体公式进行相应的特征编码。

8.根据权利要求7所述的基于深度学习的企业年报风险分析方法，其特征在于：针对同种的所述实体的节点的不同的关联关系图，在不同关系单独特征编码后，打平串联相应的编码，以便进行特征融合。

9.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤S8中特征融合的输入层为步骤S3中的年报文本表征、步骤S4中的数值表征和步骤S7中的实体关系网络表征；隐藏层为年报文本表征、数值表征、实体关系网络表征分别单独进行全连接层处理，处理后输出规定长度表征数据，分别进入Attention交互处理，经过Concat处理，实现年报数据的encoder；输出层对编码器部分输出的encoder向量做映射，变换成不同的logits向量，进入softmax层变换概率值，进而得到对应的概率矩阵，经过损失函数调整训练相关参数。

10.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤S8中利用步骤S3中的年报文本特征、步骤S4中的数值特征和步骤S7中的实体关系网络特征计算Attention的值，计算Attention值的公式为：

...

【技术特征摘要】

1.一种基于深度学习的企业年报风险分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤s1中利用网络爬虫在上市公司财务信息网站、证券监管机构抓取全量的年报数据，并通过beautifulsoup对抓取的年报数据进行解析。

3.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤s2中对年报数据进行结构分析，针对年报数据为结构化数据的年报结构化数据，根据自身的结构抽取相关财务指标的数值数据；针对年报数据为非结构化数据的年报非结构化数据，利用jieba对年报非结构化数据中的年报文本数据进行切词，并通过金融规则词库对切词后的年报文本数据进行校正；所述步骤s3生成bert预训练模型后对全量的年报文本数据进行embedding表示。

4.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤s4中提取年报中资产负债表、利润表、现金流量表中的结构化的数值数据，并提取各个表中相应类目数据及数值数据，并进行对齐；将各个表中类目数据的文本进行切词处理，并通过bert预训练模型进行encoder；将类目数据的文本encoder特征与数值特征进行串联将各个类目的数值数据打平并进行拼接，作为数据层面的特征输入；数值特征包括期末余额和年初余额、本期余额和上期余额、余额占比。

5.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤s5中首先利用开源msra数据集对年报文本数据进行bio标识；其次，基于bilstm+crf模型实现ner实体识别模型，通过对年报文本数据的标注任务进行实体训练模型；最后，利用jieba分词器对年报数据中的年报文本数据进行切词处理，输入到实体模型训练中进行实体标注。

6.根据权利要求1所述的基于深度学习的企业年报风险分析方法，其特征在于：所述步骤s6挖掘实体关系，是以企业客户为实体的节点，包括挖掘企业之间投资关系、企业之间参股关系、企业之间股东关系；挖掘实体关系首先要构建企业之间投资关系、企业之间参股关系、企业之间股东关系的关键词词库，利用实体及包含不...

【专利技术属性】
技术研发人员：姜超，李学勇，何海清，
申请(专利权)人：渤海银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人