一种基于表征学习的财务风险预测方法及系统技术方案

技术编号:38158528 阅读:15 留言:0更新日期:2023-07-13 09:28
本发明专利技术公开了一种基于表征学习的财务风险预测方法及系统,该方法包括:获取包含M个财务文本的财务文本集合;对每个财务文本进行向量化处理,获取对应的文本向量序列,并根据文本向量序列和财务文本表征模型,获取对应的文本特征向量;获取包含N个风险词条的风险词条集合;根据风险词条集合和财务文本表征模型,获取每个风险词条对应的词条特征向量;对于M个文本特征向量和N个词条特征向量,计算基于交叉注意力的余弦相似度,并构建相似度矩阵;将相似度矩阵拆分为列向量,根据列向量和财务风险预测模型,获取财务风险预测结果。本发明专利技术提高了财务风险预测的实时性、准确性和适用性,并且实现了自定义词条的任意财务风险预测的目的。的目的。的目的。

【技术实现步骤摘要】
一种基于表征学习的财务风险预测方法及系统


[0001]本专利技术涉及机器学习与风险预测
,尤其涉及一种基于表征学习的财务风险预测方法及系统。

技术介绍

[0002]随着企业规模的增大,企业在财务活动过程中面临的企业财务风险挑战和压力日益增加。由于企业财务风险具有实时性、突发性等特点,需要在企业日常经营中加以重视,以避免造成企业经济损失。
[0003]企业财务活动过程中主要涉及资金管理、成本管理等方面。目的大部分企业仍通过人工核算大量相关财务文本识别财务状态,以对企业财务风险进行分析和预测。然而,财务文本的信息复杂多样,人工核算时效性差、效率低,容易导致企业无法准确有效地判断实时突发性财务风险,从而导致企业无法对即将发生的风险进行规避,造成企业经济利益损失。
[0004]现有技术中,虽然有部分基于深度学习的财务风险预警方法,例如专利文献CN112950004A提供了一种企业财务预警方法,该方法首先通过超长短期记忆神经网络模型对样本企业历史财务报表中的指标数据进行特征提取,输出特征用于训练预警模型,最后基于训练好的预警模型,以预评估企业财务信息的指标数据为输入,得到评估结果。该方法虽然可以解决人工核算方法存在的效性差、效率低的问题,但是采用财务表报中的指标数据进行财务风险预警,存在对财务文本的特征提取不够全面,财务风险预测结果不够准确的问题。此外,该方法通过预警模型进行风险预警,只能判断企业具有或者不具有财务风险,而无法预测企业的风险类型和风险程度,存在适用性差问题。
[0005]因此,如何实时、准确以及自适应地预测财务风险,依然是当前急需解决的技术问题。

技术实现思路

[0006]基于此,本专利技术实施例提供一种基于表征学习的财务风险预测方法及系统,以解决
技术介绍
中存在的技术问题。
[0007]为解决上述问题,本专利技术实施例提供了一种基于表征学习的财务风险预测方法,包括:获取财务文本集合,所述财务文本集合包含M个财务文本;对每个所述财务文本进行向量化处理,获取对应的文本向量序列,并根据所述文本向量序列和预设的财务文本表征模型,获取对应的文本特征向量;获取风险词条集合,所述风险词条集合包含不同类型和不同程度的N个风险词条;根据所述风险词条集合和所述财务文本表征模型,获取与所述每个风险词条对应的词条特征向量;对于M个所述文本特征向量和N个所述词条特征向量,计算基于交叉注意力的余弦
相似度,并构建相似度矩阵;将所述相似度矩阵拆分为列向量,根据所述列向量和预设的财务风险预测模型,获取财务风险预测结果。
[0008]此外,本专利技术实施例还提供一种基于表征学习的财务风险预测系统,包括:财务文本获取模块,用于获取财务文本集合,所述财务文本集合包含M个财务文本;财务文本处理模块,用于对每个所述财务文本进行向量化处理,获取对应的文本向量序列,并根据所述文本向量序列和预设的财务文本表征模型,获取对应的文本特征向量;风险词条获取模块,用于获取风险词条集合,所述风险词条集合包含不同类型和不同程度的N个风险词条;风险词条处理模块,用于根据所述风险词条集合和所述财务文本表征模型,获取与所述每个风险词条对应的词条特征向量;相似度分析模块,用于对于M个所述文本特征向量和N个所述词条特征向量,计算基于交叉注意力的余弦相似度,并构建相似度矩阵;财务风险预测模块,用于将所述相似度矩阵拆分为列向量,根据所述列向量和预设的财务风险预测模型,获取财务风险预测结果。
[0009]上述实施例提供的一种基于表征学习的财务风险预测方法及系统,首先通过预设的财务文本表征模型对向量化后的各财务文本进行表征学习,得到对应的财务文本特征向量,以及通过财务文本表征模型对各风险词条进行表征学习,得到对应的词条特征向量,可以实现对财务文本和风险词条进行准确、高效地特征提取的目的;然后对于各财务文本特征向量和各词条特征向量,通过基于交叉注意力的余弦相似度计算特征向量之间的相关性,以生成相似度矩阵,可以实现对财务文本与不同类型、不同程度的风险词条之间的关系进行准确匹配的目的;最后根据相似度矩阵拆分得到的列向量和预设的财务风险预测模型,得到财务风险预测结果,可以提高财务风险预测的实时性、准确性和适用性,并且可以实现自定义词条的任意财务风险预测,并为企业处理即将出现的财务风险提供支撑的目的。
附图说明
[0010]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1为本专利技术一实施例所提供的基于表征学习的财务风险预测方法的流程图;图2为本专利技术一实施例所提供的基于表征学习的财务风险预测方法中的财务文本表征模型构建优化的流程图;图3为本专利技术一实施例所提供的一种基于表征学习的财务风险预测系统的结构示意图;图4为本专利技术另一实施例所提供的一种基于表征学习的财务风险预测系统的结构
示意图。
具体实施方式
[0012]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。
[0013]如图1所示,本专利技术一实施例所提供的一种基于表征学习的财务风险预测方法,具体包括以下步骤:S10,获取财务文本集合,所述财务文本集合包含M个财务文本。
[0014]具体的,采集企业相关的财务文本,例如审计报告、投资方案、经营计划和资产清单等,从而构建包含多个(M个)财务文本的财务文本集合。可选地,财务文本集合中财务文本的数量M根据需求进行设置。
[0015]S20,对每个所述财务文本进行向量化处理,获取对应的文本向量序列,并根据所述文本向量序列和预设的财务文本表征模型,获取对应的文本特征向量。
[0016]具体的,先将财务文本集合中的每个财务文输入预设模型进行向量化处理,获得与每个财务文本对应的文本向量序列,再将每个文本向量序列输入预设的财务文本表征模型进行表征学习,获得与每个财务文本对应的文本特征向量,该文本向量序列可以由多个句子向量组成,每个句子向量可以由多个文本向量组成。
[0017]可选地,预设模型为Word2vec模型或者BERT模型等。财务文本表征模型为采用深度自注意力网络结构,并通过随机掩码策略训练得到的网络模型。
[0018]作为优选,所述步骤S20中对每个所述财务文本进行向量化处理,可以包括以下步骤:S201,对于每个所述财务文本,将所述财务文本分割为多个句子序列;S202,将每个所述句子序列输入词向量模型,得到对应的句子向量;S203,将多个所述句子向量进行拼接,得到与所述财务文本对应的文本向量序列。
[0019本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于表征学习的财务风险预测方法,其特征在于,包括:获取财务文本集合,所述财务文本集合包含M个财务文本;对每个所述财务文本进行向量化处理,获取对应的文本向量序列,并根据所述文本向量序列和预设的财务文本表征模型,获取对应的文本特征向量;获取风险词条集合,所述风险词条集合包含不同类型和不同程度的N个风险词条;根据所述风险词条集合和所述财务文本表征模型,获取与所述每个风险词条对应的词条特征向量;对于M个所述文本特征向量和N个所述词条特征向量,计算基于交叉注意力的余弦相似度,并构建相似度矩阵;将所述相似度矩阵拆分为列向量,根据所述列向量和预设的财务风险预测模型,获取财务风险预测结果。2.根据权利要求1所述的基于表征学习的财务风险预测方法,其特征在于,方法还包括:基于深度自注意力网络构建文本表征模型;根据至少一个财务文本、所述财务文本对应的财务风险类别标签以及文本向量序列,构建财务文本训练集;从所述文本向量序列中获取任意句子向量,并通过随机掩码算法得到掩码后的句子向量;将所述掩码后的句子向量输入所述文本表征模型,预测文本向量概率分布;根据所述文本向量概率分布和原句子向量,确定第一交叉熵损失函数,并采用梯度下降反向传播算法优化所述文本表征模型,以获得文本表征优化模型;根据不同类型或者不同程度的风险词条,构建风险词条训练集;将所述文本向量序列和所述风险词条输入所述文本表征优化模型,获取财务文本特征向量和词条特征向量;获取所述财务文本特征向量和所述词条特征向量之间的相关性,与所述财务文本的财务风险类别标签,确定第二交叉熵损失函数,并采用梯度下降反向传播算法优化所述文本表征优化模型,以获得财务文本表征模型。3.根据权利要求2所述的基于表征学习的财务风险预测方法,其特征在于,所述获取所述财务文本特征向量和所述词条特征向量之间的相关性,包括:根据所述财务文本特征向量和所述词条特征向量,计算交叉注意力向量;通过预设激活函数对所述交叉注意力向量进行处理,得到相关性;其中,所述相关性表示为:,上式中,为相关性集合;为Sigmoid激活函数;为词条特征向量;为文本特征向量;、为可学习向量;为第个词条特征向量与第个财务文本特征向量之间的相关性。4.根据权利要求3所述的基于表征学习的财务风险预测方法,其特征在于,所述第一交叉熵损失函数为:
,上式中,为第一交叉熵损失函数;为文本表征模型的网络参数;为文本向量概率分布;为文本向量概率分布中的文本向量;为文本向量的概率值;为向量标记,用于判断概率值对应的文本向量是否属于原句子向量;所述第二交叉熵损失函数为: ,上式中,为第二交叉熵损失函数;为第个词条特征向量与第个财务文本特征向量之间的相关性;为相关性标注,用于预测第个风险词条与第个财务文本是否相关。5.根据权利要求1所述的基于表征学习的财务风险预测方法,其特征在于,所述对于M个文本特征向量和N个词条特征向量,计算基于交叉注意力的余弦相似度,并构建相似度矩阵,包括:获取基于交叉注意力的余弦相似度评估模型,具体为:,其中,为基于交叉注意力的余弦相似度评估模型;为词条特征向量;为文本特征向量;、为可学习向量;为矩阵转置操作;为向量取模函数...

【专利技术属性】
技术研发人员:胡为民黄婵娟何永定余露
申请(专利权)人:深圳市迪博企业风险管理技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1