一种财报风险识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38021733 阅读:10 留言:0更新日期:2023-06-30 10:48
本申请提供了一种财报风险识别方法、装置、电子设备及存储介质,该方法包括:获取财报数据集,对财报数据集进行预处理和数据清洗,构造特征矩阵,对不同企业在对应时间维度上的财报数据进行对比学习处理,得到每个企业在不同时间维度上的隐含特征矩阵,然后构建监督学习模型,从无标注样本集中筛选出已有规则无法检测出的目标样本,接着再从目标样本中筛选出疑似粉饰财报数据,对疑似粉饰财报数据进行归因分析,得到粉饰财报和粉饰财报对应的粉饰行为,最后基于粉饰财报和粉饰行为更新财报粉饰规则库。本申请能够较高程度地识别财务粉饰情况。况。况。

【技术实现步骤摘要】
一种财报风险识别方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种财报风险识别方法、装置、电子设备及存储介质。

技术介绍

[0002]财务报表的内容要如实全面反映企业的财务状况和经营成果,满足相关利益者的信息需求,要保证向报表使用者提供的各项数据真实可靠。然而目前财务报表粉饰现象严重,并且粉饰的程度也比较高。这些不真实的会计报表传递了错误的信息,迷惑了报表的预期使用者,依此作出错误的决策,导致财务风险加大,资金受损;同时也会扰乱经济秩序,导致税收流失、财政和银行资金蒙受损失。
[0003]因此必须认真分析财务报表粉饰行为产生的原因,最大程度的识别出财务粉饰的情况,现有技术中缺少相应的解决手段。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种财报风险识别方法、装置、电子设备及存储介质,能够较高程度地识别财务粉饰情况。
[0005]本申请实施例的技术方案是这样实现的:
[0006]第一方面,本申请实施例提供一种财报风险识别方法,包括以下步骤:
[0007]获取财报数据集,并对所述财报数据集进行预处理,得到标注样本集和无标注样本集,其中,所述标注样本集表示已经确定是否具有粉饰的财报数据,所述无标注样本集表示不能确定是否具有粉饰的财报数据;
[0008]对所述无标注样本集进行数据清洗,并基于清洗后的所述无标注样本集构造特征矩阵,其中,所述特征矩阵用于表示每个企业在不同时间维度上的所述财报数据;
[0009]基于所述特征矩阵,对不同企业在对应时间维度上的所述财报数据进行对比学习处理,得到每个企业在不同时间维度上的隐含特征矩阵,其中,所述隐含特征矩阵中包括用于描述是否具有粉饰的区分度特征;
[0010]基于所述标注样本集和所述每个企业在不同时间维度上的隐含特征矩阵构建监督学习模型,并通过所述监督学习模型从所述无标注样本集中筛选出已有规则无法检测出的目标样本;
[0011]从所述目标样本中筛选出疑似粉饰财报数据,对所述疑似粉饰财报数据进行归因分析,得到每个疑似粉饰财报数据存在粉饰的概率,并根据所述概率得到粉饰财报和所述粉饰财报对应的粉饰行为;
[0012]基于所述粉饰财报和所述粉饰行为更新财报粉饰规则库。
[0013]在一种可能的实施方式中,所述标注样本集包括正样本集和负样本集,所述对所述财报数据集进行预处理,得到标注样本集和无标注样本集,包括:
[0014]从目标数据源中采集至少一条财报数据组成所述财报数据集;
[0015]将已经确定无粉饰的所述财报数据确定为所述正样本集、将已经确定有粉饰的所述财报数据确定为所述负样本集以及将不能确定是否具有粉饰的所述财报数据确定为所述无标注样本集。在一种可能的实施方式中,所述方法还包括:
[0016]在一种可能的实施方式中,所述基于清洗后的所述无标注样本集构造特征矩阵,包括:
[0017]根据每个企业的企业信息和行业信息构建每个企业对应的第一特征矩阵,其中,所述企业信息包括企业基本信息和企业经营信息,所述行业信息包括行业基本信息和行业经营信息;
[0018]基于所述企业经营信息和所述行业经营信息的时间维度,对每个企业对应的所述第一特征矩阵进行衍生处理,得到每个企业对应的第二特征矩阵,并将每个企业对应的第二特征矩阵作为所述特征矩阵。
[0019]在一种可能的实施方式中,所述基于所述特征矩阵,对不同企业在对应时间维度上的所述财报数据进行对比学习处理,得到每个企业在不同时间维度上的隐含特征矩阵,包括:
[0020]以企业为单位,选取任意企业任意季度的财报数据作为锚样本,将非锚样本所在企业的财报数据作为负样本,以及将选取的该企业其他季度的财报数据作为正样本;
[0021]基于每次选取的所述锚样本、所述负样本和所述正样本,对该次选取的所述正样本输入深度神经网络进行对比学习处理,并通过损失函数确定每个企业在不同时间维度上的所述区分度特征;
[0022]将所述区分度特征添加至所述特征矩阵,得到所述隐含特征矩阵。
[0023]在一种可能的实施方式中,所述通过所述监督学习模型从所述无标注样本集中筛选出已有规则无法检测出的目标样本,包括:
[0024]将多层感知器作为所述监督学习模型,其中,所述多层感知器中神经元的激活函数为噪声线性整流函数;
[0025]将所述无标注样本集作为输入参数输入所述监督学习模型,得到粉饰行为概率;
[0026]将所述粉饰行为概率大于预设的第一阈值的财报数据确定为所述目标样本。
[0027]在一种可能的实施方式中,所述从所述目标样本中筛选出疑似粉饰财报数据,包括:
[0028]确定所述目标样本所处的当前行业;
[0029]计算所述当前行业下已知的具有粉饰行为的财报数据占该行业下的总体样本的总体样本比例;
[0030]从所述目标样本中取目标数量的财报数据作为所述疑似粉饰财报数据,其中,所述目标数量为所述总体样本与所述总体样本比例的乘积。
[0031]在一种可能的实施方式中,所述对所述疑似粉饰财报数据进行归因分析,得到每个疑似粉饰财报数据存在粉饰的概率,并根据所述概率得到粉饰财报和所述粉饰财报对应的粉饰行为,包括:
[0032]通过梯度提升树对所述疑似粉饰财报数据的沙普利值进行预测,其中,所述沙普利值表示所述疑似粉饰财报数据存在粉饰的所述概率;
[0033]对所述概率大于预设的第二阈值的所述疑似粉饰财报数据进行判别处理,得到粉
饰财报和所述粉饰财报对应的粉饰行为。
[0034]第二方面,本申请实施例还提供一种财报风险识别装置,所述装置包括:
[0035]获取模块,用于获取财报数据集,并对所述财报数据集进行预处理,得到标注样本集和无标注样本集,其中,所述标注样本集表示已经确定是否具有粉饰的财报数据,所述无标注样本集表示不能确定是否具有粉饰的财报数据;
[0036]构造模块,用于对所述无标注样本集进行数据清洗,并基于清洗后的所述无标注样本集构造特征矩阵,其中,所述特征矩阵用于表示每个企业在不同时间维度上的所述财报数据;
[0037]对比模块,用于基于所述特征矩阵,对不同企业在对应时间维度上的所述财报数据进行对比学习处理,得到每个企业在不同时间维度上的隐含特征矩阵,其中,所述隐含特征矩阵中包括用于描述是否具有粉饰的区分度特征;
[0038]筛选模块,用于基于所述标注样本集和所述每个企业在不同时间维度上的隐含特征矩阵构建监督学习模型,并通过所述监督学习模型从所述无标注样本集中筛选出已有规则无法检测出的目标样本;
[0039]分析模块,用于从所述目标样本中筛选出疑似粉饰财报数据,对所述疑似粉饰财报数据进行归因分析,得到每个疑似粉饰财报数据存在粉饰的概率,并根据所述概率得到粉饰财报和所述粉饰财报对应的粉饰行为;
[0040]更新模块,用于基于所述粉饰财报和所述粉饰行为更新财报本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种财报风险识别方法,其特征在于,包括以下步骤:获取财报数据集,并对所述财报数据集进行预处理,得到标注样本集和无标注样本集,其中,所述标注样本集表示已经确定是否具有粉饰的财报数据,所述无标注样本集表示不能确定是否具有粉饰的财报数据;对所述无标注样本集进行数据清洗,并基于清洗后的所述无标注样本集构造特征矩阵,其中,所述特征矩阵用于表示每个企业在不同时间维度上的所述财报数据;基于所述特征矩阵,对不同企业在对应时间维度上的所述财报数据进行对比学习处理,得到每个企业在不同时间维度上的隐含特征矩阵,其中,所述隐含特征矩阵中包括用于描述是否具有粉饰的区分度特征;基于所述标注样本集和所述每个企业在不同时间维度上的隐含特征矩阵构建监督学习模型,并通过所述监督学习模型从所述无标注样本集中筛选出已有规则无法检测出的目标样本;从所述目标样本中筛选出疑似粉饰财报数据,对所述疑似粉饰财报数据进行归因分析,得到每个疑似粉饰财报数据存在粉饰的概率,并根据所述概率得到粉饰财报和所述粉饰财报对应的粉饰行为;基于所述粉饰财报和所述粉饰行为更新财报粉饰规则库。2.根据权利要求1所述的方法,其特征在于,所述标注样本集包括正样本集和负样本集,所述对所述财报数据集进行预处理,得到标注样本集和无标注样本集,包括:从目标数据源中采集至少一条财报数据组成所述财报数据集;将已经确定无粉饰的所述财报数据确定为所述正样本集、将已经确定有粉饰的所述财报数据确定为所述负样本集以及将不能确定是否具有粉饰的所述财报数据确定为所述无标注样本集。3.根据权利要求1所述的方法,其特征在于,所述基于清洗后的所述无标注样本集构造特征矩阵,包括:根据每个企业的企业信息和行业信息构建每个企业对应的第一特征矩阵,其中,所述企业信息包括企业基本信息和企业经营信息,所述行业信息包括行业基本信息和行业经营信息;基于所述企业经营信息和所述行业经营信息的时间维度,对每个企业对应的所述第一特征矩阵进行衍生处理,得到每个企业对应的第二特征矩阵,并将每个企业对应的第二特征矩阵作为所述特征矩阵。4.根据权利要求1所述的方法,其特征在于,所述基于所述特征矩阵,对不同企业在对应时间维度上的所述财报数据进行对比学习处理,得到每个企业在不同时间维度上的隐含特征矩阵,包括:以企业为单位,选取任意企业任意季度的财报数据作为锚样本,将非锚样本所在企业的财报数据作为负样本,以及将选取的该企业其他季度的财报数据作为正样本;基于每次选取的所述锚样本、所述负样本和所述正样本,对该次选取的所述正样本输入深度神经网络进行对比学习处理,并通过损失函数确定每个企业在不同时间维度上的所述区分度特征;将所述区分度特征添加至所述特征矩阵,得到所述隐含特征矩阵。
5.根据权利要求1所述的方法,其特征在于,所述通过所述监督学习模型从所述无标注样本集中筛选出已有规则无法检测出的目标样本,包括:将多层感...

【专利技术属性】
技术研发人员:姜超钟坚文李学勇何海清郝寸平周俊张皓东郭正斌刘鹏飞
申请(专利权)人:渤海银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1