【技术实现步骤摘要】
一种财报风险识别方法、装置、电子设备及存储介质
[0001]本申请涉及数据处理
,尤其涉及一种财报风险识别方法、装置、电子设备及存储介质。
技术介绍
[0002]财务报表的内容要如实全面反映企业的财务状况和经营成果,满足相关利益者的信息需求,要保证向报表使用者提供的各项数据真实可靠。然而目前财务报表粉饰现象严重,并且粉饰的程度也比较高。这些不真实的会计报表传递了错误的信息,迷惑了报表的预期使用者,依此作出错误的决策,导致财务风险加大,资金受损;同时也会扰乱经济秩序,导致税收流失、财政和银行资金蒙受损失。
[0003]因此必须认真分析财务报表粉饰行为产生的原因,最大程度的识别出财务粉饰的情况,现有技术中缺少相应的解决手段。
技术实现思路
[0004]有鉴于此,本申请实施例提供了一种财报风险识别方法、装置、电子设备及存储介质,能够较高程度地识别财务粉饰情况。
[0005]本申请实施例的技术方案是这样实现的:
[0006]第一方面,本申请实施例提供一种财报风险识别方法,包括以下步骤:
[0007]获取财报数据集,并对所述财报数据集进行预处理,得到标注样本集和无标注样本集,其中,所述标注样本集表示已经确定是否具有粉饰的财报数据,所述无标注样本集表示不能确定是否具有粉饰的财报数据;
[0008]对所述无标注样本集进行数据清洗,并基于清洗后的所述无标注样本集构造特征矩阵,其中,所述特征矩阵用于表示每个企业在不同时间维度上的所述财报数据;
[0009]基于所述特 ...
【技术保护点】
【技术特征摘要】
1.一种财报风险识别方法,其特征在于,包括以下步骤:获取财报数据集,并对所述财报数据集进行预处理,得到标注样本集和无标注样本集,其中,所述标注样本集表示已经确定是否具有粉饰的财报数据,所述无标注样本集表示不能确定是否具有粉饰的财报数据;对所述无标注样本集进行数据清洗,并基于清洗后的所述无标注样本集构造特征矩阵,其中,所述特征矩阵用于表示每个企业在不同时间维度上的所述财报数据;基于所述特征矩阵,对不同企业在对应时间维度上的所述财报数据进行对比学习处理,得到每个企业在不同时间维度上的隐含特征矩阵,其中,所述隐含特征矩阵中包括用于描述是否具有粉饰的区分度特征;基于所述标注样本集和所述每个企业在不同时间维度上的隐含特征矩阵构建监督学习模型,并通过所述监督学习模型从所述无标注样本集中筛选出已有规则无法检测出的目标样本;从所述目标样本中筛选出疑似粉饰财报数据,对所述疑似粉饰财报数据进行归因分析,得到每个疑似粉饰财报数据存在粉饰的概率,并根据所述概率得到粉饰财报和所述粉饰财报对应的粉饰行为;基于所述粉饰财报和所述粉饰行为更新财报粉饰规则库。2.根据权利要求1所述的方法,其特征在于,所述标注样本集包括正样本集和负样本集,所述对所述财报数据集进行预处理,得到标注样本集和无标注样本集,包括:从目标数据源中采集至少一条财报数据组成所述财报数据集;将已经确定无粉饰的所述财报数据确定为所述正样本集、将已经确定有粉饰的所述财报数据确定为所述负样本集以及将不能确定是否具有粉饰的所述财报数据确定为所述无标注样本集。3.根据权利要求1所述的方法,其特征在于,所述基于清洗后的所述无标注样本集构造特征矩阵,包括:根据每个企业的企业信息和行业信息构建每个企业对应的第一特征矩阵,其中,所述企业信息包括企业基本信息和企业经营信息,所述行业信息包括行业基本信息和行业经营信息;基于所述企业经营信息和所述行业经营信息的时间维度,对每个企业对应的所述第一特征矩阵进行衍生处理,得到每个企业对应的第二特征矩阵,并将每个企业对应的第二特征矩阵作为所述特征矩阵。4.根据权利要求1所述的方法,其特征在于,所述基于所述特征矩阵,对不同企业在对应时间维度上的所述财报数据进行对比学习处理,得到每个企业在不同时间维度上的隐含特征矩阵,包括:以企业为单位,选取任意企业任意季度的财报数据作为锚样本,将非锚样本所在企业的财报数据作为负样本,以及将选取的该企业其他季度的财报数据作为正样本;基于每次选取的所述锚样本、所述负样本和所述正样本,对该次选取的所述正样本输入深度神经网络进行对比学习处理,并通过损失函数确定每个企业在不同时间维度上的所述区分度特征;将所述区分度特征添加至所述特征矩阵,得到所述隐含特征矩阵。
5.根据权利要求1所述的方法,其特征在于,所述通过所述监督学习模型从所述无标注样本集中筛选出已有规则无法检测出的目标样本,包括:将多层感...
【专利技术属性】
技术研发人员:姜超,钟坚文,李学勇,何海清,郝寸平,周俊,张皓东,郭正斌,刘鹏飞,
申请(专利权)人:渤海银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。