一种财务报告舞弊检测方法及系统技术方案

技术编号：37348089 阅读：13 留言：0更新日期：2023-04-22 21:44

本发明专利技术涉及一种财务报告舞弊检测方法及系统，属于数据处理技术领域，解决了现有因无法有效区分MD&A语义及语义丢失导致舞弊检测不精确的问题。包括获取历史财务报告构建文本数据集；对文本数据集中每条文本数据进行分词得到分词结果，根据重要性阈值筛选分词结果并转换为词向量，得到词向量矩阵；从字、词、句和段四个维度构建中文可读性指标向量，根据中文可读性指标向量，获取每条文本数据的可读性向量，得到可读性向量矩阵；基于词向量矩阵和可读性向量矩阵，得到样本集；根据样本集训练分类模型，得到舞弊检测模型；预处理待预测的财务报告，将得到的词向量和可读性向量拼接后传入舞弊检测模型，得到检测结果。实现了财务报告舞弊的精确检测。告舞弊的精确检测。告舞弊的精确检测。

全部详细技术资料下载

【技术实现步骤摘要】
一种财务报告舞弊检测方法及系统

[0001]本专利技术涉及数据处理
，尤其涉及一种财务报告舞弊检测方法及系统。

技术介绍

[0002]在上市公司的财务舞弊检测中，反舞弊最关键、最困难的环节即对舞弊迹象的识别。
[0003]早期的研究主要偏向使用财务报表等结构化数据对公司舞弊进行识别。随着自然语言处理技术的快速发展，学者们开始聚焦于利用非结构化数据，通过分析上市公司年报中的管理层讨论与分析章节（Management Discussion and Analysis，MD&A）来区分舞弊公司和非舞弊公司。
[0004]但是，由于年报MD&A中存在专业词汇、单个词语数量较多且多次重复出现等特性，常规的自然语言处理方法无法将其有效的分开。同时现有的研究也存在对非结构化数据信息利用不足的问题，主要体现在利用自然语言处理方法对整个文本进行向量化时，无法捕捉文本结构的语义特征，使得文本向量化后损失了语义信息，进而导致对公司舞弊识别无法达到最佳效果。

技术实现思路

[0005]鉴于上述的分析，本专利技术实施例旨在提供一种财务报告舞弊检测方法及系统，用以解决现有因无法有效区分MD&A语义导致舞弊检测不精确的问题，同时也引入了一种全新的方法实现更为全面的衡量MD&A文本可读性，进而补充自然语言处理方法造成的文本语义丢失问题。
[0006]一方面，本专利技术实施例提供了一种财务报告舞弊检测方法包括如下步骤：获取历史财务报告，构建文本...

【技术保护点】

【技术特征摘要】
1.一种财务报告舞弊检测方法，其特征在于，包括如下步骤：获取历史财务报告，构建文本数据集；对文本数据集中每条文本数据进行分词，得到分词结果，根据重要性阈值，筛选分词结果并转换为词向量，得到文本数据集的词向量矩阵；从字、词、句和段四个维度构建中文可读性指标向量，根据中文可读性指标向量，获取文本数据集中每条文本数据的可读性向量，得到文本数据集的可读性向量矩阵；基于词向量矩阵和可读性向量矩阵，对每条文本数据对应的词向量和可读性向量进行拼接，作为一条样本，得到样本集；根据样本集训练分类模型，得到舞弊检测模型；预处理待预测的财务报告，将得到的词向量和可读性向量拼接后传入舞弊检测模型，得到检测结果。2.根据权利要求1所述的财务报告舞弊检测方法，其特征在于，所述获取历史财务报告，构建文本数据集，包括：获取历史各年度和各季度财务报告中的MD&A文本，以及历史舞弊记录；根据每条历史舞弊记录中的公司和年度，将该公司当年和上一年的年度财务报告，及对应年度的各季度财务报告的MD&A文本都设置为舞弊的分类标签；其它的MD&A文本设置为非舞弊的分类标签；将每条MD&A文本作为一条文本数据与对应的分类标签，放入文本数据集中。3.根据权利要求2所述的财务报告舞弊检测方法，其特征在于，所述对文本数据集中每条文本数据进行分词，得到分词结果，包括：使用正则表达式去除文本数据中的英文字符、空字符和无用标点符号，所述无用标点符号是除句号、中文问号、中文感叹号、中文分号、中文逗号和中文冒号之外的标点符号；使用jieba库的精确模式进行分词，并根据停用词表去除停用词，得到分词结果。4.根据权利要求3所述的财务报告舞弊检测方法，其特征在于，所述根据重要性阈值，筛选分词结果并转换为词向量，包括：将每条文本数据的分词结果作为特征，分类标签作为响应变量，采用随机森林模型构建多棵决策树；按分词结果中各词汇的重要性从高到低排序分词结果；根据重要性阈值，从每条文本数据的排序后的分词结果中按顺序选取相同数量的词汇；采用Hash Trick方法，将每条文本数据选取的词汇转换为词向量。5.根据权利要求1所述的财务报告舞弊检测方法，其特征在于，所述从字、词、句和段四个维度构建中文可读性指标向量，包括：基于中文文本语言结构特征，根据常用字比率构建字的中文可读性指标；根据常用词比率、成语比率、专业词汇比率、逆接关系连接词比率和否定词比率构建词的中文可读性指标；根据平均句长和陈述句比率...

【专利技术属性】
技术研发人员：张熠，李维萍，刘天祥，
申请(专利权)人：南京审计大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人