【技术实现步骤摘要】
基于孤立森林算法的财务数据异常检测方法及相关装置
本申请涉及数据分析
,具体而言,涉及一种基于孤立森林算法的财务数据异常检测方法及相关装置。
技术介绍
一般地,机器学习算法在金融风控领域得到较广泛应用,但受缺少坏样本标注的限制,导致模型精确率难以达到业务要求。现有异常检测方法中机器学习模型在应用于财务数据稽核中存在问题:财务数据繁杂,不同主体(公司)、不同科目、不同报销事件的财务数据存在巨大的差异,且财务数据普遍存在会计冲销、科目间账目调整等实际情况,以致现有异常检测方法难以区分正常数据与异常(违规)报销数据。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本申请的目的在于提供一种基于孤立森林算法的财务数据异常检测方案,进而至少在一定程度上有效提升财务数据异常检测的可靠性及准确性。根据本申请的一个方面,提供一种基于孤立森林算法的财务数据异常检测方法,其特征在于,所述方法包括:从数据库中获取预 ...
【技术保护点】
1.一种基于孤立森林算法的财务数据异常检测方法,其特征在于,所述方法包括:/n从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集;/n将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;/n通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;/n将所述群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;/n将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定 ...
【技术特征摘要】
1.一种基于孤立森林算法的财务数据异常检测方法,其特征在于,所述方法包括:
从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集;
将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集;
通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表;
将所述群组基线变换后的正数据集特征宽表输入孤立森林算法模型,得到第一异常数据;
将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据。
2.根据权利要求1所述的方法,其特征在于,所述从数据库中获取预定时间段的财务数据,并根据预定数据类别字段将所述财务数据划分为多类子数据集,包括:
从数据库中获取预定时间段的财务数据,并根据不同财务科目代码字段将所述财务数据划分为不同科目的子数据集。
3.根据权利要求1所述的方法,其特征在于,所述业务主体字段包括贷方原币字段;所述将每类所述子数据集基于所述子数据集中的业务主体字段进行数据冲销处理后,拆分为正数据集及负数据集,包括:
将每类所述子数据集中贷方原币字段中报销单号相同、两报销单的贷方原币字段的金额字段正负值相反且绝对值相同的报销单号对应的数据删除后,得到每类所述子数据集中冲销后的数据集;
将每类所述子数据集中冲销后的数据集,根据贷方原币金额字段的正负值拆分为正数据集及负数据集。
4.根据权利要求1所述的方法,其特征在于,通过特征构造分别生成所述正数据集及所述负数据集的特征宽表,并对所述正数据集的特征宽表进行群组基线划分,得到群组基线变换后的正数据集特征宽表,包括:
根据预设特征表中财务数据的通用统计特征和业务特征,对所述正数据集及所述负数据集分别进行特征构造,生成所述正数据集及所述负数据集的特征宽表;
对所述正数据集的特征宽表中的机构按照机构规模基线划分为不同层级的机构,并对所述不同层级的机构的数据进行零均值归一化处理得到群组基线变换后的正数据集特征宽表。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据中的风险数据,包括:
将所述第一异常数据的主体字段与所述负数据集的特征宽表中的主体字段进行比对,以确定所述第一异常数据的主体字段中是否存在与所述负数据集的特征宽表中主体字段相同的字段;
如果所述第一异常数据的主体字段中存在与所述负数...
【专利技术属性】
技术研发人员:何越,古承炬,何振,尹小亮,林育芳,陈炯其,
申请(专利权)人:平安直通咨询有限公司上海分公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。