一种财务报销单据数字化处理方法及系统技术方案

技术编号:39184452 阅读:9 留言:0更新日期:2023-10-27 08:32
本发明专利技术涉及数字数据处理技术领域,提出了一种财务报销单据数字化处理方法及系统,包括:利用报销系统中的财务报销数据信息构建报销信息序列;根据报销人员职级信息及其所在部门的业务优先级获取数据属性序列以及单据特征矩阵;根据单据特征矩阵在每个属性上的投影结果获取分类质量系数;根据单据特征矩阵中不同列元素之间的相关性获取单据特征相似指数;根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的属性分类权重;根据属性分类权重获取随机森林模型,实现对财务报销单据的数字化处理。本发明专利技术利用财务报销数据不同属性的分类能力差异性避免传统随机森林中决策树训练时节点特征随机选取导致的财务报销数据分类精度低的问题。数据分类精度低的问题。数据分类精度低的问题。

【技术实现步骤摘要】
一种财务报销单据数字化处理方法及系统


[0001]本专利技术涉及数字数据处理
,具体涉及一种财务报销单据数字化处理方法及系统。

技术介绍

[0002]财务报销单据可以确保财务支出的合规性、准确性和透明度,有助于记录和追踪资金流动,提供财务管理的依据和证据,并确保财务操作符合相关法规和政策要求。而随着科技的发展,财务报销单据逐渐从传统的纸质形式转变为电子化和数字化的形式。财务报销单据的数字化处理具有较多优点,如提高效率、减少错误、节省成本、提高可追溯性,同时提高了审批流程的透明度,减少了纸质文档的使用,方便了报销流程的跟踪和管理。
[0003]但现有的财务报销单数据数字化管理流程中,报销单据处理方式往往繁琐、耗时,容易产生错误,没有明确的处理优先级顺序。数据分类算法是面向大数据等级分类的有效方法,能够用于财务报销单数据的数字化处理过程中,数据分类算法包括随机森林算法、层次聚类算法等,其中层次聚类算法通常需要预设多个参数,而进行财务报销单据分类时常用随机森林算法通过随机选取固定数量的特征进行训练,分类效果并不稳定,具有一定的随机性,从而可能对财务保险单据数字化处理效率产生影响。

技术实现思路

[0004]本专利技术提供一种财务报销单据数字化处理方法及系统,以解决随机森林算法中训练决策树时随机选取节点分类特征造成财务报销单数据分类精度不稳定的问题,所采用的技术方案具体如下:
[0005]第一方面,本专利技术一个实施例提供了一种财务报销单据数字化处理方法,该方法包括以下步骤:
[0006]获取报销系统中的财务报销数据信息,利用所述财务报销数据信息构建每个标号单据的报销信息序列,所述财务报销数据信息包括报销人员、报销人员所在部门、报销金额、报销类别、报销明细、报销申请时间;
[0007]根据报销人员职级信息及其所在部门的业务优先级获取每个标号单据的数据属性序列;将所有标号单据的数据属性序列组成的矩阵作为单据特征矩阵;根据单据特征矩阵在每个属性上的投影结果获取每个属性的分类质量系数;
[0008]根据单据特征矩阵中不同列元素之间的相关性获取每个属性的单据特征相似指数;根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的属性分类权重;根据所有属性的属性分类权重获取随机森林模型,利用随机森林模型获取每个标号单据的单据等级系数,根据单据等级系数实现对财务报销单据的数字化处理。
[0009]优选的,所述根据单据特征矩阵在每个属性上的投影结果获取每个属性的分类质量系数的方法为:
[0010]根据单据特征矩阵中的元素大小获取单据特征矩阵在每个属性上的投影值集合;
根据单据特征矩阵在每个属性上投影值集合的聚类结果获取每个属性的维度分类指数;
[0011]获取所述聚类结果中任意两个聚类簇中心点之间的度量距离与任意两个聚类簇内投影值信息熵之间的差值绝对值的乘积作为第一累加因子,将第一累加因子在所述聚类结果上的累加作为第一组成因子;
[0012]每个属性的分类质量系数由每个属性的维度分类指数、第一组成因子两部分组成,其中,所述分类质量系数与维度分类指数、第一组成因子成正相关关系。
[0013]优选的,所述根据单据特征矩阵中的元素大小获取单据特征矩阵在每个属性上的投影值集合的方法为:
[0014]将单据特征矩阵中每一列元素组成的向量作为每一列元素对应属性的投影向量;
[0015]将单据特征矩阵中每一行元素组成的序列与所述投影向量的内积作为每一行元素在所述投影向量上的投影值,将单据特征矩阵中所有行元素在所述投影向量上的投影值组成的集合作为单据特征矩阵在每个属性上的投影值集合。
[0016]优选的,所述根据单据特征矩阵在每个属性上投影值集合的聚类结果获取每个属性的维度分类指数的方法为:
[0017]将每个属性上投影值集合的聚类结果中每一个聚类簇中的投影值组成的序列作为每一个聚类簇的类序列;
[0018]将任意两个聚类簇的类序列之间的度量距离在所述聚类结果上的累加作为每个属性的维度分类指数。
[0019]优选的,所述根据单据特征矩阵中不同列元素之间的相关性获取每个属性的单据特征相似指数的方法为:
[0020]将单据特征矩阵中每一列元素组成的序列作为每一列元素对应属性的属性序列,将每个属性的属性序列与其余属性的属性序列之间相似性度量结果的均值作为每个属性的单据特征相似指数。
[0021]优选的,所述根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的属性分类权重的方法为:
[0022]根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的分类决策系数;
[0023]将单据特征矩阵在每个属性和其余每个属性上的投影值集合的变异系数之间的差值绝对值作为每个属性的第一乘积因子,将每个属性和其余每个属性的分类质量系数之间的差值绝对值与每个属性的第二乘积因子;将每个属性的第一乘积因子与第二乘积因子的乘积在其余所有属性上的累加作为第一权重因子;
[0024]将每个属性的分类决策系数与第一权重因子的乘积的归一化结果作为每个属性的属性分类权重。
[0025]优选的,所述根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的分类决策系数的方法为:
[0026]将每个属性的分类质量系数与每个属性的信息增益的乘积作为分子,将每个属性的单据特征相似指数与预设参数的乘积作为分母,将分子与分母的比值作为每个属性的分类决策系数。
[0027]优选的,所述根据所有属性的属性分类权重获取随机森林模型,利用随机森林模
型获取每个标号单据的单据等级系数的方法为:
[0028]根据所有属性的属性分类权重获取每棵决策树的节点特征选取结果;利用训练完成的决策树形成随机森林模型;
[0029]将每个标号单据的数据属性序列作为随机森林模型中每棵决策树的输入,根据投票机制利用随机森林模型中所有决策树的输出获取每个标号单据的单据等级系数。
[0030]优选的,所述根据所有属性的属性分类权重获取每棵决策树的节点特征选取结果的方法为:
[0031]根据每一棵决策树的训练集获取所述训练集中每个属性的属性分类权重,获取所有属性的属性分类权重按照从大到小的顺序排列的排列结果,将所述排列结果中前预设数量个属性作为每一棵决策树的节点特征选取结果。
[0032]第二方面,本专利技术实施例还提供了一种财务报销单据数字化处理系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。
[0033]本专利技术的有益效果是:本专利技术通过分析财务报销单数据,利用单据特征矩阵在每个属性上的投影结果构建每个属性的分类质量系数,分类质量系数反映了每个属性上投影值的分布情况,其有益效果在于通过投影值集合的类间差异评估每个属性对财务报销单数据的影响程度;其次基于每个属性的单据特征相似指数以及分类质量系数构建每个属性的属本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种财务报销单据数字化处理方法,其特征在于,该方法包括以下步骤:获取报销系统中的财务报销数据信息,利用所述财务报销数据信息构建每个标号单据的报销信息序列,所述财务报销数据信息包括报销人员、报销人员所在部门、报销金额、报销类别、报销明细、报销申请时间;根据报销人员职级信息及其所在部门的业务优先级获取每个标号单据的数据属性序列;将所有标号单据的数据属性序列组成的矩阵作为单据特征矩阵;根据单据特征矩阵在每个属性上的投影结果获取每个属性的分类质量系数;根据单据特征矩阵中不同列元素之间的相关性获取每个属性的单据特征相似指数;根据每个属性的分类质量系数以及单据特征相似指数获取每个属性的属性分类权重;根据所有属性的属性分类权重获取随机森林模型,利用随机森林模型获取每个标号单据的单据等级系数,根据单据等级系数实现对财务报销单据的数字化处理。2.根据权利要求1所述的一种财务报销单据数字化处理方法,其特征在于,所述根据单据特征矩阵在每个属性上的投影结果获取每个属性的分类质量系数的方法为:根据单据特征矩阵中的元素大小获取单据特征矩阵在每个属性上的投影值集合;根据单据特征矩阵在每个属性上投影值集合的聚类结果获取每个属性的维度分类指数;获取所述聚类结果中任意两个聚类簇中心点之间的度量距离与任意两个聚类簇内投影值信息熵之间的差值绝对值的乘积作为第一累加因子,将第一累加因子在所述聚类结果上的累加作为第一组成因子;每个属性的分类质量系数由每个属性的维度分类指数、第一组成因子两部分组成,其中,所述分类质量系数与维度分类指数、第一组成因子成正相关关系。3.根据权利要求2所述的一种财务报销单据数字化处理方法,其特征在于,所述根据单据特征矩阵中的元素大小获取单据特征矩阵在每个属性上的投影值集合的方法为:将单据特征矩阵中每一列元素组成的向量作为每一列元素对应属性的投影向量;将单据特征矩阵中每一行元素组成的序列与所述投影向量的内积作为每一行元素在所述投影向量上的投影值,将单据特征矩阵中所有行元素在所述投影向量上的投影值组成的集合作为单据特征矩阵在每个属性上的投影值集合。4.根据权利要求2所述的一种财务报销单据数字化处理方法,其特征在于,所述根据单据特征矩阵在每个属性上投影值集合的聚类结果获取每个属性的维度分类指数的方法为:将每个属性上投影值集合的聚类结果中每一个聚类簇中的投影值组成的序列作为每一个聚类簇的类序列;将任意两个聚类簇的类序列之间的度量距离在所述聚类结果上的累加作为每个属性的维度分类指数。5.根据权利要求1所述的一种财务报销单据数字化处理方法,其特...

【专利技术属性】
技术研发人员:刘景来刘孟尧姚旭
申请(专利权)人:北京中企导航科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1