基于流程自动化的个税数据处理方法及系统技术方案

技术编号:39810246 阅读:7 留言:0更新日期:2023-12-22 02:45
本申请涉及计算机技术领域,提供一种基于流程自动化的个税数据处理方法及系统,该方法包括:将每一个用户的税前全年收入数据

【技术实现步骤摘要】
基于流程自动化的个税数据处理方法及系统


[0001]本申请涉及计算机
,尤其涉及一种基于流程自动化的个税数据处理方法及系统


技术介绍

[0002]在大数据应用背景下,人工神经网络
ANN
模型作为机器学习领域的重要研究方向之一,由于具有大量可用于训练网络的数据集,近年来神经网络模型相关技术快速发展,设计和构建出了各种不同的模型结构网络

由于神经网络模型具有对各类数据的有效而稳定的分析能力,在模式识别领域得到了极大的关注和发展

[0003]在目前的基于个税数据识别用户的扣税模式的处理方法中,主要是使用在线处理的传统
ANN
模型,所建立的数据处理模型均基于现有的计算机平台,没有单独部署在独立的硬件系统上

因此,基于传统的
ANN
模型的分析处理流程与基于硬件计算单元构成的
ANN
模型的分析处理方式相比,在分析机制和速度上已经逐渐无法满足实际应用中日益增长的数据处理需求,从而无法准确地识别出用户的扣税模式


技术实现思路

[0004]针对现有技术存在的问题,本申请提供一种基于流程自动化的个税数据处理方法及系统,旨在提高用户的扣税模式的识别准确性

[0005]第一方面,本申请实施例提供一种基于流程自动化的个税数据处理方法,包括:
[0006]将每一个用户的税前全年收入数据

三险两金数据

项附加扣除数据和税后全年收入数据进行数据绑定,得到目标个税数据;
[0007]将所述目标个税数据输入由硬件计算单元构成的多层感知机神经网络模型,得到所述多层感知机神经网络模型输出的识别结果;所述识别结果为每一个用户的扣税模式;
[0008]所述多层感知机神经网络模型包括:用于接收数据的输入层

至少一个用于进行模式识别分析的隐含层,及用于输出识别结果的输出层;其中,所述输入层包括至少一个普通神经元节点;所述隐含层包括至少一个基于概率化结点
p

bit
模型的神经元节点,所述输出层包括至少一个基于
p

bit
模型的神经元节点;所述隐含层及所述输出层中每一个神经元结点的输出结果,在对应神经元结点静默时为0,在对应神经元结点的输入数据达到阈值时输出结果为1,且输出结果具有概率特性

[0009]在一实施例中,隐含层及所述输出层中每一个神经元结点采用的计算规则包括:
[0010]I
out

sign(sigmoid(
ω
T
I
in
+b)

rand)
[0011][0012][0013]其中,
I
out
是神经元结点的输入,
I
in
是神经元结点计算后的输出结果,
sign
函数和
sigmoid
函数均是激活函数,
sign
函数是符号函数,
sigmoid
是函数挤压函数;
ω

b
分别是神经元结点的权重和偏置,
rand
是随机数发生器输出的随机数

[0014]在一实施例中,训练所述多层感知机神经网络模型的步骤包括:
[0015]对样本用户的税前全年收入数据

三险两金数据

专项附加扣除数据和税后全年收入数据进行数据绑定,得到样本个税数据集;
[0016]设置由硬件计算单元构成的多层感知机神经网络模型的至少一个模型结构参数的初值;所述模型结构参数包括以下至少一项:隐含层权重,隐含层偏置,输出层权重及输出层偏置;
[0017]使用所述样本个税数据集,通过前向传播和误差反向传播迭代交替进行模型训练,不断更新各所述模型结构参数,得到所述多层感知机神经网络模型;
[0018]其中,在所述误差反向传播的过程中使用挤压函数
sigmoid
拟合符号函数
sign
;所述多层感知机神经网络模型包括:用于接收数据的输入层

至少一个用于进行模式识别分析的隐含层,及用于输出识别结果的输出层;所述输入层包括至少一个普通神经元节点;所述隐含层包括至少一个基于概率化结点
p

bit
模型的神经元节点;所述输出层包括至少一个基于
p

bit
模型的神经元节点;所述隐含层及所述输出层中每一个神经元结点的输出结果,在对应神经元结点静默时为0,在对应神经元结点的输入数据达到阈值时输出结果为1,且输出结果具有概率特性

[0019]在一实施例中,使用所述样本个税数据集,通过前向传播和误差反向传播迭代交替进行模型训练,不断更新各所述模型结构参数,得到所述多层感知机神经网络模型,包括:
[0020]设置至少一个模型训练参数的初值;所述模型训练参数包括以下至少一项:用以控制学习速率的梯度下降步长
α
;用以控制学习速率的梯度下降动量
m
;用以辅助
sigmoid
函数拟合
sign
函数的拟合参数
β
;用以随机地划分样本个税数据集批次的参数
n
及模型训练总迭代次数
T

[0021]对于每轮迭代,根据所述参数
n
,随机地划分样本个税数据集批次,产生多个样本个税数据子集序列;
[0022]针对所述多个样本个税数据子集序列中的每一组样本个税数据集子集,执行以下操作:
[0023]将所述样本个税数据集子集输入至所述输入层,确定各所述隐含层的实际输出和拟合输出,及确定所述输出层的实际输出和拟合输出;根据所述输出层的实际输出和拟合输出,确定模型实际误差;
[0024]将所述模型实际误差反向传播至所述输出层,确定所述输出层的拟合增量

权重梯度及偏置梯度,及各所述隐含层的拟合增量

权重梯度及偏置梯度;
[0025]根据所述输出层的权重梯度及偏置梯度,及所述隐含层的权重梯度及偏置梯度,更新所述隐含层权重

所述隐含层偏置

所述输出层权重及所述输出层偏置;
[0026]在迭代次数达到所述模型训练总迭代次数
T
时,结束迭代,得到所述多层感知机神经网络模型

[0027]在一实施例中,确定各所述隐含层的实际输出和拟合输出,包括:
[0028]采用公式
(1)
,计算各所述隐含层的实际输出和拟合输出;
[0029][0030]其中,
k...

【技术保护点】

【技术特征摘要】
1.
一种基于流程自动化的个税数据处理方法,其特征在于,包括:将每一个用户的税前全年收入数据

三险两金数据

专项附加扣除数据和税后全年收入数据进行数据绑定,得到目标个税数据;将所述目标个税数据输入由硬件计算单元构成的多层感知机神经网络模型,得到所述多层感知机神经网络模型输出的识别结果;所述识别结果为每一个用户的扣税模式;所述多层感知机神经网络模型包括:用于接收数据的输入层

至少一个用于进行模式识别分析的隐含层,及用于输出识别结果的输出层;其中,所述输入层包括至少一个普通神经元节点;所述隐含层包括至少一个基于概率化结点
p

bit
模型的神经元节点,所述输出层包括至少一个基于
p

bit
模型的神经元节点;所述隐含层及所述输出层中每一个神经元结点的输出结果,在对应神经元结点静默时为0,在对应神经元结点的输入数据达到阈值时输出结果为1,且输出结果具有概率特性
。2.
根据权利要求1所述基于流程自动化的个税数据处理方法,其特征在于,所述隐含层及所述输出层中每一个神经元结点采用的计算规则包括:
I
out

sign(sigmoid(
ω
T
I
in
+b)

rand)rand)
其中,
I
out
是神经元结点的输入,
I
in
是神经元结点计算后的输出结果,
sign
函数和
sigmoid
函数均是激活函数,
sign
函数是符号函数,
sigmoid
是函数挤压函数;
ω

b
分别是神经元结点的权重和偏置,
rand
是随机数发生器输出的随机数
。3.
根据权利要求1所述基于流程自动化的个税数据处理方法,其特征在于,训练所述多层感知机神经网络模型的步骤包括:对样本用户的税前全年收入数据

三险两金数据

专项附加扣除数据和税后全年收入数据进行数据绑定,得到样本个税数据集;设置由硬件计算单元构成的多层感知机神经网络模型的至少一个模型结构参数的初值;所述模型结构参数包括以下至少一项:隐含层权重,隐含层偏置,输出层权重及输出层偏置;使用所述样本个税数据集,通过前向传播和误差反向传播迭代交替进行模型训练,不断更新各所述模型结构参数,得到所述多层感知机神经网络模型;其中,在所述误差反向传播的过程中使用挤压函数
sigmoid
拟合符号函数
sign
;所述多层感知机神经网络模型包括:用于接收数据的输入层

至少一个用于进行模式识别分析的隐含层,及用于输出识别结果的输出层;所述输入层包括至少一个普通神经元节点;所述隐含层包括至少一个基于概率化结点
p

bit
模型的神经元节点;所述输出层包括至少一个基于
p

bit
模型的神经元节点;所述隐含层及所述输出层中每一个神经元结点的输出结果,在对应神经元结点静默时为0,在对应神经元结点的输入数据达到阈值时输出结果为1,且输出结果具有概率特性
。4.
根据权利要求3所述基于流程自动化的个税数据处理方法,其特征在于,所述使用所
述样本个税数据集,通过前向传播和误差反向传播迭代交替进行模型训练,不断更新各所述模型结构参数,得到所述多层感知机神经网络模型,包括:设置至少一个模型训练参数的初值;所述模型训练参数包括以下至少一项:用以控制学习速率的梯度下降步长
α
;用以控制学习速率的梯度下降动量
m
;用以辅助
sigmoid
函数拟合
sign
函数的拟合参数
β
;用以随机地划分样本个税数据集批次的参数
n
及模型训练总迭代次数
T
;对于每轮迭代,根据所述参数
n
,随机地划分样本个税数据集批次,产生多个样本个税数据子集序列;针对所述多个样本个税数据子集序列中的每一组样本个税数据集子集,执行以下操作:将所述样本个税数据集子集输入至所述输入层,确定各所述隐含层的实际输出和拟合输出,及确定所述输出层的实际输出和拟合输出;根据所述输出层的实际输出和拟合输出,确定模型实际误差;将所述模型实际误差反向传播至所述输出层,确定所述输出层的拟合增量

权重梯度及偏置梯度,及各所述隐含层的拟合增量

权重梯度及偏置梯度;根据所述输出层的权重梯度及偏置梯度,及所述隐含层的权重梯度及偏置梯度,更新所述隐含层权重

所述隐含层偏置

所述输出层权重及所述输出层偏置;在迭代次数达到所述模型训练总迭代次数
T
时,结束迭代,得到所述多层感知机神经网络模型
。5.
根据权利要求4所述基于流程自动化的个税数据处理方法,其特征在于,所述确定各所述隐含层的实际输出和拟合输出,包括:采用公式
(1)
,计算各所述隐含层的实际输出和拟合输出;其中,
k
为隐含层标记,

【专利技术属性】
技术研发人员:杨东晓高翔伍斯龙
申请(专利权)人:广东电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1