一种基于多级生成模型的纳税人行业分类方法技术

技术编号:28623310 阅读:31 留言:0更新日期:2021-05-28 16:19
本发明专利技术公开了一种基于多级生成模型的纳税人行业分类方法,包括:首先,提取纳税人行业信息中待挖掘的文本和非文本信息进行文本嵌入及编码,并对编码后的信息做特征处理;其次,将带噪声的纳税人行业类别标签转化为多互补标签;再次,构建双向映射框架下标签和特征层级的多级生成模型;然后,基于编码后的特征和生成的多互补标签对装置进行训练;最后,将标签层级对真实标签的预测作为测试数据的最终纳税人行业类别。本发明专利技术通过将带噪标签转化为多互补标签以降低标签的噪声率,并引入特征和标签层级的双向映射以应对纳税人行业类别标签中存在的特征依赖的噪声,能够有效提高纳税人行业分类准确率。

【技术实现步骤摘要】
一种基于多级生成模型的纳税人行业分类方法
本专利技术属于行业分类领域,具体涉及一种基于多级生成模型的纳税人行业分类方法,用于解决纳税人行业类别标签存在噪声的分类问题。
技术介绍
目前,税务登记信息中的行业分类主要在税务登记环节由税务机关负责人员根据纳税人经营范围与实际经营业务凭经验进行判断,导致税务登记信息中行业类别与实际行业类别存在不相符的情况,即纳税人行业类别标注存在噪声。因此,如何基于带噪纳税人行业类别标签训练噪声鲁棒的分类器,识别并修正现有纳税人经营范围和行业类别不相符的情况,同时为新办企业纳税人行业分类提供辅助推荐,已成为一个亟待解决的问题。以下文献提供了行业分类相关的技术解决方案:1、一种企业行业分类方法。(201711137533.4)2、企业行业分类方法及其装置。(201811237531.7)3、一种确定企业产业类别的方法。(201911392145.X)文献1提供了一种企业行业分类方法,利用半监督学习的图分裂聚类算法有效地提取了企业的主营业务关键词,并基于梯度提升决策树使用提取的关键词本文档来自技高网...

【技术保护点】
1.一种基于多级生成模型的纳税人行业分类方法,其特征在于,包括:首先,提取纳税人行业信息中待挖掘的文本和非文本信息进行文本嵌入及编码,并对编码后的信息做特征处理;其次,将带噪声的纳税人行业类别标签转化为多互补标签;再次,构建双向映射框架下标签和特征层级的多级生成模型;然后,基于编码后的特征和生成的多互补标签对装置进行训练;最后,将标签层级对真实标签的预测作为测试数据的最终纳税人行业类别。/n

【技术特征摘要】
1.一种基于多级生成模型的纳税人行业分类方法,其特征在于,包括:首先,提取纳税人行业信息中待挖掘的文本和非文本信息进行文本嵌入及编码,并对编码后的信息做特征处理;其次,将带噪声的纳税人行业类别标签转化为多互补标签;再次,构建双向映射框架下标签和特征层级的多级生成模型;然后,基于编码后的特征和生成的多互补标签对装置进行训练;最后,将标签层级对真实标签的预测作为测试数据的最终纳税人行业类别。


2.根据权利要求1所述的一种基于多级生成模型的纳税人行业分类方法,其特征在于,该方法具体包括如下步骤:
1)构建纳税人文本与非文本特征向量
分析纳税人行业信息表中的文本信息,提取具有代表性的文本信息;基于Ansj分词器对提取出的文本信息进行分词、去停用词、向量化后得到样本的文本特征;
分析纳税人行业信息表中的非文本信息,纳税人行业信息的非文本信息包含两部分:数值型信息和类别型信息;使用z-score标准化方法对数值型特征进行处理,使用one-hot编码方法对类别型特征进行编码;
2)带噪纳税人行业类别标签转化为多互补标签
为了防止训练过程中模型记忆噪声行业类别标签后过拟合至噪声标签,在除了带噪行业类别标签之外的剩余类别里随机选择多个类别生成多互补标签;
3)双向映射框架下标签和特征层级的多级生成模型构建
构建标签层级由生成器网络Gn和判别器网络Dn构成的生成对抗网络,生成器网络Gn以行业类别标签与噪声向量作为输入,输出生成的噪声标签;真实行业类别标签隐藏在除去多互补标签剩余的候选标签里,将候选标签除去生成噪声标签得到降噪后的行业类别标签;
构建特征层级由生成器网络Gx和判别器网络Dx构成的生成对抗网络,建立标签层级向特征层级的反向映射,生成器网络Gx以降噪后的行业类别标签和噪声向量作为输入,输出符合真实样本特征分布的生成样本特征向量;
构建预测网络F,以纳税人样本特征向量作为输入,输出预测的行业类别标签;加强特征层级向标签层级的映射,将生成器网络Gx输出的生成样本特征向量输入至预测网络F,F输出与Gx输入的行业类别标签一致的预测行业类别标签;
4)基于编码后的特征和多互补标签对多级生成模型进行训练
通过添加权重对多级生成模型中多个损失函数进行权衡,使用梯度下降法对标签层级和特征层级的多级生成模型进行训练;
5)获得最终纳税人行业分类结果
基于训练后的多级生成模型,将编码后的纳税人特征向量输入预测网络F后输出对纳税人真实行业类别标签的预测,作为最终纳税人行业类别。


3.根据权利要求2所述的一种基于多级生成模型的纳税人行业分类方法,其特征在于,步骤1)中,所述构建纳税人特征向量,包括构建纳税人文本特征向量和构建纳税人非文本特征向量:
基于纳税人行业信息表中提取出的文本信息与非文本信息进行文本与非文本特征向量的构建;
所述构建纳税人文本特征向量,具体步骤如下:
Step1:文本信息规范化操作
对纳税人行业信息中的文本信息进行规范化操作,删除特殊符号、数字与量词,采用纳税人名称与经营范围拼接的方式作为文本特征;
Step2:基于Ansj分词器进行分词
构建停用词词典和经济行业专业词典,依据构建的停用词词典基于Ansj分词器对文本属性进行分词处理;
Step3:使用word2vec进行向量化处理
根据分词库中不同类别文本所占的比例,对所有的样本的词赋权重;筛选出权重较大的词,保留N个权重最大的关键词,利用word2vec工具将N个关键词转化为词向量;
Step4:使用双向GRU神经网络处理文本特征
对于Step3中生成的文本特征向量,首先将其经过正向GRU网络后得到文本特征向量的正向表示,然后经过反向GRU网络后得到文本特征向量的反向表示,最后将双向GRU学习到的正向文本表示和反向文本表示合并作为最终的文本特征编码向量;
所述构建纳税人非文本特征向量,包括对数值型特征进行z-score标准化和对类别型特征进行one-hot编码,具体步骤如下;
Step1:非文本信息数值型特征标准化
求出各维度数值型特征的均值μ:



式中,μ=(μ1,…,μm)为数值型特征的均值,m为数值型特征的种类数,xi表示第i个样本的数值型特征,n表示纳税人行业信息样本的数量;
求出各维度数值型特征的方差σ:



式中,σ=(σ1,…,σm)为数值型特征的方差,m为数值型特征的种类数,xi表示第i个样本的数值型特征,n表示纳税人行业信息样本的数量,μ为纳税人数值型特征的均值;
根据计算的数值型特征的均值和方差按照以下公式对样本数据进行标准化:



式中,X*表示标准化处理后的数值型特征,X表示处理前的数值型特征,μ为数值型特征的均值,σ为数值型特征的方差;
Step2:非文本信息类别型特征one-hot编码
根据不同种类类别型特征分别确定所需要的状态位数,若该特征有N种离散值,使用N位状态寄存器来对N个状态进行编码,每个状态都有其独立的寄存器位,并确保只有一位有效,将原特征值对应的状态位设置为1,得到所有类别型特征的one-hot编码并进行拼接;
Step3:合并所有非文本特征向量
将纳税人文本与非文本特征向量进行拼接,得到最终编码后的样本特征向量。


4.根据权利要求3所述的一种基于多级生成模型的纳税人行业分类方法,其特征在于,步骤2)中,所述将带噪纳税人行业类别标签转化为多互补标签,当使用噪声标签对模型进行训练时,模型记忆了错误的行业类别标签而导致过拟合;将噪声标签转化为多互补标签以降低标签噪声率,多互补标签是样本所不属于的多个类别组成的标签集,通过在除了带噪行业类别标签之外的剩余类别里随机选择多个类别的方式生成,基于多互补标签训练纳税人行业分类器,是一种间接训练的方式,真实的行业类别标签被选为多互补标签的概率相较于原带噪标签的噪声率低得多,因此显著降低了标签为模型提供错误监督信息的概率,避免模型过拟合至噪声标签,有效地起到了降低标签噪声率的作用,最终达到提高行业分类准确率的效果,其中构造多互补标签包括以下步骤:
Step1:构建纳税人互补标签候选集合
对于每一个纳税人样本,在所有k个行业类别中去除当前样本所对应的行业类别,构建包含k-1个剩余类别的互补标签候选集合;
Step2:确定纳税人多互补标签的个数
在{1,…,k-1}中随机选择一个数字s作为多互补标签的个数,根据多互补标签个数为s的标签集合占所有可能出现的多互补标签组合的比例确定纳税人样本选取多互补标签个数为s的概率,具体表示为:



式中,p(s)为选择多互补标签个数为s的概率,k为行业类别标签的总个数,2k-2为所有可能出现的多互补标签的组合数,为在互补标签候选集合中选择标签个数为s的多互补标签的组合数;
Step3:构建纳税人多互补标签
在互补标签候选集合中随机选择s个标签构建纳税人多互补标签并用k维向量表示,设置k位的状态寄存器,每一位对应一个行业类别标签,将多互补标签标注的行业类别标签对应位设置为1,其余位置为0。


5.根据权利要求4所述的一种基于多级生成模型的纳税人行业分类方法,其特征在于,步骤3)中,所述双向映射框架下标签和特征层级的多级生成模型构建,具体步骤包括:
Step1:构建标签层级的生成对抗网络
标签层级的生成器网络Gn输入服从高斯分布的噪声向量∈和服从多项式分布的one-hot向量形式的行业类别标签z,输出向量形式的生成噪声标签,最后一层激活函数为sigmoid函数,将输出变换为(0,1)之间的输出,生成器网络Gn输出层每个神经元的输出实际代表了对应类别为生成噪声标签的概率,具体表示为:



生成噪声标签加上输入Gn的行业类别标签即为生成的除去多互补标签之外含有真实行业类别标签的候选标签,判别器Dn判别候选标签是来自真实数据还是生成数据;标签层级的生成...

【专利技术属性】
技术研发人员:郑庆华董博吴雨萱赵锐阮建飞师斌
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1