一种面向纳税人行业分类的标签噪声学习方法技术

技术编号:34336460 阅读:113 留言:0更新日期:2022-07-31 03:04
本发明专利技术公开了一种面向纳税人行业分类的标签噪声学习方法,包括:首先,提取纳税人行业信息中的文本信息和非文本信息,分别基于XLNet文本预训练网络和编码技术进行文本嵌入和非文本编码处理,得到特征信息;其次,构建用于纳税人行业分类的TextCNN网络,根据特征信息和目标分类数来确定网络的层数、卷积核形状以及各层次的输入输出维度,并将XLNet文本预训练网络和TextCNN网络串联,结合带噪的纳税人行业标签数据作为监督,构建端到端的训练装置;再次,并基于改进的混合比例估计方法估计条件转移矩阵;最后,学习训练装置中的网络参数,并将条件转移矩阵作为TextCNN网络之后的线性层,实现噪声标签预测到真实纳税人行业标签预测的转换,进行纳税人行业分类。进行纳税人行业分类。进行纳税人行业分类。

【技术实现步骤摘要】
一种面向纳税人行业分类的标签噪声学习方法


[0001]本专利技术属于带标签噪声的文本分类
,具体涉及一种面向纳税人行业分类的标签噪声学习方法。

技术介绍

[0002]近年来,市场经济持续繁荣,企业数目日益增多,企业分工不断细化。伴随而来的,税务系统的升级以及进一步建设已经成为迫切需求。
[0003]纳税人行业分类,是确定纳税主体政策以及优惠的前置条件,是税务征收的重要环节。当下,我国将纳税人行业主要分为20个门类,97个大类。由于门类众多,传统的人工分类的方法需要耗费大量的人力资源,同时受限于分类者的专业知识和经验,不可避免地会引入分类错误,即纳税人行业分类的标签噪声,给国家的统计、税收、工商管理造成了一系列不良的影响。
[0004]近年来,随着“智能+”时代的加速到来,人工智能产业快速发展并应用于各个领域,为智慧税务探索和发展提供了可能。研究企业纳税人行业分类是税源分类管理的基础性工作,是智慧税务信息化的关键前提。因此,如何通过机器学习手段,基于现有的标签噪声数据训练分类器,对纳税人行业进行正确分类,已经成为一个亟待解决的问题。
[0005]纳税人行业分类问题的相关技术方案,涉及的专利技术专利有:
[0006]文献1:一种基于MIMO递归神经网络的纳税人行业两层级分类方法(201910024324.1)
[0007]文献2:一种基于噪声标签学习的纳税人行业分类方法(202110201214.5)
[0008]文献1设计了基于GRU的多输入多输出的神经网络结构,建立了行业大类到行业明细的映射关系,构建了两层的分类结构,用于实现纳税人的行业分类。然而,该方法依赖于数据的严格标注,在存在标签噪声的情况下缺乏实用价值。
[0009]文献2设计了BERT

CNN网络用于文本分类,基于语义聚类的方法,利用标签噪声数据构建分类一致的分类器,然而语义聚类方法的性能局限性为分类器引入了新的误差。
[0010]针对上述技术方案存在的缺陷,本专利技术旨在不依赖于额外的人工标注,并克服现有技术方案采用语义聚类方法导致的分类偏差,构建一个仅基于标签噪声数据的风险一致的分类器,在统计意义上使得基于标签噪声数据构建的分类器与采用真实标注数据构建的分类器具有一致的分类风险。
[0011]基于标签噪声数据构建风险一致的分类器的核心是:通过估计条件转移矩阵(给定噪声标签情况下真实标签的条件概率构成的矩阵)来构建统计一致的分类器。本专利技术创造性地将条件转移矩阵估计问题转化为了混合比例估计问题,通过估计混合比例系数得到近似的条件转移矩阵。然而,传统的混合比例估计方法仅适用于二分类的场景且依赖于锚点(明确属于某一类的样本),而纳税人行业分类问题行业类别众多,属于多分类问题,且锚点难以标注和获取。因此,将混合比例估计问题从二分类推广到多分类并克服锚点依赖问题是本专利技术的主要解决的挑战。

技术实现思路

[0012]本专利技术的目的在于提供一种面向纳税人行业分类的标签噪声学习方法,基于标签噪声数据估计条件转移矩阵(给定噪声标签情况下真实标签的条件概率构成的矩阵)来构建风险一致分类器。
[0013]本专利技术采用如下技术方案来实现的:
[0014]一种面向纳税人行业分类的标签噪声学习方法,包括:
[0015]首先,提取纳税人行业信息中的文本信息和非文本信息,分别基于XLNet文本预训练网络和编码技术进行文本嵌入和非文本编码处理,得到特征信息;其次,构建用于纳税人行业分类的TextCNN网络,根据特征信息和目标分类数来确定网络的层数、卷积核形状以及各层次的输入输出维度,并将XLNet文本预训练网络和TextCNN网络串联,结合带噪的纳税人行业标签数据作为监督,构建端到端的训练装置;再次,基于改进的混合比例估计方法估计条件转移矩阵;最后,学习训练装置中的网络参数,并将条件转移矩阵作为TextCNN网络之后的线性层,实现噪声标签预测到真实纳税人行业标签预测的转换,进行纳税人行业分类。
[0016]本专利技术进一步的改进在于,该方法具体包括以下步骤:
[0017]1)纳税人行业信息处理
[0018]纳税人行业信息处理包括了文本信息处理以及非文本信息处理,首先,基于XLNet文本预训练网络,对于纳税人文本信息进行分词以及词嵌入,形成对应的词向量,进而拼接生成文本特征,其次,对于纳税人非文本信息中的数值特征以及类别特征,分别使用标准化处理以及独热编码技术进行预处理,之后建立线性网络层进行特征映射,产生与文本特征维度一致的非文本特征,最后,拼接文本特征以及非文本特征,形成特征信息;
[0019]2)纳税人行业分类网络构建与训练装置初始化
[0020]构建TextCNN网络用于纳税人行业分类,该网络包含了卷积层、池化层和全连接层共三层,基于步骤1)得到的特征信息以及目标分类数,依次确定TextCNN网络的层数、卷积核的形状以及各层次的输入输出维度,之后将XLNet预训练网络与TextCNN网络串联,结合带噪的纳税人行业信息标签作为监督,构建端到端的训练装置;
[0021]3)条件转移矩阵估计
[0022]基于核密度估计的方法,根据带噪的纳税人行业信息数据,估计概率密度函数,将条件转移矩阵估计问题转化为混合比例估计问题,并基于改进的混合比例估计方法求解对应的混合比例系数,进而得到条件转移矩阵;
[0023]4)训练装置网络参数学习与纳税人行业分类
[0024]基于标签噪声数据,学习训练装置的网络参数,在训练完成之后,将估计得到的条件转移矩阵作为线性转换层添加在训练装置之后,完成噪声标签预测到真实标签预测的转换,从而实现纳税人行业分类。
[0025]本专利技术进一步的改进在于,步骤1)中,纳税人行业信息处理,具体包括以下步骤:
[0026]Step1:纳税人行业文本信息预处理
[0027]提取纳税人行业的文本信息,删除文本信息之中的特殊符号、数字以及量词无意义的符号,完成纳税人文本信息的预处理;
[0028]Step2:基于XLNet预训练网络的文本词嵌入
[0029]基于XLNet预训练网络对于文本进行编码,产生词向量,XLNet预训练模型基于transformer设计,同时捕捉双向语境之间的关系,改进了bert模型mask机制导致的预训练阶段与微调阶段不一致的问题,并且使用了双流自注意力机制,使得预训练的效果更加显著;应用于中文的XLNet模型使用了24层的网络结构,采用sentencepiec进行分词;将Step1之中得到的文本特征利用中文版本的XLNet进行编码,从而获得从词向量;
[0030]Step3:纳税人行业文本特征生成
[0031]假设纳税人一共有k个文本特征,一个词元会被XLNet预训练网络映射为一个t维的词向量,并且记第i个文本特征具有h
i
个词元,则第i个文本特征会被映射为一个h
i
×
t的矩阵;将各个文本特征映射的特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向纳税人行业分类的标签噪声学习方法,其特征在于,包括:首先,提取纳税人行业信息中的文本信息和非文本信息,分别基于XLNet文本预训练网络和编码技术进行文本嵌入和非文本编码处理,得到特征信息;其次,构建用于纳税人行业分类的TextCNN网络,根据特征信息和目标分类数来确定网络的层数、卷积核形状以及各层次的输入输出维度,并将XLNet文本预训练网络和TextCNN网络串联,结合带噪的纳税人行业标签数据作为监督,构建端到端的训练装置;再次,基于改进的混合比例估计方法估计条件转移矩阵;最后,学习训练装置中的网络参数,并将条件转移矩阵作为TextCNN网络之后的线性层,实现噪声标签预测到真实纳税人行业标签预测的转换,进行纳税人行业分类。2.根据权利要求1所述的一种面向纳税人行业分类的标签噪声学习方法,其特征在于,该方法具体包括以下步骤:1)纳税人行业信息处理纳税人行业信息处理包括了文本信息处理以及非文本信息处理,首先,基于XLNet文本预训练网络,对于纳税人文本信息进行分词以及词嵌入,形成对应的词向量,进而拼接生成文本特征,其次,对于纳税人非文本信息中的数值特征以及类别特征,分别使用标准化处理以及独热编码技术进行预处理,之后建立线性网络层进行特征映射,产生与文本特征维度一致的非文本特征,最后,拼接文本特征以及非文本特征,形成特征信息;2)纳税人行业分类网络构建与训练装置初始化构建TextCNN网络用于纳税人行业分类,该网络包含了卷积层、池化层和全连接层共三层,基于步骤1)得到的特征信息以及目标分类数,依次确定TextCNN网络的层数、卷积核的形状以及各层次的输入输出维度,之后将XLNet预训练网络与TextCNN网络串联,结合带噪的纳税人行业信息标签作为监督,构建端到端的训练装置;3)条件转移矩阵估计基于核密度估计的方法,根据带噪的纳税人行业信息数据,估计概率密度函数,将条件转移矩阵估计问题转化为混合比例估计问题,并基于改进的混合比例估计方法求解对应的混合比例系数,进而得到条件转移矩阵;4)训练装置网络参数学习与纳税人行业分类基于标签噪声数据,学习训练装置的网络参数,在训练完成之后,将估计得到的条件转移矩阵作为线性转换层添加在训练装置之后,完成噪声标签预测到真实标签预测的转换,从而实现纳税人行业分类。3.根据权利要求2所述的一种面向纳税人行业分类的标签噪声学习方法,其特征在于,步骤1)中,纳税人行业信息处理,具体包括以下步骤:Step1:纳税人行业文本信息预处理提取纳税人行业的文本信息,删除文本信息之中的特殊符号、数字以及量词无意义的符号,完成纳税人文本信息的预处理;Step2:基于XLNet预训练网络的文本词嵌入基于XLNet预训练网络对于文本进行编码,产生词向量,XLNet预训练模型基于transformer设计,同时捕捉双向语境之间的关系,改进了bert模型mask机制导致的预训练阶段与微调阶段不一致的问题,并且使用了双流自注意力机制,使得预训练的效果更加显著;应用于中文的XLNet模型使用了24层的网络结构,采用sentencepiec进行分词;将Step1
之中得到的文本特征利用中文版本的XLNet进行编码,从而获得从词向量;Step3:纳税人行业文本特征生成假设纳税人一共有k个文本特征,一个词元会被XLNet预训练网络映射为一个t维的词向量,并且记第i个文本特征具有h
i
个词元,则第i个文本特征会被映射为一个h
i
×
t的矩阵;将各个文本特征映射的特征矩阵进行拼接,则样本的文本特征会被映射为一个的文本特征矩阵,产生纳税人文本特征矩阵;Step4:纳税人行业数值特征处理对于纳税人非文本特征的数值特征进行标准化的操作,假设共有训练样本n个,数值特征m个,记第i个样本的第j个数值特征的取值为X
ij
,第j个数值特征的均值为μ
j
,满足第j个数值特征的标准差为σ
j
,满足则标准化之后的数值特征为Step5:纳税人行业类别特征处理对于纳税人非文本特征中的类别特征进行编码,假设类别特征具有N个可能的取值,则采用N维的向量来编码表示类别特征;具体而言,将类别特征取值的对应位置设置为1,其余的位置设置为0,即采用one

hot编码的方法,当所有的类别特征完成编码之后,选取类别特征中最长的编码长度进行补齐,并且将补齐之后的各个向量进行拼接,进而形成类别特征矩阵;Step6:纳税人行业非文本特征生成在Step4以及Step5之后分别得到了m个标准化之后的数值特征以及形状为v
×
N
max
的类别特征矩阵,其中N
max
表示最长的类别编码长度,之后,建立两个线性网络层进行特征映射,第一个线性层网络形状为1
×
t,用于把标准化之后的数值特征转化为m
×
t的数值特征矩阵,第二个线性网络层形状为N
max
×
t,用于将类别特征映射为一个v
×
t的类别特征矩阵,将映射完毕的两个特征矩阵进行拼接得到最终的形状为(v+m)
×
t非文本特征矩阵;Step7:纳税人特征信息生成将Step3产生的文本特征矩阵以及Step6产生的非文本特征矩阵进行拼接,产生一个形状为的矩阵,作为最终的特征信息。4.根据权利要求3所述的一种面向纳税人行业分类的标签噪声学习方法,其特征在于,步骤2)中,纳税人行业分类网络构建与训练装置初始化:建立TextCNN网络用于文本分类,TextCNN网络包括了三层,分别为:(1)卷积层、(2)最大池化层和(3)全连接层,并且将步骤1)之中的XLNet预训练网络与TextCNN网络串联,构建训练装置,并以纳税人标签噪声数据为监督,进行端到端的训练;具体的实施细节如下所示:Step1:纳税人行业分类网络构建构建TextCNN网络用于纳税人行业分类,TextCNN网络包括了三层,分别为卷积层、池化层以及全连接层;具体而言,TextCNN的卷积层使用形状为n
×
t的卷积核进行卷积运算,用
于提取行特征,n取值分别为{2,3,4,5,6},TextCNN采用最大池化层作为池化层,用于对卷积之后的特征图进行最大值提取,进一步的压缩提取特征,之后建立全连接层,假设纳税人行业分类的待分类类别总数为c,若经过最大池化层之后,特征的个数为s,则建立形状为s
×
c的全连接层,用于将特征信息映射为一个c维的向量,进而进行纳税人行业分类;Step2:训练装置初始化将步骤1)的XLNet文本预训练网络以及构建的TextCNN网络串联,形成训练装置;将纳税人行业标签噪声数据作为输入,对于噪声标签进行预测,形成端到端的装置进行训练,初始化训练装置网络参数。5.根据权利要求4所述的一...

【专利技术属性】
技术研发人员:郑庆华曹书植阮建飞赵锐董博师斌
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1