【技术实现步骤摘要】
一种基于循环重标注自助法的行业多标签降噪方法
本专利技术属于行业分类领域,特别涉及一种基于循环重标注自助法的行业多标签降噪方法。
技术介绍
目前的经济行业分类方法是由税务工作人员根据纳税人登记的经营范围进行主行业及附属行业的划分,但新的活动类型与新的产业形式不断出现,行业数量也急剧增长,税务工作人员对注册纳税人的经济行业划分难度也越来越大,人工划分方法耗时耗力,依赖专家经验,不可避免会出现经济行业错误标注,由此产生的不利影响将直接影响到经济行业的规划,甚至影响到国家对各个行业活动的宏观管理和调控。目前,经济行业错误标注主要依赖专家经验来判断纠正,在现如今庞大的数据规模和行业规模的情况下,存在工作量大、效率低下、纠正滞后的难题。针对这些难题,以下专利基于机器学习技术,提出了利用计算机处理数据的自动降噪方案:文献1.一种企业行业多标签分类方法(201910045591.7);文献2.一种基于标签噪声纠正的众包标注数据质量提升方法(201510754782.2);文献1提出一种企业行业多标签分类方法,基于规则和图排序的算法,并利用嵌入词向量聚类和主题模型聚类,聚类的距离采用了嵌入式词向量的欧式距离,聚类后通过人工干预的方法,划分为关键词标签和噪声词这两类,对噪音词归集起来构建出噪声词库;利用得到的类标签词库匹配,得到多个行业关键词标签的训练样本;用得到的训练样本训练不同层级的标签分类模型,并利用它对企业进行自主标注多个层级的行业标签。文献2提出一种基于标签噪声纠正的众包标注数据质量提 ...
【技术保护点】
1.一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,包括以下步骤:/n1)基于Word2Vec技术提取纳税人文本特征,基于One-Hot编码对纳税人非文本信息进行处理得到非文本特征;/n2)基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型;/n3)在模型训练过程中,基于循环重标注自助法对噪声标签进行识别及纠正;/n4)通过多轮迭代逐渐减小存在噪声标签的样本比例,进而降低噪声标签的影响。/n
【技术特征摘要】
1.一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,包括以下步骤:
1)基于Word2Vec技术提取纳税人文本特征,基于One-Hot编码对纳税人非文本信息进行处理得到非文本特征;
2)基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型;
3)在模型训练过程中,基于循环重标注自助法对噪声标签进行识别及纠正;
4)通过多轮迭代逐渐减小存在噪声标签的样本比例,进而降低噪声标签的影响。
2.根据权利要求1所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤1)中,采用纳税人名称和经营范围作为文本特征,按照纳税人名称在前,经营范围在后的顺序将两者拼接起来,并通过构建停用词词典和经济行业专业词典,结合分词工具对合并后的文本内容进行分词处理,并采用Word2Vec技术进行向量化处理,将纳税人名称和经营范围的向量化表示作为纳税人的文本特征;
对于文本特征,首先输入词嵌入层进行向量化处理后得到文本特征的向量化表示,然后经过双向GRU网络对文本特征学习正向和反向的文本特征表示,经过正向GRU网络后得到文本特征256维向量的正向表示,经过反向GRU网络后得到文本特征256维向量的反向表示,将双向GRU学习到的正向文本表示和反向文本表示合并后,得到512维向量,最后经过注意力层通过注意力提取机制提取词注意力;采用法人信息、经营资本信息、人员规模信息和类型标志信息作为纳税人非文本特征,对定量指标进行无量纲化处理,对定性指标进行One-Hot编码处理,得到纳税人非文本特征的向量化表示;再将纳税人的文本特征向量和非文本特征向量进行结合,得到纳税人特征向量。
3.根据权利要求2所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤2)中,将待分类的样本输入至双向循环神经网络中,完成分类器模型构建并得到预测概率,其中构造分类器模型包括以下步骤:
201)在样本集上进行分类器模型训练;将步骤1)得到的纳税人特征向量输入到分类器模型,再通过三层全连接层,最后通过输出层进行纳税人所属经济行业的分类和预测,输出层由若干个Sigmoid神经元组成,每个神经元的输出代表了对应类别的预测概率,完成将多标签分类问题转换为了若干个二分类问题的组合;
202)通过预测结果,计算损失函数,在大规模多标签分类时采用交叉熵损失函数作为损失函数能够起到很好的分类效果;
单个Sigmoid神经元交叉熵损失函数的计算公式为:
式中,表示样本的原始标签,表示预测概率,N表示样本总数量,i表示第i个样本;
在该分类器模型中,Sigmoid层包含了M个Sigmoid神经元,每个神经元对应一种行业标签,因此,该模型的整体损失则为M个交叉熵损失之和,其计算公式为:
式中,表示联合损失,表示单个神经元交叉熵损失,M表示输出层Sigmoid神经元个数,j表示第j个神经元,yij表示样本原始标签,表示预测标签概率;
在模型的训练过程中,将整体损失作为总体的优化目标,每个行业类别对应的交叉熵损失作为该Sigmoid神经元的单独优化目标,所有Sigmoid神经元的损失共同影响模型的整体训练效果,当整体损失不再下降,则模型取得了最佳拟合效果,进而能够对所有行业明细进行准确高效的分类预测。
4.根据权利要求3所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤3)中,基于分类器模型对样本标签的预测对原始标签进行纠正,从而实现噪声标签的识别及纠正的处理工作,降...
【专利技术属性】
技术研发人员:郑庆华,李碧婷,阮建飞,董博,高宇达,宓玲云,范弘铖,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。