一种基于循环重标注自助法的行业多标签降噪方法技术

技术编号:23150249 阅读:22 留言:0更新日期:2020-01-18 13:55
本发明专利技术公开了一种基于循环重标注自助法的行业多标签降噪方法,包括步骤:首先,基于Word2Vec技术提取纳税人文本特征,基于One‑Hot编码对纳税人非文本信息进行处理得到非文本特征;其次,基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型;然后,在模型训练过程中,基于循环重标注自助法对噪声标签进行识别及纠正;最后,通过多轮迭代逐渐减小存在噪声标签的样本比例,进而降低噪声标签的影响。本发明专利技术解决了现有方法中不能划分噪声标签依据噪声标签纠正效果未达到最优就停止训练的问题。

A method of industry multi label noise reduction based on self-service method of cyclic tagging

【技术实现步骤摘要】
一种基于循环重标注自助法的行业多标签降噪方法
本专利技术属于行业分类领域,特别涉及一种基于循环重标注自助法的行业多标签降噪方法。
技术介绍
目前的经济行业分类方法是由税务工作人员根据纳税人登记的经营范围进行主行业及附属行业的划分,但新的活动类型与新的产业形式不断出现,行业数量也急剧增长,税务工作人员对注册纳税人的经济行业划分难度也越来越大,人工划分方法耗时耗力,依赖专家经验,不可避免会出现经济行业错误标注,由此产生的不利影响将直接影响到经济行业的规划,甚至影响到国家对各个行业活动的宏观管理和调控。目前,经济行业错误标注主要依赖专家经验来判断纠正,在现如今庞大的数据规模和行业规模的情况下,存在工作量大、效率低下、纠正滞后的难题。针对这些难题,以下专利基于机器学习技术,提出了利用计算机处理数据的自动降噪方案:文献1.一种企业行业多标签分类方法(201910045591.7);文献2.一种基于标签噪声纠正的众包标注数据质量提升方法(201510754782.2);文献1提出一种企业行业多标签分类方法,基于规则和图排序的算法,并利用嵌入词向量聚类和主题模型聚类,聚类的距离采用了嵌入式词向量的欧式距离,聚类后通过人工干预的方法,划分为关键词标签和噪声词这两类,对噪音词归集起来构建出噪声词库;利用得到的类标签词库匹配,得到多个行业关键词标签的训练样本;用得到的训练样本训练不同层级的标签分类模型,并利用它对企业进行自主标注多个层级的行业标签。文献2提出一种基于标签噪声纠正的众包标注数据质量提升方法,首先在初始的众包标注数据集上运行标签集成算法,在此过程中估计出标注者质量和样本的集成标签质量信息;其次再对标签集成后的数据集进行多轮K折交叉验证,构建一个高质量数据集;再用多轮K折交叉验证过程中对每个样本的类标签的预测概率结合标注者质量和样本标签质量得到标签噪声集;然后用高质量数据集训练分类模型;最后用此模型对标签噪声数据集中的样本类标签进行预测和替换。以上文献所述方法主要存在以下问题:文献1提出的一种企业行业多标签分类方法,使用欧式距离只能划分离群点,而行业多标签分类噪声数据往往表现上非离群点,去噪效果无法保障;文献2提出的基于标签噪声纠正的众包标注数据质量提升方法,使用训练好的模型进行标签纠正后,并未设置衡量指标来评价噪声标签纠正效果,甚至纠正出错也无法识别,这样不仅没有达到标签纠正的效果,反而可能人为引入噪声。
技术实现思路
为了克服上述现有技术不足,本专利技术的目的在于提供一种基于循环重标注自助法的行业多标签降噪方法,以解决现有方法中不能划分噪声标签以及噪声标签纠正效果未达到最优就停止训练的问题。为达到以上目的,本专利技术采取如下技术方案予以实现的:一种基于循环重标注自助法的行业多标签降噪方法,包括以下步骤:1)基于Word2Vec技术提取纳税人文本特征,基于One-Hot编码对纳税人非文本信息进行处理得到非文本特征;2)基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型;3)在模型训练过程中,基于循环重标注自助法对噪声标签进行识别及纠正;4)通过多轮迭代逐渐减小存在噪声标签的样本比例,进而降低噪声标签的影响。本专利技术进一步的改进在于,步骤1)中,采用纳税人名称和经营范围作为文本特征,按照纳税人名称在前,经营范围在后的顺序将两者拼接起来,并通过构建停用词词典和经济行业专业词典,结合分词工具对合并后的文本内容进行分词处理,并采用Word2Vec技术进行向量化处理,将纳税人名称和经营范围的向量化表示作为纳税人的文本特征;对于文本特征,首先输入词嵌入层进行向量化处理后得到文本特征的向量化表示,然后经过双向GRU网络对文本特征学习正向和反向的文本特征表示,经过正向GRU网络后得到文本特征256维向量的正向表示,经过反向GRU网络后得到文本特征256维向量的反向表示,将双向GRU学习到的正向文本表示和反向文本表示合并后,得到512维向量,最后经过注意力层通过注意力提取机制提取词注意力;采用法人信息、经营资本信息、人员规模信息和类型标志信息作为纳税人非文本特征,对定量指标进行无量纲化处理,对定性指标进行One-Hot编码处理,得到纳税人非文本特征的向量化表示;再将纳税人的文本特征向量和非文本特征向量进行结合,得到纳税人特征向量。本专利技术进一步的改进在于,步骤2)中,将待分类的样本输入至双向循环神经网络中,完成分类器模型构建并得到预测概率,其中构造分类器模型包括以下步骤:201)在样本集上进行分类器模型训练;将步骤1)得到的纳税人特征向量输入到分类器模型,再通过三层全连接层,最后通过输出层进行纳税人所属经济行业的分类和预测,输出层由若干个Sigmoid神经元组成,每个神经元的输出代表了对应类别的预测概率,完成将多标签分类问题转换为了若干个二分类问题的组合;202)通过预测结果,计算损失函数,在大规模多标签分类时采用交叉熵损失函数作为损失函数能够起到很好的分类效果;单个Sigmoid神经元交叉熵损失函数的计算公式为:式中,表示样本的原始标签,表示预测概率,N表示样本总数量,i表示第i个样本;在该分类器模型中,Sigmoid层包含了M个Sigmoid神经元,每个神经元对应一种行业标签,因此,该模型的整体损失则为M个交叉熵损失之和,其计算公式为:式中,表示联合损失,表示单个神经元交叉熵损失,M表示输出层Sigmoid神经元个数,j表示第j个神经元,yij表示样本原始标签,表示预测标签概率;在模型的训练过程中,将整体损失作为总体的优化目标,每个行业类别对应的交叉熵损失作为该Sigmoid神经元的单独优化目标,所有Sigmoid神经元的损失共同影响模型的整体训练效果,当整体损失不再下降,则模型取得了最佳拟合效果,进而能够对所有行业明细进行准确高效的分类预测。本专利技术进一步的改进在于,步骤3)中,基于分类器模型对样本标签的预测对原始标签进行纠正,从而实现噪声标签的识别及纠正的处理工作,降低样本集中噪声标签比例,得到更加准确的分类器模型,具体实现步骤如下:301)设置预测概率的阈值,为了避免在标签纠正过程中,人为引入噪声,并设置阈值;302)依据样本集的原始标签和预测概率识别噪声标签;当前模型对训练集和验证集的输入特征进行预测,分别得到训练集和验证集的预测概率,若预测概率大于阈值,则将该标签标记为噪声标签,否则,该标签极大概率为正确标签;该模型将噪声标签分为两种类型,分别是120类型和021类型,噪声标签不同,识别方法也不同;当分类器输出层的激活函数为Sigmoid函数的情况下,021类型的噪声标签识别方法为:式中,表示在输出层激活函数为Sigmoid函数的情况下,021类型噪声标签的最低概率阈值,si表示输出层激活函数为Sigmoid函数,表示样本原始标签,表示样本预测概率,M表示输出层Sigmoid神经元个数,N表示样本本文档来自技高网
...

【技术保护点】
1.一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,包括以下步骤:/n1)基于Word2Vec技术提取纳税人文本特征,基于One-Hot编码对纳税人非文本信息进行处理得到非文本特征;/n2)基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型;/n3)在模型训练过程中,基于循环重标注自助法对噪声标签进行识别及纠正;/n4)通过多轮迭代逐渐减小存在噪声标签的样本比例,进而降低噪声标签的影响。/n

【技术特征摘要】
1.一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,包括以下步骤:
1)基于Word2Vec技术提取纳税人文本特征,基于One-Hot编码对纳税人非文本信息进行处理得到非文本特征;
2)基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型;
3)在模型训练过程中,基于循环重标注自助法对噪声标签进行识别及纠正;
4)通过多轮迭代逐渐减小存在噪声标签的样本比例,进而降低噪声标签的影响。


2.根据权利要求1所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤1)中,采用纳税人名称和经营范围作为文本特征,按照纳税人名称在前,经营范围在后的顺序将两者拼接起来,并通过构建停用词词典和经济行业专业词典,结合分词工具对合并后的文本内容进行分词处理,并采用Word2Vec技术进行向量化处理,将纳税人名称和经营范围的向量化表示作为纳税人的文本特征;
对于文本特征,首先输入词嵌入层进行向量化处理后得到文本特征的向量化表示,然后经过双向GRU网络对文本特征学习正向和反向的文本特征表示,经过正向GRU网络后得到文本特征256维向量的正向表示,经过反向GRU网络后得到文本特征256维向量的反向表示,将双向GRU学习到的正向文本表示和反向文本表示合并后,得到512维向量,最后经过注意力层通过注意力提取机制提取词注意力;采用法人信息、经营资本信息、人员规模信息和类型标志信息作为纳税人非文本特征,对定量指标进行无量纲化处理,对定性指标进行One-Hot编码处理,得到纳税人非文本特征的向量化表示;再将纳税人的文本特征向量和非文本特征向量进行结合,得到纳税人特征向量。


3.根据权利要求2所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤2)中,将待分类的样本输入至双向循环神经网络中,完成分类器模型构建并得到预测概率,其中构造分类器模型包括以下步骤:
201)在样本集上进行分类器模型训练;将步骤1)得到的纳税人特征向量输入到分类器模型,再通过三层全连接层,最后通过输出层进行纳税人所属经济行业的分类和预测,输出层由若干个Sigmoid神经元组成,每个神经元的输出代表了对应类别的预测概率,完成将多标签分类问题转换为了若干个二分类问题的组合;
202)通过预测结果,计算损失函数,在大规模多标签分类时采用交叉熵损失函数作为损失函数能够起到很好的分类效果;
单个Sigmoid神经元交叉熵损失函数的计算公式为:



式中,表示样本的原始标签,表示预测概率,N表示样本总数量,i表示第i个样本;
在该分类器模型中,Sigmoid层包含了M个Sigmoid神经元,每个神经元对应一种行业标签,因此,该模型的整体损失则为M个交叉熵损失之和,其计算公式为:



式中,表示联合损失,表示单个神经元交叉熵损失,M表示输出层Sigmoid神经元个数,j表示第j个神经元,yij表示样本原始标签,表示预测标签概率;
在模型的训练过程中,将整体损失作为总体的优化目标,每个行业类别对应的交叉熵损失作为该Sigmoid神经元的单独优化目标,所有Sigmoid神经元的损失共同影响模型的整体训练效果,当整体损失不再下降,则模型取得了最佳拟合效果,进而能够对所有行业明细进行准确高效的分类预测。


4.根据权利要求3所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤3)中,基于分类器模型对样本标签的预测对原始标签进行纠正,从而实现噪声标签的识别及纠正的处理工作,降...

【专利技术属性】
技术研发人员:郑庆华李碧婷阮建飞董博高宇达宓玲云范弘铖
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1