一种基于MIMO递归神经网络的纳税人行业两层级分类方法技术

技术编号:21034461 阅读:20 留言:0更新日期:2019-05-04 05:29
本发明专利技术公开了一种基于MIMO递归神经网络的纳税人行业两层级分类方法,包括以下内容:提取纳税人注册登记信息中的纳税人名称和经营范围2维文本特征及法人性别、登记注册类型、注册资本、从业人数、合伙人数等13维的非文本特征;为将文本特征和非文本特征同时作为输入,构建具有多输入多输出结构的GRU神经网络,以最小化交叉熵损失函数为优化目标训练神经网络,以此作为基础模型;设计行业大类到行业明细的映射关系;基于二者间的映射关系将基础模型进行分组融合,在隐藏层与另一层级的隐藏层向量进行融合,经sigmoid全连接层输出分类结果。本发明专利技术有效提高了多标签分类的准确性,以解决纳税人所属行业在行业大类和行业明细两个层级上的分类问题。

【技术实现步骤摘要】
一种基于MIMO递归神经网络的纳税人行业两层级分类方法
本专利技术涉及一种基于MIMO递归神经网络(Multi-inputMulti-outputRNN)的纳税人行业两层级分类方法,用于解决纳税人所属行业在行业大类和行业明细两个层级上的分类问题。
技术介绍
纳税人行业分类是在统计、计划、财政、税收、工商等国家宏观管理中的重要内容,是经济管理和统计工作的重要基础,有助于国家对各种产业活动的观察和监测。行业分类具有分层次、种类多的特点,2017版行业分类标准中包括行业大类97种,行业明细1380种,其中,行业明细是行业大类根据具体的经济活动细分得来的。实际纳税人不仅具有一种主营行业,还可能有若干附属行业,纳税人在登记注册时,工作人员需根据纳税人的经营范围确定其主营行业明细及附属行业明细。目前纳税人行业两层次分类主要通过工作人员凭借经验根据纳税人的经营范围进行行业划分,在现如今庞大的行业规模下,存在效率低下、主观臆断、考虑信息不全面等问题,如何对纳税人所属行业在多个层次上进行正确高效划分是目前亟待解决的问题。以下文献提供了可参考的旨在对纳税人所属行业在多个层次上进行分类的技术解决方案:1、一种针对发布文本的行业分类方法和系统。(201210076564.4)2、基于自动信息筛选的企业行业分类系统。(201611270135.5)3、一种企业行业分类方法。(201711137533.4)文献1提供了一种针对发布文本的行业分类方法和系统,构建两级类别体系,包括一级行业类别特征词集合挖掘和二级行业分类模型训练,实现对发布文本一级和二级行业分类。文献2提供了一种基于自动信息筛选的企业行业分类系统,结合循环神经网络和门限控制的方法构造行业分类神经网络模型,根据企业的经营范围信息和企业名称信息,实现对企业二级行业的自动分类判断。文献3提供了一种企业行业分类的方法。利用半监督学习的图分裂聚类算法提取了企业的主营业务关键词,并基于梯度提升决策树使用提取的关键词作为特征,训练级联分类器将企业按行业分类。然而以上文献所述方法主要存在以下问题:国民经济行业分类中指出行业分类层次主要有门类、大类、中类、小类。文献1中二级行业的分类方法根据第一级行业特征词集合,筛选出特定一级行业下属二级行业对应的特征词,从而进行二级行业分类,绝对依赖于一级行业分类的正确率,容易忽略有效特征;文献2只关注在行业明细这层级进行行业分类,层次单一;文献3中使用的企业信息与行业分类的数据存在失真现象,依赖人工标注关键词,并且二级行业类别的判断范围隶属于一级行业类别预测结果,同样绝对依赖于一级行业分类的正确率。另外,三篇文献都只关注企业的文本信息,而忽略企业注册时的非文本信息,有一定的局限性。
技术实现思路
本专利技术的目的在于提供一种基于MIMO递归神经网络的纳税人行业两层级分类方法。首先,提取纳税人注册登记信息中的纳税人名称和经营范围2维文本特征;其次,提取纳税人注册登记信息中的法人性别、登记注册类型、注册资本、从业人数、合伙人数、办税人_证件号码、总机构标志、国地共管户标志、自然人投资比例、外资投资比例、国有投资比例、外籍人数、固定人数13维的非文本特征;再次,为将文本特征和非文本特征同时作为输入,构建具有多输入多输出结构的GRU神经网络,以最小化交叉熵损失函数为优化目标训练神经网络,以此作为基础模型;然后,设计行业大类到行业明细的映射关系;最后,基于二者间的映射关系将基础模型进行分组融合,在隐藏层与另一层级的隐藏层向量进行融合,经sigmoid全连接层输出分类结果,进一步提高多标签分类的准确性,以解决纳税人所属行业在行业大类和行业明细两个层级上的分类问题。为了达到以上目的,本专利技术是采取如下技术方案予以实现的:一种基于MIMO递归神经网络的纳税人行业两层级分类方法,包括以下步骤:1)构建纳税人文本特征向量查询数据库中的纳税人信息表,提取纳税人注册登记信息中的纳税人名称和经营范围2维文本信息,将纳税人的电子档案号NSRDZDAH作为唯一标识;将纳税人名称及经营范围中的不规则元素删除,基于国家行业分类标准构建了包括4480个词语的行业分类专业词典,基于全国省市区县地名大全及四级行政区划地名词库构建停用词词典用以后续去除纳税人名称中的地名;基于Ansj分词器对提取出的文本信息进行分词、去停用词、向量化后得到样本的文本特征;2)构建纳税人非文本特征向量纳税人登记注册时的信息包括纳税人名称及经营范围2维文本信息,以及多维的非文本信息;添加非文本信息作为后续模型输入,能够更加全面的考虑纳税人信息,有利于提高纳税人所属行业两层次分类的准确率;查询数据库中的纳税人基本信息表,从中提取以下十四个字段:{NSRDZDAH,FRXB,BSR_ZJHM,DJZCLX,ZJGBZ,GDGGHBZ,ZCZB,ZRRTZBL,WZTZBL,GYTZBL,CYRS,WJRS,HHRS,GDRS}其中NSRDZDAH表示纳税人电子档案号,FRXB表示法人性别,BSR_ZJHM表示办税人_证件号码,DJZCLX表示登记注册类型,ZJGBZ表示总机构标志,GDGGHBZ表示国地共管户标志,ZCZB表示注册资本,ZRRTZBL表示自然人投资比例,WZTZBL表示外资投资比例,GYTZBL表示国有投资比例,CYRS表示从业人数,WJRS表示外籍人数,HHRS表示合伙人数,GDRS表示其中固定人数;其中根据办税人_证件号码BSR_ZJHM得到法人年龄,将提取结果构建成13维非文本信息,把纳税人识别号NSRDZDAH作为唯一标识;对其中的数值型特征进行z-score标准化处理,对类别型特征进行one-hotencoding处理,将处理得到的合并向量表示为Snon-t,作为非文本特征的表示向量;3)构建MIMO-RNN基础模型首先,进行纳税人行业大类的模型训练,将文本特征转化为词序列作为输入,对该序列进行向前向和后向GRU神经网络训练;其次,将前向和后向训练得到的预测向量和非文本特征编码向量相结合,输入到隐藏层神经元的对应组中;然后,再通过sigmoid全连接层进行损失函数的训练,得到多个输出作为纳税人行业大类的多标签分类结果;最后,进行纳税人行业明细的模型训练,重复上述过程得到多个输出作为纳税人行业明细的多标签分类结果;4)生成行业大类到行业明细的映射关系国民经济行业分类规定了行业大类和行业明细的包含关系,根据MIMO-RNN模型的训练结果,行业大类与行业明细之间存在对应关系:当纳税人属于某一行业大类的概率较大时,该纳税人属于其对应的行业明细的概率也较大;当纳税人属于某一行业明细的概率较大时,该纳税人属于其对应的行业大类概率也较大,所以行业大类与行业明细之间的存在映射关系;行业明细较行业大类对纳税人行业的划分粒度更细,根据行业大类中具体的经济活动,将每类行业大类又细分为多种行业明细;因此行业大类与行业明细间的映射关系是一对多的;所述行业明细代码到行业大类代码的映射关系,格式表现为:行业大类(2位代码)行业明细(4位代码)行业大类用两位阿拉伯数字表示,从01开始按顺序编码,每组代码表示不同的行业大类;行业明细用四位阿拉伯数字表示,前两位为大类编码,后两位按顺序进行编码,每组编码表示不同的行业明细;本文档来自技高网
...

【技术保护点】
1.一种基于MIMO递归神经网络的纳税人行业两层级分类方法,其特征在于,包括以下步骤:1)构建纳税人文本特征向量查询数据库中的纳税人信息表,提取纳税人注册登记信息中的纳税人名称和经营范围2维文本信息,将纳税人的电子档案号NSRDZDAH作为唯一标识;将纳税人名称及经营范围中的不规则元素删除,基于国家行业分类标准构建了包括4480个词语的行业分类专业词典,基于全国省市区县地名大全及四级行政区划地名词库构建停用词词典用以后续去除纳税人名称中的地名;基于Ansj分词器对提取出的文本信息进行分词、去停用词、向量化后得到样本的文本特征;2)构建纳税人非文本特征向量纳税人登记注册时的信息包括纳税人名称及经营范围2维文本信息,以及多维的非文本信息;添加非文本信息作为后续模型输入,能够更加全面的考虑纳税人信息,有利于提高纳税人所属行业两层次分类的准确率;查询数据库中的纳税人基本信息表,从中提取以下十四个字段:{NSRDZDAH,FRXB,BSR_ZJHM,DJZCLX,ZJGBZ,GDGGHBZ,ZCZB,ZRRTZBL,WZTZBL,GYTZBL,CYRS,WJRS,HHRS,GDRS}其中NSRDZDAH表示纳税人电子档案号,FRXB表示法人性别,BSR_ZJHM表示办税人_证件号码,DJZCLX表示登记注册类型,ZJGBZ表示总机构标志,GDGGHBZ表示国地共管户标志,ZCZB表示注册资本,ZRRTZBL表示自然人投资比例,WZTZBL表示外资投资比例,GYTZBL表示国有投资比例,CYRS表示从业人数,WJRS表示外籍人数,HHRS表示合伙人数,GDRS表示其中固定人数;其中根据办税人_证件号码BSR_ZJHM得到法人年龄,将提取结果构建成13维非文本信息,把纳税人识别号NSRDZDAH作为唯一标识;对其中的数值型特征进行z‑score标准化处理,对类别型特征进行one‑hotencoding处理,将处理得到的合并向量表示为Snon‑t,作为非文本特征的表示向量;3)构建MIMO‑RNN基础模型首先,进行纳税人行业大类的模型训练,将文本特征转化为词序列作为输入,对该序列进行向前向和后向GRU神经网络训练;其次,将前向和后向训练得到的预测向量和非文本特征编码向量相结合,输入到隐藏层神经元的对应组中;然后,再通过sigmoid全连接层进行损失函数的训练,得到多个输出作为纳税人行业大类的多标签分类结果;最后,进行纳税人行业明细的模型训练,重复上述过程得到多个输出作为纳税人行业明细的多标签分类结果;4)生成行业大类到行业明细的映射关系国民经济行业分类规定了行业大类和行业明细的包含关系,根据MIMO‑RNN模型的训练结果,行业大类与行业明细之间存在对应关系:当纳税人属于某一行业大类的概率较大时,该纳税人属于其对应的行业明细的概率也较大;当纳税人属于某一行业明细的概率较大时,该纳税人属于其对应的行业大类概率也较大,所以行业大类与行业明细之间的存在映射关系;行业明细较行业大类对纳税人行业的划分粒度更细,根据行业大类中具体的经济活动,将每类行业大类又细分为多种行业明细;因此行业大类与行业明细间的映射关系是一对多的;所述行业明细代码到行业大类代码的映射关系,格式表现为:...

【技术特征摘要】
1.一种基于MIMO递归神经网络的纳税人行业两层级分类方法,其特征在于,包括以下步骤:1)构建纳税人文本特征向量查询数据库中的纳税人信息表,提取纳税人注册登记信息中的纳税人名称和经营范围2维文本信息,将纳税人的电子档案号NSRDZDAH作为唯一标识;将纳税人名称及经营范围中的不规则元素删除,基于国家行业分类标准构建了包括4480个词语的行业分类专业词典,基于全国省市区县地名大全及四级行政区划地名词库构建停用词词典用以后续去除纳税人名称中的地名;基于Ansj分词器对提取出的文本信息进行分词、去停用词、向量化后得到样本的文本特征;2)构建纳税人非文本特征向量纳税人登记注册时的信息包括纳税人名称及经营范围2维文本信息,以及多维的非文本信息;添加非文本信息作为后续模型输入,能够更加全面的考虑纳税人信息,有利于提高纳税人所属行业两层次分类的准确率;查询数据库中的纳税人基本信息表,从中提取以下十四个字段:{NSRDZDAH,FRXB,BSR_ZJHM,DJZCLX,ZJGBZ,GDGGHBZ,ZCZB,ZRRTZBL,WZTZBL,GYTZBL,CYRS,WJRS,HHRS,GDRS}其中NSRDZDAH表示纳税人电子档案号,FRXB表示法人性别,BSR_ZJHM表示办税人_证件号码,DJZCLX表示登记注册类型,ZJGBZ表示总机构标志,GDGGHBZ表示国地共管户标志,ZCZB表示注册资本,ZRRTZBL表示自然人投资比例,WZTZBL表示外资投资比例,GYTZBL表示国有投资比例,CYRS表示从业人数,WJRS表示外籍人数,HHRS表示合伙人数,GDRS表示其中固定人数;其中根据办税人_证件号码BSR_ZJHM得到法人年龄,将提取结果构建成13维非文本信息,把纳税人识别号NSRDZDAH作为唯一标识;对其中的数值型特征进行z-score标准化处理,对类别型特征进行one-hotencoding处理,将处理得到的合并向量表示为Snon-t,作为非文本特征的表示向量;3)构建MIMO-RNN基础模型首先,进行纳税人行业大类的模型训练,将文本特征转化为词序列作为输入,对该序列进行向前向和后向GRU神经网络训练;其次,将前向和后向训练得到的预测向量和非文本特征编码向量相结合,输入到隐藏层神经元的对应组中;然后,再通过sigmoid全连接层进行损失函数的训练,得到多个输出作为纳税人行业大类的多标签分类结果;最后,进行纳税人行业明细的模型训练,重复上述过程得到多个输出作为纳税人行业明细的多标签分类结果;4)生成行业大类到行业明细的映射关系国民经济行业分类规定了行业大类和行业明细的包含关系,根据MIMO-RNN模型的训练结果,行业大类与行业明细之间存在对应关系:当纳税人属于某一行业大类的概率较大时,该纳税人属于其对应的行业明细的概率也较大;当纳税人属于某一行业明细的概率较大时,该纳税人属于其对应的行业大类概率也较大,所以行业大类与行业明细之间的存在映射关系;行业明细较行业大类对纳税人行业的划分粒度更细,根据行业大类中具体的经济活动,将每类行业大类又细分为多种行业明细;因此行业大类与行业明细间的映射关系是一对多的;所述行业明细代码到行业大类代码的映射关系,格式表现为:行业大类(2位代码)行业明细(4位代码)行业大类用两位阿拉伯数字表示,从01开始按顺序编码,每组代码表示不同的行业大类;行业明细用四位阿拉伯数字表示,前两位为大类编码,后两位按顺序进行编码,每组编码表示不同的行业明细;5)构建行业大类与行业明细间融合模型基于行业两层级分类模型之间的相互印证关系,通过神经网络模型对行业大类分类模型与行业明细分类模型隐藏层的向量进行融合,查询数据库中的纳税人信息表,根据唯一标识纳税人电子档案号NSDZDAH提取该纳税人对应的行业大类和行业明细代码作为标签集{NSDZDAH,HYDL,HYMX},验证融合模型输出结果的准确率。2.根据权利要求1所述的一种基于MIMO递归神经网络的纳税人行业两层级分类方法,其特征在于,步骤1)中,所述纳税人信息表为存储纳税人文本及非文本信息的数据表;所述国家行业分类为2017版国家经济行业分类,包括20个门类,97个大类,473个中类,1380个小类;所述全国省市区县地名大全及四级行政区划地名词库选自搜狗输入法词库;所述将纳税人名称及经营范围中的不规则元素删除,是对纳税人文本信息进行预处理,纳税人注册登记信息尚未实现规范化,其中的不规则元素、异常字符能够对分类结果造成影响。3.根据权利要求2所述的一种基于MIMO递归神经网络的纳税人行业两层级分类方法,其特征在于,为了消除纳税人信息中的不规范元素对分类的影响,进行以下预处理:a.删除特殊符号;b.删除数字及量词;纳税人登记信息中的人名、地名、行业描述、经营范围文本信息往往超过分词工具自带词典的涵盖能力,为了防止纳税人信息分词过程中被分割成语义不完整的单词碎片,基于国家经济行业分类构建行业分类专业词典以及基于全国省市区县地名大全和四级行政区划地名词库构建停用词词典;所述基于国家经济行业分类构建行业分类专业词典,匹配国家经济行业分类中的行业名称及说明,提取出4480个词语用于构建行业分类专业词典,将行业分类专业词典加入到Ansj分词器的自定义词典中,使用自定义词典对纳税人名称和经营范围进行分词;所述基于全国省市区县地名大全及四级行政区划地名词库构建停用词词典,提取出省市县区不同层级的地名构成停用词词典,停用词词典包括但不局限于地名词语,将常见停用词,也添加至停用词词典中;将停用词词典加入Ansj分词器的自定义词典中,用于去除纳税人名称中的地名信息;所述Ansj分词器是基于n-Gram+CRF+HFF的中文分词器,基于Ansj分词器对文本特征进行分词具体步骤包括:Step1:对文本信息进行原子切分;Step2:基于最短路径进行粗切分,根据隐马尔科夫模型和viterbi算法达到最优路径的规划;Step3:对划分出的词语进行人名识别并停用;Step4:基于用户补充的自定义词典,具体为行业分类专用词典及停用词词典,对分词后的文本信息去停用词;Step5:将分词后的文本特征进行向量化处理,便于输入后续模型进行训练。4.根据权利要求3所述的一种基于MIMO递归神经网络的纳税人行业两层级分类方法,其特征在于,步骤2)中,所述z-score标准化是将原始数据的标准差映射为1,...

【专利技术属性】
技术研发人员:董博郑庆华阮建飞赵珮瑶杨征宽高宇达张发林雅婷
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1