一种基于深度学习的税务商品编码分类方法和系统技术方案

技术编号:20117787 阅读:28 留言:0更新日期:2019-01-16 12:04
本发明专利技术公开了一种基于深度学习的税务商品编码分类方法和系统,该方法包括:预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;对验证数据库中的商品名进行预处理,获取相应的商品名分词;对商品名分词进行向量化,并进行卷积网络搭建;对目标商品名进行预处理,获取相应的目标商品名分词;通过卷积网络对目标商品名分词进行分类,确定目标商品名的类别。对验证数据库中的商品名以及待测的目标商品名进行相同条件的预处理和分词处理,通过建立卷积网络对目标商品名进行分类,能够有效提取文本词语的语义的关联性,实现了准确高效的商品编码自动分类。

A Tax Commodity Code Classification Method and System Based on Deep Learning

The invention discloses a taxation commodity coding classification method and system based on in-depth learning, which includes: establishing a validation database including commodity names and corresponding commodity codes in advance, making training and test sets; preprocessing commodity names in validation database to obtain corresponding commodity NOUN participles; vectorizing commodity noun participles and convolution network. Build; Preprocess the target commodity name to get the corresponding target commodity NOUN participle; Classify the target commodity noun participle through convolution network to determine the category of the target commodity name. Pre-processing and word segmentation of the commodity names in the verification database and the target commodity names to be tested are carried out under the same conditions. By establishing convolution network to classify the target commodity names, the semantic relevance of text words can be effectively extracted, and the accurate and efficient automatic classification of commodity codes can be realized.

【技术实现步骤摘要】
一种基于深度学习的税务商品编码分类方法和系统
本专利技术涉及文本分类
,特别是涉及一种基于深度学习的税务商品编码分类方法和系统。
技术介绍
国家税务总局相关规定,个人和企业在开具增值税发票时,必须为商品指定类别编码,否则发票可作无效处理。而目前商品类别编码中包含了十级目录共4000多类,类别数量庞大且某些类目不易区分,如果人工选择商品编码,则费时费力且极易产生错误。此外,商品名数量庞大,长短不一,且处于不断的变化发展之中。再者,即使商品名相似,商品的类别也可能存在较大的差异,如:(1)“喷枪水”的类别为“合成洗涤剂”,而“水喷枪”的类别为“喷枪”;(2)“epe隔板”的类别为“泡沫塑料”,而“pe隔板”的类别为“塑料板、片”,此类例子极其常见。传统的文本分类方法难以处理此类问题。目前涉及商品编码分类的方法较少,且不能有效的提取语义信息,而语义信息对于新增加商品的分类起着重要作用。因此,如何实现准确高效的商品编码自动分类,是本领域技术人员目前需要解决的技术问题。
技术实现思路
本专利技术的目的是提供一种基于深度学习的税务商品编码分类方法和系统,可以实现准确高效的商品编码自动分类。为解决上述技术问题,本专利技术提供了如下技术方案:一种基于深度学习的税务商品编码分类方法,包括:预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;对所述验证数据库中的商品名进行预处理,获取相应的商品名分词;对所述商品名分词进行向量化,并进行卷积网络搭建;对目标商品名进行预处理,获取相应的目标商品名分词;通过所述卷积网络对所述目标商品名分词进行分类,确定所述目标商品名的类别。优选地,所述对所述验证数据库中的商品名进行预处理,获取相应的商品名分词,包括:对所述验证数据库中的商品名进行字符解析;剔除所述验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名;对所述预处理商品名进行分词,并提取相应的商品名分词。优选地,所述剔除所述验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名,包括:通过预设的繁简体映射表对所述验证数据库中的商品名进行繁简体转换;通过Unicode编码范围对所述验证数据库中的商品名进行英文字符的大小写转换以及非汉字、数字、和英文的字符的过滤。优选地,所述对所述商品名分词进行向量化,并进行卷积网络搭建,包括:采集历史数据中所有的商品名,经商品名预处理和分词后,根据词频建立字典;通过预设的词向量模型对所有的商品名进行训练,获取相应的词向量;设定一个商品名分词的最大数目,对商品名分词进行补全,并根据所述字典查找相应的词向量,构建卷积网络的嵌入层;根据所述词向量分别构建卷积网络的卷积层、pooling层和softmax层。优选地,所述通过所述卷积网络对所述目标商品名分词进行分类,确定所述目标商品名的类别,包括:通过所述卷积网络对所述目标商品名分词进行分类,得到对应的分类结果;将所述分类结果按照概率进行降序排列;选取概率最大的类别作为所述目标商品名的类别。优选地,在所述将所述分类结果按照概率进行降序排列之后,还包括:获取前N个候选类别,其中,在通过测试样本进行测试时,分类结果的前N个候选类别中,测试样本的分类结果正确率大于预设的阈值;根据所述验证数据库和预设的商品分类编码表,对所述目标商品名分词按照TF-IDF特征进行相似度计算,获取相似度最高的文本集合及相应的类别;计算所述文本集中每一个文本与所述目标商品名的编辑距离相似度,获取编辑距离相似度最高的目标文本及所述目标文本的类别;判断所述目标文本的类别是否在所述前N个候选类别中,且所述目标文本和所述目标商品名的编辑距离相似度是否大于预设的阈值;若是,则确定所述目标文本的类别为所述目标商品名的类别;若否,则执行步骤:选取概率最大的类别作为所述目标商品名的类别。一种基于深度学习的税务商品编码分类系统,包括:建库模块,用于预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;第一分词模块,用于对所述验证数据库中的商品名进行预处理,获取相应的商品名分词;卷积网络搭建模块,用于对所述商品名分词进行向量化,并进行卷积网络搭建;第二分词模块,用于对目标商品名进行预处理,获取相应的目标商品名分词;分类模块,用于通过所述卷积网络对所述目标商品名分词进行分类,确定所述目标商品名的类别。优选地,所述第一分词模块包括:解析单元,用于对所述验证数据库中的商品名进行字符解析;预处理单元,用于剔除所述验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名;分词单元,用于对所述预处理商品名进行分词,并提取相应的商品名分词。优选地,所述预处理单元包括:第一预处理子单元,用于通过预设的繁简体映射表对所述验证数据库中的商品名进行繁简体转换;第二预处理子单元,用于通过Unicode编码范围对所述验证数据库中的商品名进行英文字符的大小写转换以及非汉字、数字、和英文的字符的过滤。优选地,所述卷积网络搭建模块包括:字典建立单元,用于采集历史数据中所有的商品名,经商品名预处理和分词后,根据词频建立字典;训练单元,用于通过预设的词向量模型对所有的商品名进行训练,获取相应的词向量;第一构建单元,用于设定一个商品名分词的最大数目,对商品名分词进行补全,并根据所述字典查找相应的词向量,构建卷积网络的嵌入层;第二构建单元,用于根据所述词向量分别构建卷积网络的卷积层、pooling层和softmax层。优选地,所述分类模块包括:分类单元,用于通过所述卷积网络对所述目标商品名分词进行分类,得到对应的分类结果;排序单元,用于将所述分类结果按照概率进行降序排列;选取单元,用于选取概率最大的类别作为所述目标商品名的类别。优选地,所述分类模块还包括:获取单元,用于获取前N个候选类别,其中,在通过测试样本进行测试时,分类结果的前N个候选类别中,测试样本的分类结果正确率大于预设的阈值;相似度计算单元,用于根据所述验证数据库和预设的商品分类编码表,对所述目标商品名分词按照TF-IDF特征进行相似度计算,获取相似度最高的文本集合及相应的类别;编辑距离计算单元,用于计算所述文本集中每一个文本与所述目标商品名的编辑距离相似度,获取编辑距离相似度最高的目标文本及所述目标文本的类别;判断单元,用于判断所述目标文本的类别是否在所述前N个候选类别中,且所述目标文本和所述目标商品名的编辑距离相似度是否大于预设的阈值;类别确定单元,用于在判定所述目标文本的类别在所述前N个候选类别中,且所述目标文本和所述目标商品名的编辑距离相似度大于预设的阈值时,确定所述目标文本的类别为所述目标商品名的类别;其中,所述选取单元用于在判定所述目标文本的类别不在所述前N个候选类别中,和/或,所述目标文本和所述目标商品名的编辑距离相似度不大于预设的阈值时,选取概率最大的类别作为所述目标商品名的类别。与现有技术相比,上述技术方案具有以下优点:本专利技术实施例所提供的一种基于深度学习的税务商品编码分类方法,包括:预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;对验证数据库中的商品名进行预处理,获取相应本文档来自技高网...

【技术保护点】
1.一种基于深度学习的税务商品编码分类方法,其特征在于,包括:预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;对所述验证数据库中的商品名进行预处理,获取相应的商品名分词;对所述商品名分词进行向量化,并进行卷积网络搭建;对目标商品名进行预处理,获取相应的目标商品名分词;通过所述卷积网络对所述目标商品名分词进行分类,确定所述目标商品名的类别。

【技术特征摘要】
1.一种基于深度学习的税务商品编码分类方法,其特征在于,包括:预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;对所述验证数据库中的商品名进行预处理,获取相应的商品名分词;对所述商品名分词进行向量化,并进行卷积网络搭建;对目标商品名进行预处理,获取相应的目标商品名分词;通过所述卷积网络对所述目标商品名分词进行分类,确定所述目标商品名的类别。2.根据权利要求1所述的方法,其特征在于,所述对所述验证数据库中的商品名进行预处理,获取相应的商品名分词,包括:对所述验证数据库中的商品名进行字符解析;剔除所述验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名;对所述预处理商品名进行分词,并提取相应的商品名分词。3.根据权利要求2所述的方法,其特征在于,所述剔除所述验证数据库中的非汉字、数字、和英文的字符,并进行商品名繁简体转换和英文字符大小写转换,得到预处理商品名,包括:通过预设的繁简体映射表对所述验证数据库中的商品名进行繁简体转换;通过Unicode编码范围对所述验证数据库中的商品名进行英文字符的大小写转换以及非汉字、数字、和英文的字符的过滤。4.根据权利要求2所述的方法,其特征在于,所述对所述商品名分词进行向量化,并进行卷积网络搭建,包括:采集历史数据中所有的商品名,经商品名预处理和分词后,根据词频建立字典;通过预设的词向量模型对所有的商品名进行训练,获取相应的词向量;设定一个商品名分词的最大数目,对商品名分词进行补全,并根据所述字典查找相应的词向量,构建卷积网络的嵌入层;根据所述词向量分别构建卷积网络的卷积层、pooling层和softmax层。5.根据权利要求4所述的方法,其特征在于,所述通过所述卷积网络对所述目标商品名分词进行分类,确定所述目标商品名的类别,包括:通过所述卷积网络对所述目标商品名分词进行分类,得到对应的分类结果;将所述分类结果按照概率进行降序排列;选取概率最大的类别作为所述目标商品名的类别。6.根据权利要求1至5任一项所述的方法,其特征在于,在所述将所述分类结果按照概率进行降序排列之后,还包括:获取前N个候选类别,其中,在通过测试样本进行测试时,分类结果的前N个候选类别中,测试样本的分类结果正确率大于预设的阈值;根据所述验证数据库和预设的商品分类编码表,对所述目标商品名分词按照TF-IDF特征进行相似度计算,获取相似度最高的文本集合及相应的类别;计算所述文本集中每一个文本与所述目标商品名的编辑距离相似度,获取编辑距离相似度最高的目标文本及所述目标文本的类别;判断所述目标文本的类别是否在所述前N个候选类别中,且所述目标文本和所述目标商品名的编辑距离相似度是否大于预设的阈值;若是,则确定所述目标文本的类别为所述目标商品名的类别;若否,则执行步骤:选取概率最大的类别作为所述目标商品名的类别。7.一种基于深度学习的税务商品编码分类系统,其特征在于,包括:建库模块,用于预先建立包含商品名和对应商品编码的验证数据库,并制作训练集和测试集;第一分词模块,用于对所...

【专利技术属性】
技术研发人员:叶丰尘健吴鹏单立强王军朱泳存刘海明
申请(专利权)人:浙江诺诺网络科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1