基于相应度衡量的并行LSTM结构海关商品分类方法技术

技术编号:21605648 阅读:32 留言:0更新日期:2019-07-13 18:16
本发明专利技术公开了一种基于相应度衡量的并行LSTM结构海关商品分类方法,涉及海关税务领域。本发明专利技术由一不同特征数据的并行网络结构和两个网络输出部分特征相应机制组成,包括文字数据的数字化向量生成、深度并行LSTM的响应度衡量、适用的softmax概率化定义置信度来专门处理归类要素多元化的算法结构。本发明专利技术通过不同数据的并行网络结构和多个网络输出部分特征相应机制,先对海关商品进行先验知识和数据处理,利用大数据技术和深度学习计算将海关海量数据用于模型优化,提高了海关税则号的精准度和准确率。

A Parallel LSTM Customs Commodity Classification Method Based on Correspondence Measure

【技术实现步骤摘要】
基于相应度衡量的并行LSTM结构海关商品分类方法
本专利技术属于海关税务领域,特别是涉及一种基于相应度衡量的并行LSTM结构海关商品分类方法。
技术介绍
海关的报关货物要上交不同比例的税费,这些税费由税则号唯一确定,但是在实际生产生活中,由于公司本身对归类知识掌握不够透彻、每天的报关数据非常庞大、海关报关税则号核对人员不足等情况,使得国家通关税费的收取难以做到精准精确。为了解决这一问题,解放大量的人力物力,我们设计出了基于LSTM的海关归类算法。在实际算法设计中,我们遇到了很多技术难题:1.海关的数据偏度非常大,有的税则号只有寥寥几个,有的则动辄几十上百万,这可能会导致算法偏向于数据量大税则号。2.海关数据来自于各个不同的公司,每个公司申报税则号的格式和表示方法都不尽相同,所以要让算法真正理解报关数据的内容。3.海关数据片断缺失严重,因为有不报,漏报,未知,免税商品等等问题,所以同一税则号下的数据结构都是不尽相同的。4.临近税则号商品规划非常相似,部分商品更是必须要通过商品规格才能准确判断。5.海关的数据量非常巨大,对于数据处理速度和数据相应时间的高要求。6.海关报关物品品类繁杂,有些商品的归类税则号还有所争议。7.海关的数据也不能完全保证归类的正确性。综上所述,设计一种基于深度学习的智能归类算法,以便克服上述技术问题,提高海关报关验核准确度的同时降低误报风险。
技术实现思路
本专利技术的目的在于提供一种基于相应度衡量的并行LSTM结构海关商品分类方法,通过对海关商品进行先验知识和数据处理,利用大数据技术和深度学习计算将海关海量数据用于模型优化,解决了现有的海关税则号管理难、统计不精准的问题。为解决上述技术问题,本专利技术是通过以下技术方案实现的:本专利技术为一种基于相应度衡量的并行LSTM结构海关商品分类方法,本方法由一不同特征数据的并行网络结构和两个网络输出部分特征相应机制组成,具体实现海关商品分类方法包括如下步骤:步骤S01:分别对商品名称和商品规格进行分离并进行数据清洗;步骤S02:分别对商品名称和商品规格进行分词,并挑选出出现次数高的数据进行one-hot编码;步骤S03:将编码号的数据放入embedding结构,获取一个可优化的语法逻辑结构;步骤S04:输出的浮点型编码输入一个并行的多层LSTM网络分别针对海关归类数据的商品名称和商品规格;步骤S05:输出的特征数据再进行一个多层的全连接网络再拟合;步骤S06:对两个网络输出的结果成绩使用响应模型,针对两种分离数据进行整合,输出两组蕴含数据的属性,最终得到商品名称和商品规格的响应数据;步骤S07:采用softmax将数据转化成概率值的形式,并使用交叉熵作为误差函数与使用的one-hot编码的税则号计算误差;步骤S08:使用基于动量的反向传播算法优化模型。优选地,所述步骤S7中,将每一个商品属性设为ai(i=1,2,3,......,n),商品名称设为b1,剩余要素均放入商品规格中,设为b2,则该类要素对应的税则号为U(b1,b2);将每一个税则号给定相应的Ph(b1,b2)(h=1,2,3,......,m),最后将argmax(Ph(b1,b2)(h=1,2,3...,m))作为输出。本专利技术具有以下有益效果:本专利技术通过不同数据的并行网络结构和多个网络输出部分特征相应机制,先对海关商品进行先验知识和数据处理,利用大数据技术和深度学习计算将海关海量数据用于模型优化,提高了海关税则号的精准度和准确率。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的一种基于相应度衡量的并行LSTM结构海关商品分类方法步骤图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1所示,本专利技术为一种基于相应度衡量的并行LSTM结构海关商品分类方法,本方法由一不同特征数据的并行网络结构和两个网络输出部分特征相应机制组成,具体实现海关商品分类方法包括如下步骤:步骤S01:分别对商品名称和商品规格进行分离并进行数据清洗;步骤S02:分别对商品名称和商品规格进行分词,并挑选出出现次数高的数据进行one-hot编码;步骤S03:将编码号的数据放入embedding结构,获取一个可优化的语法逻辑结构;步骤S04:输出的浮点型编码输入一个并行的多层LSTM网络分别针对海关归类数据的商品名称和商品规格;步骤S05:输出的特征数据再进行一个多层的全连接网络再拟合;步骤S06:对两个网络输出的结果成绩使用响应模型,针对两种分离数据进行整合,输出两组蕴含数据的属性,最终得到商品名称和商品规格的响应数据;步骤S07:采用softmax将数据转化成概率值的形式,并使用交叉熵作为误差函数与使用的one-hot编码的税则号计算误差;步骤S08:使用基于动量的反向传播算法优化模型。其中,步骤S7中,将每一个商品属性设为ai(i=1,2,3,......,n),商品名称设为b1,剩余要素均放入商品规格中,设为b2,则该类要素对应的税则号为U(b1,b2),其中b2可能为空;但是电脑不能给出这样的情况,对于一个商品数据,将每一个税则号给定相应的Ph(b1,b2)(h=1,2,3,......,m),最后将argmax(Ph(b1,b2)(h=1,2,3...,m))作为输出,为了得到更高的准确性,可以设计出TOP-3、TOP-5或者∑Ph(b1,b2)(h=1,2,3...,m)>a,其中,a是人为设计的阀值。本实施例的一个具体应用为:在方案设计前期,模拟实验中采用常用的算法去设计该方案,得到的结果可以达到95%以上的正确率,但是随着实际业务的加深,我们深度分析发现,成功的数据都集中在数据量非常庞大的几个税则,因为其占有的比例过大,所以得到这个一个有偏度的结果,之后我们采用数据的对抗样本仍难以解决这个问题,考虑到将商品的名称归类权重加到,这样则可以将算法的成功率提高到了50%以上,但是还是不足以做一个有效的归类参考。之后我们考虑到商品名称会弥散多个税则号,商品规格同样会弥散到多个税则号,只有两者同时结合才能做到很好的配合,即只有当在两个要素中都得到比较高的支持度才能做到正确归类。因此,我们在概率思想下采用乘积的方法去拟合这样一个相应,并将原有模型拆成两个并行结果,并使用word2vec等等传统的语义神经网络优化方法,将算法的成功率提高到了80%左右;当然,这是只考虑概率最大的哪一个税则号,如果是TOP-3或TOP-5会进一步提高成功率,如果只是做归类参考,即前四位编码的确认则成功率可以达到95%左右;所以本专利技术使用了大数据技术将海关的海量数据用于模型的优化,鉴于数据本身不能保证正确以及数据本身有缺失等等情况,限制了模本文档来自技高网...

【技术保护点】
1.一种基于相应度衡量的并行LSTM结构海关商品分类方法,其特征在于:本方法由一不同特征数据的并行网络结构和两个网络输出部分特征相应机制组成,具体实现海关商品分类方法包括如下步骤:步骤S01:分别对商品名称和商品规格进行分离并进行数据清洗;步骤S02:分别对商品名称和商品规格进行分词,并挑选出出现次数高的数据进行one‑hot编码;步骤S03:将编码号的数据放入embedding结构,获取一个可优化的语法逻辑结构;步骤S04:输出的浮点型编码输入一个并行的多层LSTM网络分别针对海关归类数据的商品名称和商品规格;步骤S05:输出的特征数据再进行一个多层的全连接网络再拟合;步骤S06:对两个网络输出的结果成绩使用响应模型,针对两种分离数据进行整合,输出两组蕴含数据的属性,最终得到商品名称和商品规格的响应数据;步骤S07:采用softmax将数据转化成概率值的形式,并使用交叉熵作为误差函数与使用的one‑hot编码的税则号计算误差;步骤S08:使用基于动量的反向传播算法优化模型。

【技术特征摘要】
1.一种基于相应度衡量的并行LSTM结构海关商品分类方法,其特征在于:本方法由一不同特征数据的并行网络结构和两个网络输出部分特征相应机制组成,具体实现海关商品分类方法包括如下步骤:步骤S01:分别对商品名称和商品规格进行分离并进行数据清洗;步骤S02:分别对商品名称和商品规格进行分词,并挑选出出现次数高的数据进行one-hot编码;步骤S03:将编码号的数据放入embedding结构,获取一个可优化的语法逻辑结构;步骤S04:输出的浮点型编码输入一个并行的多层LSTM网络分别针对海关归类数据的商品名称和商品规格;步骤S05:输出的特征数据再进行一个多层的全连接网络再拟合;步骤S06:对两个网络输出的结果成绩使用响应模型,针对两种分离数据进行整合,...

【专利技术属性】
技术研发人员:杨浩恩束维国郭磊黄伟陆军叶勇
申请(专利权)人:科大国创软件股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1