当前位置: 首页 > 专利查询>大连大学专利>正文

一种基于多模组文本智能编码算法的海关进出口商品归类方法技术

技术编号:31983292 阅读:18 留言:0更新日期:2022-01-20 01:59
本发明专利技术提出了一种基于多模组文本智能编码算法的海关进出口商品归类方法,该多模组文本智能编码算法使用海关知识库,通过多组智能处理模块对海关进出口商品申报文本进行文本标准化,降低商品申报文本信息熵。之后使用编码逻辑将文本转变为随机码存储,既降低了信息存储空间,又可使用“同码

【技术实现步骤摘要】
一种基于多模组文本智能编码算法的海关进出口商品归类方法


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于多模组文本智能编码算法的海关进出口商品归类方法。

技术介绍

[0002]海关监管的主要对象是进出口商品,随着经济全球化,海关进出口商品的吞吐量不断增加,对进出口商品征税成为了海关部门的一项繁重的工作。商品征收税率取决于商品归类,目前中国海关主要使用人工归类进出口商品,关员通过海关系统根据商品的申报文本信息进行商品归类,进而计算征收税费。这种较为传统的方式费时费力,且仅能覆盖海量进出口商品的很少一部分。自然语言处理是一种专门研究文本表征的人工智能技术,可以通过对商品文本信息进行建模,构建文本高维空间特征向量,这些数字组成的特征向量承载了文本的语义、语序等信息,因此,计算机可以使用这些特征向量进行文本任务计算,对海关进出口商品归类任务提供算力支持。
[0003]现有辅助海关进出口商品归类预测的方法基本上基于数据库查找,近年来也有使用机器学习分类算法直接对进出口商品进行分类的案例。但是由于海关进出口申报文本相比较于普通中文文本,具有海关业务的高度专业性和报关单数据的不规范性,仅仅是简单自然语言处理技术中的算法直接移植使用,并不能起到很好的归类效果。与此同时,使用传统的规则库制定规则用于海关进出口商品归类,虽然可以根据业务逻辑构建底层逻辑,但是泛化性较弱,大数据量下制定规则难度极高。

技术实现思路

[0004]本申请的目的在于提供一种基于多模组文本智能编码算法的海关进出口商品归类方法,该方法实现了在申报要素内容离散、商品属性文字描述不规范的前提下对海关进出口商品文本进行归类,提高了海关商品归类异常查验效果。
[0005]海关商品查验的主要判定对象就是该商品的申报文本,判断目标则是该段商品申报文本的商品编号是否正确。商品编号是由10位数字组成的编号,代表着该商品在海关体系下的商品类别。申报文本是描述商品各个属性的文本集,属性名称的合集被称为“海关进出口商品申报要素目录”,该“要素目录”与商家填写的商品申报文本(要素内容)是一一对应的。使用商品编号的前4位可以定位出该商品需要填写具体内容的“要素目录”。
[0006]为实现上述目的,本申请的技术方案为:一种基于多模组文本智能编码算法的海关进出口商品归类方法,具体包括:
[0007]步骤1:对进出口商品申报文本进行数据清洗,按照商品编号前4位,定位进出口商品对应的“海关进出口商品申报要素目录”;
[0008]步骤2:按照所述“海关进出口商品申报要素目录”,对所述进出口商品申报文本进行拆分形成要素内容,该要素内容一一对应于“要素目录”,并对其进行排序;
[0009]步骤3:针对要素内容,通过关键词查找、独立词合并、同义词替换进行模块化的数据处理,得到要素文本;
[0010]步骤4:获取由字母与数字生成的随机码,将所述要素文本与所述随机码建立一一映射关系,把整条文本转化为编码结构信息;
[0011]步骤5:对所述编码结构信息,通过归并相同编码的商品申报文本,查找出具有不同商品编号的进出口商品申报文本,并认为其存在商品归类异常风险。
[0012]进一步的,所述步骤1使用正则表达式对进出口商品申报文本进行数据清洗。
[0013]进一步的,所述步骤2具体实现方式为:
[0014]步骤21.按照所述“海关进出口商品申报要素目录”,对所述进出口商品申报文本进行拆分,而后建立一一对应关系;
[0015]步骤22.根据在“章节”和单个章节中的“出现顺序”赋予一个4位的编码,所述“章节”编码从“01”至“98”,所述出现顺序编码从“01”数字表示到“a0”混合表示,最后到“zz”字母表示。一个“申报要素”编码例子为“05b7”;
[0016]步骤23.要素顺序按照章节不同,小章节排序在前大章节排序在后、同章节先出现的要素排在前面的规则,对“申报要素”和“要素内容”按照一样的顺序排序。
[0017]进一步的,所述步骤3具体实现方式为:
[0018]步骤31.将要素内容送入关键词查找模块进行关键词替换:当前要素存在关键词时,整个要素内容将被替换为关键词;
[0019]步骤32.将要素内容送入独立词查找模块进行独立词合并:当前要素经过分词操作后,如果该要素存在独立词,则将被可能拆分成几个部分的独立词合并;
[0020]步骤33.将要素内容送入同义词替换模块:该模块将归并单个“申报要素”下的所有“要素内容”,通过BERT预训练语言模型,对“要素内容”做词向量表示,然后计算所述词向量之间的余弦值,该值越大,证明两个词语语义越接近;设定余弦值大于阈值的词语为同义词,然后进行同义词替换。
[0021]进一步的,所述步骤4具体实现方式为:
[0022]步骤41.设定随机码标识位数;
[0023]步骤42.从数字+大写字母+小写字母库中随机生成固定位数的随机码;
[0024]步骤43.判断要素文本在数据库中是否存在对应的随机码,如果存在,则将该段要素文本转化为随机码;如果不存在,则选择一个随机码与该段文本建立映射关系并存入库中,该段文本也将被对应的随机码替换。
[0025]进一步的,所述步骤5整合所有编码后的要素文本,逐要素进行同码归并,当出现整条文本的随机码都相同时,判断其商品编号是否一致,如果出现不一致的情况,则认定除申报了正确商品编号以外其他的文本,存在错误申报情况。
[0026]本专利技术由于采用以上技术方案,能够取得如下的技术效果:本专利技术通过使用多模组的文本

随机码转换逻辑,实现了在申报要素内容离散,商品属性文字描述不规范的前提下对海关进出口商品文本进行归类,提高了海关商品查验效率和效果的同时,降低了海量数据的存储规模。
附图说明
[0027]图1为一种海关进出口商品归类方法流程示意图。
具体实施方式
[0028]下面结合附图和具体实施例对本专利技术作进一步详细的描述:以此为例对本申请做进一步的描述说明。
[0029]实施例1
[0030]在海关进出口商品归类过程中,应该利用好海关专业领域知识库在文本处理过程中的作用。基于规则引擎的数据处理可以最大程度保持数据的专注性,降低数据在处理过程中产生的噪音和语义污染。基于海关文本的特点以及海关进出口商品归类任务中的问题,参见图1,本申请提供一种海关进出口商品归类方法:首先按照商品编号前四位,找出该申报商品对应的“海关申报要素目录”。对海关进出口商品申报文本按照要素目录进行拆分、排序处理。接着通过知识采集模块:关键词查找、独立词合并、同义词替换进行模块化的数据处理。其中同义词替换模块,使用BERT模型进行词间余弦夹角判断。然后通过由字母与数字生成的随机码,对要素文本与随机码建立映射关系,将整条文本转化为编码结构,最后通过“同码”归并操作查找出“异归类”的进出口商品。本申请使用多模组的文本

随机码转换逻辑,有效解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模组文本智能编码算法的海关进出口商品归类方法,其特征在于,具体包括:步骤1:对进出口商品申报文本进行数据清洗,按照商品编号前4位,定位进出口商品对应的“海关进出口商品申报要素目录”;步骤2:按照所述“海关进出口商品申报要素目录”,对所述进出口商品申报文本进行拆分形成要素内容,该要素内容一一对应于“要素目录”,并对其进行排序;步骤3:针对要素内容,通过关键词查找、独立词合并、同义词替换进行模块化的数据处理,得到要素文本;步骤4:获取由字母与数字生成的随机码,将所述要素文本与所述随机码建立一一映射关系,把整条文本转化为编码结构信息;步骤5:对所述编码结构信息,通过归并相同编码的商品申报文本,查找出具有不同商品编号的进出口商品申报文本,并认为其存在商品归类异常风险。2.根据权利要求1所述一种基于多模组文本智能编码算法的海关进出口商品归类方法,其特征在于,所述步骤1使用正则表达式对进出口商品申报文本进行数据清洗。3.根据权利要求1所述一种基于多模组文本智能编码算法的海关进出口商品归类方法,其特征在于,所述步骤2具体实现方式为:步骤21.按照所述“海关进出口商品申报要素目录”,对所述进出口商品申报文本进行拆分,而后建立一一对应关系;步骤22.根据要素在“章节”和单个章节中的“出现顺序”赋予一个4位的编码,所述“章节”编码从“01”至“98”,所述出现顺序编码从“01”数字表示到“a0”混合表示,最后到“zz”字母表示;步骤23.按照要素顺序章节不同,小章节排序在前大章节排序在后、同章节先出现的要素排在前面的规则,对“申报要素”和“要素内...

【专利技术属性】
技术研发人员:张强周成杰车超周东生
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1