【技术实现步骤摘要】
报关单商品信息的处理方法及系统、存储介质及电子设备
本专利技术涉及数据处理
,具体为一种报关单商品信息的处理方法及系统、存储介质及电子设备。
技术介绍
自2017年7月1日起,中国海关开始实施全国通关一体化,构建一个海关大数据平台,在海关大数据平台的建设中,规范的数据处理就显得尤为重要,这是因为数据处理会直接影响到数据建模和分析结果的好坏。其中,商品归类是海关报关单数据处理分析的关键。因为,商品归类错误可能会导致税率低报、价格低报。传统方法中,海关的商品归类是报关单位填报、海关人工审核的方式,效率非常低下,且需要大量的人工投入。也有人提出通过机器自动化识别归类的方式,将报关单商品信息进行机器自动化归类,但是基于技术的限制,目前只能实现基于不同税号的大分类,而一个税号下通常有几百种不同的商品,为了实现更准确的分类,还是需要人工的配合,效率依然低下。
技术实现思路
本专利技术的目的是提供一种报关单商品信息的处理方法及系统,可以实现全自动化商品归类,提高报关单商品信息的处理效率。为达到上述 ...
【技术保护点】
1.一种报关单商品信息的处理方法,其特征在于,包括:/n获取若干份报关单数据表,所述报关单数据表中包括商品品牌和商品型号;/n基于自然语言处理技术提取出所述报关单数据表中包含的所有的商品品牌和商品型号;/n基于相似度算法确定出各商品品牌之间的相似度、各商品型号之间的相似度;/n通过所述各商品品牌之间的相似度、各商品型号之间的相似度,建立商品品牌与商品型号从属关系的贝叶斯网络,完成商品品牌与商品型号的归类。/n
【技术特征摘要】
1.一种报关单商品信息的处理方法,其特征在于,包括:
获取若干份报关单数据表,所述报关单数据表中包括商品品牌和商品型号;
基于自然语言处理技术提取出所述报关单数据表中包含的所有的商品品牌和商品型号;
基于相似度算法确定出各商品品牌之间的相似度、各商品型号之间的相似度;
通过所述各商品品牌之间的相似度、各商品型号之间的相似度,建立商品品牌与商品型号从属关系的贝叶斯网络,完成商品品牌与商品型号的归类。
2.根据权利要求1所述的报关单商品信息的处理方法,其特征在于,若提取出的商品品牌中同时包括中文品牌、英文品牌、中英文品牌中的任意两种或三种,则确定出同一商品中英文品牌之间的对应关系;
所述通过所述各商品品牌之间的相似度、各商品型号之间的相似度,建立商品品牌与商品型号从属关系的贝叶斯网络的步骤,包括:通过所述各商品品牌之间的相似度、各商品型号之间的相似度以及同一商品中英文品牌之间的对应关系,建立商品品牌与商品型号从属关系的贝叶斯网络。
3.根据权利要求2所述的报关单商品信息的处理方法,其特征在于,所述通过各商品品牌之间的相似度、各商品型号之间的相似度以及同一商品中英文品牌之间的对应关系,建立商品品牌与商品型号从属关系的贝叶斯网络,完成商品品牌与商品型号的归类的步骤,包括:
将相似度大于第一阈值的商品品牌聚类为同一类,同一类商品品牌下相似度大于第二阈值的商品型号聚类为同一类;
在同一类商品中,选取出现频率最高的商品品牌和商品型号,作为该类商品的正确商品品牌和正确商品型号;
根据同一类的商品品牌、商品型号以及正确商品品牌、正确商品型号建立从属关系的贝叶斯网络,完成商品品牌、商品型号归类。
4.根据权利要求1所述的报关单商品信息的处理方法,其特征在于,所述基于自然语言处理技术提取出所述报关单数据表中包含的所有商品品牌和商品型号的步骤,包括:
确定出报关单数据表中商品信息字段中可能出现商品品牌和商品型号的位置,提取出该位置的字段;
从提取的字段中筛选出符合预设规范的字段;
对所述符合预设规范的字段进行清洗,提取出所有的商品品牌和商品型号。
5.根据权利要求1所述的报关单商品信息的处理方法,其特征在于,所述获取若干份报关单数据表的步骤中,是以税号为单位,获取同一税号下的若干份报关单数据表。
6.根据权利要求1所述的报关单商品信息的处理方法,其特征在于,所述相似度算法为序列相似度算法,通过统计两个文...
【专利技术属性】
技术研发人员:史晓春,杨艾森,袁雨松,曾舒旻,
申请(专利权)人:成都数联铭品科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。