System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于图像文本组合检索的海关进出口商品归类方法技术_技高网

一种基于图像文本组合检索的海关进出口商品归类方法技术

技术编号:40531938 阅读:9 留言:0更新日期:2024-03-01 13:52
本发明专利技术公开了一种基于图像文本组合检索的海关进出口商品归类方法,步骤如下:1)建立海关商品图像文本数据库;2)对图像进行去噪和数据增强操作,对文本数据进行分词、去除停用词和向量化操作;3)使用卷积神经网络提取图像的低、中、高层特征,使用长短期记忆神经网络提取商品文本特征;4)将图像低、中、高层特征与文本特征融合;5)将海关商品图像文本数据库的图像文本数据输入到模型,得到海关商品融合特征,随机抽样获得训练数据集,使用三元组损失函数对模型进行训练;6)进行待检索商品的归类,本发明专利技术实现海关进出口商品文本描述信息和图像信息的组合使用,辅助相关企业和海关人员快速准确地对不同的进出口商品进行归类。

【技术实现步骤摘要】

本专利技术涉及计算机多模态检索和海关进出口商品归类,具体涉及一种商品图像和文本两种模态组合检索得到海关税则编码的方法。


技术介绍

1、在海关进出口商品归类领域,海关商品归类规则复杂,影响因素众多。在其他条件相同的情况下,其中某个因素发生变化就可能得到不正确的海关税则编码(hs编码)。而不正确的商品归类会导致不同的处罚结果,比如通关延误、商品扣押、拒绝享有某些进出口的权益等。因此,对海关商品进行准确地归类是一项极其重要且具有挑战性的工作。

2、目前海关商品归类的一般工作形式是使用进出口商品的申报文本(例如商品名称、成分、用途等信息)进行识别和归类。然而,由于海关执法人员和进出口业务人员专业水平不同,即使是对同一种商品,不同人员之间的描述也会存在一定的差异,这导致了商品的归类及后续报税退税工作很容易出现错误。因此通过单一的文本检索,很难得到准确的hs编码。

3、随着互联网技术的发展和数字设备的普及,图像检索技术在计算机视觉和人工智能相关的各个领域得到了迅速发展和应用:商品图像检索可以帮助顾客更快更准确地找到自己喜欢的商品;医学图像检索可以帮助医生更有效地进行医疗诊断等。然而,图像检索技术应用于海关进出口商品归类领域是极具挑战的:首先,海关基本上没有建立起可靠的进出口商品图像数据集,建立相关图像数据集意味着要对当前的进出口报关流程进行修改;其次,来自同一品牌的商品可能有不同的规格,它们通常具有相似的外观但hs编码不同;最后,由于手机或相机拍摄商品时可能会出现图像失真问题,而在上传时可能还会经过拉伸、旋转、压缩等二次操作,这会进一步导致图像失真。因此,通过单一的图片检索很难获得准确的hs编码。

4、单一文本检索或者单一图片检索都有着自身的局限性。文本因为不同人的表达能力和习惯不同,这会造成信息丢失、语义不明等问题。图像规模的日益增加,导致了相似图片的激增,使得检索结果中往往会有很多不符合需求的图片。因此,充分利用两种模态间的信息,互相补充,避免落入单一模态的局限困境,对于提升海关进出口商品归类准确性具有重要意义。


技术实现思路

1、本专利技术的目的在于,提供一种基于图像文本组合检索的海关进出口商品归类方法,实现海关进出口商品文本描述信息和图像信息的组合使用,辅助相关企业和海关人员快速准确地对不同的进出口商品进行归类。

2、为解决上述技术问题,本专利技术提供了一种图像文本组合检索的方法,充分利用这两种模态间的互补信息,以提高对海关进出口商品的归类准确率。

3、本专利技术技术方案如下:

4、一种基于图像文本组合检索的海关进出口商品归类方法,包含如下步骤:

5、步骤1:构建海关商品图像文本采集模块,建立海关商品图像文本数据库,存储海关商品图像和对应的商品文本描述信息。

6、步骤2:构建海关商品图像文本数据预处理模块,对图像进行去噪和数据增强操作,统一图像的格式和大小。对文本进行分词、去除停用词和向量化操作。

7、步骤3:构建海关商品图像文本特征提取模块,使用卷积神经网络作为商品图像特征编码器,提取图像的低、中、高层特征。使用长短期记忆神经网络对商品文本进行编码,提取商品描述信息的文本特征。

8、步骤4:构建海关商品图像文本特征多模态融合模块,将步骤3中的图像低、中、高层特征与文本特征融合得到低、中、高层图像文本融合特征。

9、步骤5:构建海关商品图像文本组合检索模型,包含海关商品图像文本数据预处理模块、特征提取模块、多模态融合模块。将海关商品图像文本数据库的图像文本数据输入到模型,得到海关商品融合特征,随机抽样获得训练数据集,使用三元组损失函数对模型进行训练。

10、步骤6:进行待检索商品的归类,将待检索商品的图像和文本输入到海关商品图像文本组合检索模型中,得到待检索商品的图像文本融合特征,将其与海关商品融合特征进行分层匹配和相似度计算,根据相似度匹配结果得到待检索商品的hs编码候选结果集,完成对商品的归类。

11、进一步地,在步骤1构建海关商品图像文本采集模块中,海关商品图像文本数据库中的商品图像数据和文本描述数据是一一对应的,文本描述数据包含商品名称、hs编码,数据采集具体包含如下步骤:

12、1.1)企业报关员在申报时需同时上传商品描述文本和图片,后台自动采集商品图片和申报填写的商品名称及hs编码,存入海关商品图像文本数据库中。

13、1.2)在海关现场查验环节中,需要比对海关商品图像文本数据库中的商品图像,确认是否为该商品。如果海关商品图像文本数据库不存在该商品,则人工进一步确认审核后,采集该商品的图像、商品名称、hs编码,存入海关商品图像文本数据库中。

14、进一步地,在步骤2构建海关商品图像文本数据预处理模块中,对图像进行去噪和数据增强操作,统一图像的格式和大小。对文本进行分词、去除停用词和向量化操作。具体过程包括如下步骤:

15、2.1)对商品图像进行去噪和标准化,统一图像的格式和大小。对去噪后的图像,使用随机裁剪、仿射变换、亮度调整进行数据增强,提高图像数据的广泛性。

16、2.2)使用nlpir自然语言分词系统对文本进行分词,再对文本去除停用词(通常是指在文本处理过程中无需考虑的词汇),得到一个单词字典。字典中每个单词的值代表它在所有句子中出现的频率等级,最后使用glove将文本转换为词向量。

17、进一步地,在步骤3构建海关商品图像文本特征提取模块中,使用resnet-18作为商品图像特征编码器,提取图像的低、中、高层特征。使用lstm对商品文本进行编码,获得商品描述信息的文本特征。具体过程包含如下步骤:

18、3.1)使用resnet-18卷积神经网络作为商品图像特征编码器,在resnet-18的浅层网络提取低层特征作为图像的低层特征l,在resnet-18的中层网络提取中层特征作为图像的中层特征m,在resnet-18的高层网络提取高层特征作为图像的高层特征h:

19、f={l,m,h}=resnet(m)#(1)

20、其中,f为图像m的低(l)、中(m)、高(h)层图像特征集合。

21、3.2)将步骤2.2得到的文本词向量输入到lstm神经网络中,进行词编码,从而得到整个文本的特征向量t。

22、进一步地,在步骤4中构建海关商品图像文本特征多模态融合模块,具体过程包括如下步骤:

23、4.1)将文本特征t通过复制进行扩充,使其与图像特征维度相同。

24、4.2)将步骤3中的低、中、高层图像特征l、m、h与文本对应元素相乘,得到图像文本特征的联合表示:lt、mt、ht。

25、4.3)使用sigmoid函数、卷积和去均值归一化进行优化。

26、进一步地,在步骤5中构建海关商品图像文本组合检索模型,包含海关商品图像文本数据预处理模块、特征提取模块、多模态融合模块,将海关商品图像文本数据本文档来自技高网...

【技术保护点】

1.一种基于图像文本组合检索的海关进出口商品归类方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于图像文本组合检索的海关进出口商品归类方法,其特征在于,所述步骤1)具体步骤为:

3.如权利要求1所述的一种基于图像文本组合检索的海关进出口商品归类方法,其特征在于,所述步骤2)具体步骤为:

4.如权利要求1所述的一种基于图像文本组合检索的海关进出口商品归类方法,其特征在于,所述步骤3)具体步骤为:

5.如权利要求1所述的一种基于图像文本组合检索的海关进出口商品归类方法,其特征在于,所述步骤4)具体步骤为:

6.如权利要求1所述的一种基于图像文本组合检索的海关进出口商品归类方法,其特征在于,所述步骤5)具体步骤为:

7.如权利要求1所述的一种基于图像文本组合检索的海关进出口商品归类方法,其特征在于,所述步骤6)具体步骤为:

【技术特征摘要】

1.一种基于图像文本组合检索的海关进出口商品归类方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于图像文本组合检索的海关进出口商品归类方法,其特征在于,所述步骤1)具体步骤为:

3.如权利要求1所述的一种基于图像文本组合检索的海关进出口商品归类方法,其特征在于,所述步骤2)具体步骤为:

4.如权利要求1所述的一种基于图像文本组合检索的海关进出口商品归类方...

【专利技术属性】
技术研发人员:杨良怀秦钰淑朱艳超龚卫华范玉雷傅萧磊贾美项逸婧朱辰蔡华
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1