当前位置: 首页 > 专利查询>深圳大学专利>正文

一种海关进出口商品的申报质量评估方法技术

技术编号:36464244 阅读:11 留言:0更新日期:2023-01-25 23:04
本发明专利技术涉及数据挖掘技术领域,公开了一种海关进出口商品的申报质量评估方法,包括以下步骤:S1、先对报关单数据集进行数据预处理,先通过基于Laplacian图谱的短文本聚类算法,将要素内容聚为若干个簇,并采用水库抽样的方式对每个簇进行抽样;S2、再嵌入基于类中心的样本删减策略,进一步减少候选标记样本集的样本量;S3、采用FastText模型,并引入不等概率的神经元丢弃法,对短文本进行二分类,可以对每张报关单计算要素对应上的平均概率,从而完成海关进出口商品的申报质量评估。本发明专利技术既不过分依赖于某些规则,也不需要消耗大量人工进行审核,有效地避免了不规范申报,实现自动识别报关单质量并实时预警的功能,满足了海关监察偷税漏税现象的业务需求。税漏税现象的业务需求。税漏税现象的业务需求。

【技术实现步骤摘要】
一种海关进出口商品的申报质量评估方法


[0001]本专利技术涉及数据挖掘
,具体是一种海关进出口商品的申报质量评估方法。

技术介绍

[0002]报关单质量评估是中国海关智慧纪检的一个重要研究问题,中国海关在报关单审核方面,往往过度依赖以往经验进行机械式的电子审查,甚至每一单都会经过人工审核,这给海关的审核部门带来了极大的工作量,在此情况下,审核人员难免会出现一些差错,导致了不法分子利用不规范申报的方式,申报一个更低税率的商品编号而不被察觉,从中带来的极大税差作为他们的不法利润。
[0003]目前海关在报关单查验方面包括了电子查验、人工审核、现场接单审核等,但经过对真实的过往报关单的探究,依旧发现了大量不规范申报的案例,说明海关的查验依旧存在很大的问题,其原因在于电子查验过于机械化和经验化,以及人工查验过程中存在侥幸心理,甚至出现海关官员受贿的现象,从而未能实现精准查验;中国专利公开了一种基于知识图谱与树模型构造的海关检测生成方法(公告号CN111753928A),该专利技术建立了有效指标特征构建的规则系统,但是其旧过度依赖于专家规则,这些信息往往很难与时俱进,不法分子可能会试探性地摸清这个规则系统,通过设计新的不规范申报方案谋取利益;中国专利还公开了海关查验监控方法、装置、计算机设备和存储介质(公告号CN111798092A),该专利技术能够及时发现海关查验中的异常情况,但是其仅仅考虑了工作人员在查验时的异常,并未对报关单本身进行探究,而事实上许多时候出现的问题都归咎于报关单本身的申报质量。

技术实现思路

[0004]本专利技术的目的在于提供一种海关进出口商品的申报质量评估方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:
[0006]一种海关进出口商品的申报质量评估方法,包括以下步骤:
[0007]S1、先对海关进出口商品的报关单数据集进行数据预处理,再采用等概率两阶段抽样方法将报关单样本集训练成视野广阔的候选标记样本集;在该抽样方法中,先通过基于Laplacian图谱的短文本聚类算法,将要素内容聚为若干个簇,要素内容即短文本,并采用水库抽样的方式对每个簇进行抽样;
[0008]S2、再嵌入基于类中心的样本删减策略,实现分类效果基本不改变的情况下,进一步减少候选标记样本集的样本量,;
[0009]S3、采用FastText模型,并引入不等概率的神经元丢弃法,对短文本进行二分类,抑制过拟合的同时保持准确高效的性能;经过短文本二分类后,对于每个商品编号下的商品,都将其打标为0或1,其中1表示与要素表相对应,即规范申报,0则表示与要素表不对应,
即不规范申报,输出打标为1(规范申报)的概率;从而可以对每张报关单计算要素对应上的平均概率,即报关单的质量得分,进而完成海关进出口商品的申报质量评估。
[0010]作为本专利技术再进一步的方案:所述海关进出口商品的报关单数据集包括要素表和报关单;
[0011]所述要素表中记录每种商品编号对应的要素列表;
[0012]所述报关单中的不同种类商品拥有不同的商品编号,每种商品编号对应一种要素顺序,且报关单上有用的字段为“商品名称及规格型号”,其中包含的申报要素为品名、品牌、规格,规范申报时需将要素顺序和数量与要素表保持一致。
[0013]作为本专利技术再进一步的方案:所述S1步骤中的数据预处理包括要素提取与要素数量筛选,
[0014]所述要素提取的流程如下:对报关单中的“商品名称及规格型号”字段的内容进行字符串拆分,每个报关单得到一组要素字段;
[0015]所述要素数量筛选的流程如下:通过要素字段得到报关单要素数据,并判断报关单的要素数据的数量与对应要素表中的要素列表内的数量是否一致,当一致时,则生成报关单样本集,否则判断为不规范数据。
[0016]作为本专利技术再进一步的方案:所述S1步骤中的等概率两阶段抽样方法包括以下步骤:
[0017]S11、针对报关单样本集中的每一种要素样本集,先取频数最高的前P%作为直接纳入训练样本;
[0018]S12、再通过基于Laplacian图谱的短文本聚类算法,对剩余1

P%的样本进行文本聚类,将要素内容聚为若干个簇,然后在每个簇中随机抽样Q%;其中,P%和Q%可在0和1之间进行调节;
[0019]在每个簇中的随机抽样中,采用水库抽样方法进行实现;设定S[N]为样本集合、R[K]为结果集合、N为S数组的大小、J为每次的随机数、K为抽取的样本数、i为迭代次数。
[0020]作为本专利技术再进一步的方案:所述水库抽样的实现方法包括以下步骤:
[0021]S111、取S集合中前K个数填入集合R;
[0022]S112、从S[K]开始遍历,生成随机数J,范围为[0,K+i

1];若J<K,则替换R中的值,即R[j]=S[i];
[0023]S113、遍历结束,生成结果数组R;最终得到报关单候选标记样本集D
i

[0024]作为本专利技术再进一步的方案:所述S2步骤中基于类中心的样本删减策略的处理流程如下:
[0025]对于每个簇C
i
,求出C
i
的簇中心:
[0026][0027]上式(1)其中,D
i
为簇C
i
中的样本集合,d
j
为d的第j维,Center
i
维第i个簇中心,Center
ij
为Center
i
的第j维,n为D
i
中的数据数目;
[0028]接着,计算簇C
i
中各个样本点到簇中心Center
i
的距离:
[0029][0030]由此,得到D
i
中各个样本点到簇中心Center
i
的距离集合Dis,将其按顺序排列,取距离近的M
×
L个样本得到对应点集E
i
,对E
i
进行删减,每M个样本取中心留下,其余删去,得到L个样本点集合F
i
;最终的训练样本集为:
[0031]D
i
=(D
i

E
i
)∪F
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0032]作为本专利技术再进一步的方案:所述S1步骤中基于Laplacian图谱的短文本聚类算法的流程如下:
[0033]S21、利用NLTK工具包,对数据集进行处理:依次为标记化分词,去除停用词,词性标注,词干提取;
[0034]S22、特征提取:先将预处理后的数据集映射到向量空间,转换为TF

IDF词频矩阵Q;再算词频矩阵Q的Laplacian矩阵L;再求L的前K个特征值对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种海关进出口商品的申报质量评估方法,其特征在于,包括以下步骤:S1、先对海关进出口商品的报关单数据集进行数据预处理,再采用等概率两阶段抽样方法将报关单样本集训练成视野广阔的候选标记样本集;在该抽样方法中,先通过基于Laplacian图谱的短文本聚类算法,将要素内容聚为若干个簇,要素内容即短文本,并采用水库抽样的方式对每个簇进行抽样;S2、再嵌入基于类中心的样本删减策略,实现分类效果基本不改变的情况下,进一步减少候选标记样本集的样本量;S3、采用FastText模型,并引入不等概率的神经元丢弃法,对短文本进行二分类,抑制过拟合的同时保持准确高效的性能;经过短文本二分类后,对于每个商品编号下的商品,都将其打标为0或1,其中1表示与要素表相对应,即规范申报,0则表示与要素表不对应,即不规范申报,输出打标为1(规范申报)的概率;从而可以对每张报关单计算要素对应上的平均概率,即报关单的质量得分,进而完成海关进出口商品的申报质量评估。2.根据权利要求1所述的一种海关进出口商品的申报质量评估方法,其特征在于,所述海关进出口商品的报关单数据集包括要素表和报关单;所述要素表中记录每种商品编号对应的要素列表;所述报关单中的不同种类商品拥有不同的商品编号,每种商品编号对应一种要素顺序,且报关单上有用的字段为“商品名称及规格型号”,其中包含的申报要素为品名、品牌、规格,规范申报时需将要素顺序和数量与要素表保持一致。3.根据权利要求2所述的一种海关进出口商品的申报质量评估方法,其特征在于,所述S1步骤中的数据预处理包括要素提取与要素数量筛选,所述要素提取的流程如下:对报关单中的“商品名称及规格型号”字段的内容进行字符串拆分,每个报关单得到一组要素字段;所述要素数量筛选的流程如下:通过要素字段得到报关单要素数据,并判断报关单的要素数据的数量与对应要素表中的要素列表内的数量是否一致,当一致时,则生成报关单样本集,否则判断为不规范数据。4.根据权利要求1所述的一种海关进出口商品的申报质量评估方法,其特征在于,所述S1步骤中的等概率两阶段抽样方法包括以下步骤:S11、针对报关单样本集中的每一种要素样本集,先取频数最高的前P%作为直接纳入训练样本;S12、再通过基于Laplacian图谱的短文本聚类算法,对剩余1

P%的样本进行文本聚类,将要素内容聚为若干个簇,然后在每个簇中随机抽样Q%;其中,P%和Q%可在0和1之间进行调节;在每个簇中的随机抽样中,采用水库抽样方法进行实现;设定S[N]为样本集合、R[K]为结果集合、N为S数组的大小、J为每次的随机数、K为抽取的样本数、i为迭代次数。5.根据权利要求4所述的一种海关进出口商品的申报质量评估方法,其特征在于,所述水库抽样的实现方法包括以下步骤:S111、取S集合中前K个数填入集合R;S112、从S[K]开始遍历,生成随机数J,范围为[0,K+i

1];若J<K,则替换R中的值,即R[j]=S[i];
S113、遍历结束,生成结果数组R;最终得到报关单候选标记样本集D
i
。6.根据权利要求1所述的一种海关进出口商品的申报质量评估方法,其特征在于,所述S2步骤中基于类中心的样本删减策略的处理流程如下:对于每个簇C
i
,求出C
i
的簇中心:上式(1)其中,D
i
为簇C
i
中的样本集合,d
j
为d的第j维,Center
i
维第i个簇中心,Center
ij
为Center
i
的第j维,n为D
i
中的数据数目;接着,计算簇C
i
中各个样本点到簇中心Ce...

【专利技术属性】
技术研发人员:包先雨李俊杰蔡屹黄孙杰黄鹏罗子鸣邓鹤文马乐铭于鼎张育铭
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1