一种海关报关单据信息风险规则生成方法及系统技术方案

技术编号:38426089 阅读:10 留言:0更新日期:2023-08-07 11:23
本发明专利技术公开了一种海关报关单据信息风险规则生成方法及系统,属于数据挖掘技术领域。本发明专利技术提供一种海关报关单据信息风险规则生成方法:S1、生成风险间隔周期;S2:生成风险规则;S3、审核风险规则;S4:管理风险规则;一种海关报关单据信息风险规则生成系统,包括后台管理模块、风险规则生成模块、风险规则审核模块和风险规则管理模块,所述后台管理模块的输出端与所述风险规则生成模块的输入端相连接,所述风险规则生成模块的输出端与所述风险规则审核模块的输入端相连接,所述风险审核规则模块的输出端与所述风险规则管理模块的输入端相连接;该发明专利技术可以在满足大规模数据下风险规则生成的时间和空间需求,提高数据挖掘效率。提高数据挖掘效率。提高数据挖掘效率。

【技术实现步骤摘要】
一种海关报关单据信息风险规则生成方法及系统


[0001]本专利技术涉及数据挖掘
,具体为一种海关报关单据信息风险规则生成方法及系统。

技术介绍

[0002]自我国加入世界贸易组织,海关进口贸易出现大幅增长,根据中国海关的统计,我国2022年进口货物贸易额18.1万亿元,进口规模再次创造历史新高,为海关安全准入货物入境查验带来非常大的挑战。在进口规模体量激增、贸易主体数量增长以及通关时间紧张的影响下,目前海关在货物入境查验上面临人工资源紧张、风险查验效率低、查验压力大的问题,海关需要进一步提高查验效率并推动智能化建设。
[0003]目前关于提高海关风险查验效率的研究主要是从流程简化与管理等角度出发的,无法真正缓解海关大量的入境查验需求。针对该问题,海关方面采用基于专家经验的风险规则辅助查验,解决安全准入场景下货物入境的查验需求,一线业务人员利用风险规则作为查验依据对货物入境的风险性进行判断,提高通关查验效率。此外,基于风险规则的查验方法具有重要的意义,为口岸负责查验的业务人员提供风险研判的基础规则支撑。海关方面提出拟采用关联规则等机器学习方法,基于报关单查验数据进行风险规则的自动挖掘工作。
[0004]风险规则自动挖掘算法可以从报关单查验黑样本中发现潜在风险因素,自动发现挖掘产生共性较强的风险规则,解决专家规则数量少、可扩展性低的问题,降低对专家的依赖程度。目前的海关风险规则挖掘算法难以满足较大规模的报关单查验数据要求,在时间效率、空间效率上仍需改进。

技术实现思路

[0005]本专利技术的目的在于提供一种海关报关单据信息风险规则生成方法及系统,以解决上述
技术介绍
中提出的问题。
[0006]为了解决上述技术问题,本专利技术提供如下技术方案:
[0007]一种海关报关单据信息风险规则生成方法:该方法包括以下步骤:
[0008]S1、根据时间周期,设置定期生成的间隔周期,输出所述间隔周期;
[0009]S2、根据动态权值Can

Tree海关风险规则增量挖掘算法(DDWCT)和所述间隔周期,生成风险规则;
[0010]S3、对所述风险规则进行审核,审核所述风险规则的有效性,输出有效风险规则;
[0011]S4、对所述有效风险规则进行维护与管理。
[0012]在步骤S2中,动态权值Can

Tree海关风险规则增量挖掘算法(DDWCT)包括:
[0013]S2

1、根据海关大数据资源池和查验系统获取海关报关单数据,处理所述海关报关单数据,生成Can

Tree;
[0014]根据海关大数据资源池和查验系统获取货物入境相关报关单数据及查验放行结
=1,α为所述服务器处理器的权重因子,β为所述内存规则B的权重因子,ω为所述硬盘规格C的权重因子、ψ为所述带宽大小D的权重因子;
[0037]S5

2、获取节点的处理器占用率U
A
,内存使用率U
B
,磁盘使用率U
C
,带宽使用率U
D
,计算节点动态负载性能:D
i
=α
A
U
Ai

B
U
Bi

C
U
Ci

D
U
Di
,α
A
为所述处理器占用率U
A
的权重系数,β
B
为所述内存使用率U
B
的权重系数,ω
C
为所述磁盘使用率U
C
的权重系数,ψ
D
为所述带宽使用率U
D
的权重系数;
[0038]S5

3、获取所述节点的响应时间t
i
,连接数q
i
,集群节点总连接数Q,节点平均响应时间计算节点N
i
的负载权重:
[0039]S5

4、根据所述负载权重,划分服务器区间,生成服务器节点区间序列L={L1,L2,
……
,L
k
};
[0040]S5

5、根据所述计算量预估值和所述服务器节点区间序列,生成所述负载均衡策略。
[0041]在步骤S2

4中,生成并行挖掘方案包括:
[0042]S6

1、在每个服务器节点上分别构建子Can

Tree,每个子Can

Tree在各自节点上记为原始Can

Tree;
[0043]S6

2、增量数据更新时,分配到各个子节点中,基于上一轮的所述原始Can

Tree,构建新的增量Can

Tree。
[0044]在步骤S2

5中,生成所述风险规则包括:
[0045]读取原始事务数据集:Spark通过textFile从分布式文件存储系统HDFS中读取原始事务数据集,并将数据转换成RDD;
[0046]构建全量频繁1

项集:通过flatMap、map进行RDD数据的扁平化和映射,生成键值对<key,frequency>,其中key表示事务,frequency表示该事务在原始事务集中出现的次数,经由reduceByKey、collect处理得到全量的频繁1

项集(F1

list)。为了维持Can

Tree算法“一次构建多次挖掘”的特点,基于原始事务数据库得到的F1

list不必经过最小支持度的筛选,实现全量Can

Tree的构建,方便后续增量数据的插入;
[0047]结合数据项深度与广度的计算量负载均衡策略:根据数据项在F1

list中的位置预估计算量,记为Cal<item,size>,根据设定的分组,按照size从大到小的方式将数据项并入最小的分组;
[0048]基于服务器动态负载能力的负载均衡策略实现计算任务分配;
[0049]服务器集群执行DWCT算法:通过负载均衡策略将原始事务数据均匀分配给节点,进行Can

Tree的构建与挖掘,最后得到局部频繁项集;
[0050]构建全局频繁项集:根据各个节点生成的频繁项集local<frequency_list,frequency>,由Spark执行map算子映射所有节点的频繁项集,按照frequency_list长度分层,汇总构建k个层次的频繁项集global<k,frequency_list&a本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种海关报关单据信息风险规则生成方法,其特征在于:该方法包括以下步骤:S1、根据时间周期,设置定期生成的间隔周期,输出所述间隔周期;S2、根据动态权值Can

Tree海关风险规则增量挖掘算法和所述间隔周期,生成风险规则;S3、对所述风险规则进行审核,审核所述风险规则的有效性,输出有效风险规则;S4、对所述有效风险规则进行维护与管理。2.根据权利要求1所述的一种海关报关单据信息风险规则生成方法,其特征在于:在步骤S2中,动态权值Can

Tree海关风险规则增量挖掘算法包括:S2

1、根据海关大数据资源池和查验系统获取海关报关单数据,处理所述海关报关单数据,生成Can

Tree;S2

2、根据所述Can

Tree中的数据项,计算所述数据项的计算量预估值;S2

3、计算所述Can

Tree的节点性能,输出负载均衡策略;S2

4、根据所述计算量预估值和所述负载均衡策略,生成并行挖掘方案;S2

5、根据所述并行挖掘方案,生成所述风险规则。3.根据权利要求2所述的一种海关报关单据信息风险规则生成方法,其特征在于:在步骤S2

1中,处理所述海关数据包括:S3

1、对所述海关报关单数据进行去重操作,得到去重海关报关单数据;S3

2、获得所述去重海关报关单数据的数值型数据属性,通过聚类算法进行划分,获得特征区间;S3

3、根据所述特征区间,构建所述数值型数据属性的模糊值,所述模糊值为所述风险规则的部分表示属性;S3

4、将单一的所述数值型数据属性进行组合,生成扩展属性;S3

5、将所述部分表示属性和所述扩展属性作为所述海关报关单数据的数据属性;S3

6、对所述数据属性进行权值分配,建立对应所述数据属性的权值网络;S3

7、根据所述权值网络,排序所述数据属性,获得所述数据属性的重要性排序;S3

8、根据所述重要性排序,计算动态支持度,生成数据项动态支持度;S3

9、将所述数据项动态支持度进行逆序排序,得到数据项动态风险权值排序顺序。4.根据权利要求3所述的一种海关报关单据信息风险规则生成方法,其特征在于:在步骤S2

2中,计算所述数据项的计算量预估值包括:S4

1、根据所述数据项动态风险权值排序顺序,生成全量频繁1

项集F1

list;S4

2、获取数据项i在所述路径F1

list中的顺序L
di
,获取所述全量频繁1

项集F1

list的总长度L
d
,计算深度计算量预估值C
di
:S4

3、获取所述数据项i在所述Can

Tree中所处的分支数E
bi
,获取所述数据项i在所述Can

Tree中所处的总分支数E
b
,获得计算量预估值C
i
:λ为所述分支数E
bi
的权重因子,μ为所述总分支数E
b
的权重因子。5.根据权利要求4所述的一种海关报关单据信息风险规则生成方法,其特征在于:在步骤S2

3中,输出负载均衡策略包括:
S5

1、获取集群的节点数量N,服务器处理器的核心数A1,所述服务器处理器的线程数A2,所述服务器处理器的主频A3,内存规则B,硬盘规格C,带宽大小D,计算服务器P
i
的静态性能:其中a1为所述核心数A1的权重因子,a2为所述线程数A2的权重因子,a3为所述主频A3的权重因子,且a1+a2+a3=1,α为所述服务器处理器的权重因子,β为所述内存规则B的权重因子,ω为所述硬盘规格C的权重因子、ψ...

【专利技术属性】
技术研发人员:廖梦洁张健韩定李博于志文宋罗娜
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1