一种基于数据挖掘的海关企业风险评估方法技术

技术编号:38467005 阅读:10 留言:0更新日期:2023-08-11 14:44
本发明专利技术公开了一种基于数据挖掘的海关企业风险评估方法,采集海关企业信息作为元数据集,对元数据集进行预处理,将元数据集划分为结构化数据与非结构化数据进行存储;利用获取的结构化数据建立海关企业质检数据库;利用企业质检信息命名实体识别模型从非结构化数据中提取关键信息,进一步扩充海关企业质检数据库;基于海关企业质检数据库检索海关企业名称获得的检索结果,利用检索结果建立海关企业风险评估模型;将海关企业质检数据库中的数据作为训练样本,用于更新海关企业风险评估模型的参数;利用更新参数后的海关企业风险评估模型为海关企业设定企业风险标签。本发明专利技术解决了传统海关风险评估无法准确评估新注册企业风险等级和操作复杂等问题。等级和操作复杂等问题。等级和操作复杂等问题。

【技术实现步骤摘要】
一种基于数据挖掘的海关企业风险评估方法


[0001]本专利技术涉及数据挖掘领域,具体涉及一种基于数据挖掘的海关企业风险评估方法。

技术介绍

[0002]海关风险评估是海关风险管理的核心环节,是海关进行风险处置的主要依据。海关风险评估指海关通过收集分析风险相关信息,利用风险评估方法确定企业等风险客体的风险等级的,海关决策部门可以参考风险评估结果,采取相应的风险措施。
[0003]《中华人民共和国海关企业信用管理暂行办法》将企业分为高级认证、一般认证、一般信用和失信企业四类。
[0004]建立自动生成的企业画像可以让海关人员更清晰直观地获取重点关注企业信息和风险情况,辅助海关人员决策。

技术实现思路

[0005]有鉴于此,本专利技术提供一种基于数据挖掘的海关企业风险评估方法,解决传统的海关风险评估无法准确预估新注册企业的风险等级和操作复杂等问题。
[0006]本专利技术的目的是通过以下技术方案实现的:
[0007]该种基于数据挖掘的海关企业风险评估方法,包括以下步骤:
[0008]步骤S1:采集多个海关企业信息作为元数据集,对元数据集进行预处理,将元数据集划分为结构化数据与非结构化数据进行存储;
[0009]步骤S2:利用获取的结构化数据建立海关企业质检数据库;
[0010]步骤S3:利用企业质检信息命名实体识别模型从非结构化数据中提取关键信息,进一步扩充海关企业质检数据库;
[0011]步骤S4:基于海关企业质检数据库检索海关企业名称获得的检索结果,利用检索结果建立海关企业风险评估模型;
[0012]步骤S5:将海关企业质检数据库中的数据作为训练样本,用于更新海关企业风险评估模型的参数;
[0013]步骤S6:利用更新参数后的海关企业风险评估模型为海关企业设定企业风险标签。
[0014]本方案的有益效果是:本专利技术利用海量互联网数据,即使对于无历史记录的海关新注册公司同样适用,通过本专利技术自动生成企业画像,可以减少人工成本消耗,并能更加清晰直观地获取重点关注企业信息和风险情况,辅助海关人员进行决策。
[0015]进一步,所述步骤S1具体包括:
[0016]步骤S101:获取多个海关企业的信息;
[0017]步骤S102:对收集的表格类数据进行抽取、清洗、汇总得到结构化数据集;
[0018]步骤S103:对收集的文本类数据进行筛选、清洗、归纳得到非结构化数据集。
[0019]进一步,所述步骤S2包括:
[0020]步骤S201:根据需求与收集得到的结构化数据集,设计数据库、创建表结构、构建表间关系、实现数据安全性和维护数据完整性;
[0021]步骤S202:将收集的结构化数据集导入步骤S201设计的数据库中。
[0022]进一步,所述步骤S3包括:
[0023]步骤S301:基于处理后的非结构化数据集,构建企业质检信息命名实体识别模型;
[0024]步骤S302:将数据集输入企业质检信息命名实体识别模型,生成结构化的海关企业实体信息;
[0025]步骤S303:利用生成的结构化实体信息更新步骤S2设计的数据库。
[0026]进一步,所述步骤S302中企业质检信息命名实体识别模型包括:一个词向量预训练语言模型、一个双向长短期记忆网络模型和一个隐马尔可夫模型;
[0027]所述命名实体识别模型的输入端为词向量预训练语言模型的输入端;所述词向量预训练语言模型的输出端与双向长短期网络模型的输入端连接;所述双向长短期记忆网络模型的输出端与隐马尔可夫模型的输入端连接;所述隐马尔可夫模型的输出端作为命名实体识别模型的输出端;
[0028]所述词向量预训练语言模型具体包括:自注意力机制层、层归一化、全连接前馈网络层,其计算公式为:
[0029]V
n1
=X
·
W
n1
[0030]V
n2
=X
·
W
n2
[0031]V
n3
=X
·
W
n3
[0032][0033]Z=Concat(A1,
···
,A
n
)
·
W
z
[0034]V=Relu(Z)
·
W
v
+b
v
[0035]其中,V
n1
,V
n2
,V
n3
为第n次线性变换输出词向量矩阵,X为输入词向量矩阵,W
n1
,W
n2
,W
n3
为第n次线性变换输出词向量的权重参数;A
n
()为自注意力机制计算函数,Softmax()为归一化函数,N为输出词向量V
n2
的维度;Z为多头注意力机制输出,Concat()为自注意力拼接函数,W
z
为自注意力拼接函数的权重参数;V为词向量预训练语言模型输出的特征向量,Relu()为激活函数,W
v
和b
v
为词向量预训练语言模型中全连接层的权重参数和偏置参数。
[0036]所述双向长短期记忆网络模型具体包括向前长短期记忆网络层、向后长短期记忆网络层、合并层,其计算公式为:
[0037]I
t
=Sigmoid(W
vi
·
V
t
+H
t
‑1·
W
hi
+b
i
)
[0038]F
t
=Sigmoid(W
vf
·
V
t
+H
t
‑1·
W
hf
+b
f
)
[0039]O
t
=Sigmoid(W
vo
·
V
t
+H
t
‑1·
W
ho
+b
o
)
[0040][0041][0042]H
t
=O
t

tanh(C
t
)
[0043][0044]其中,I
t
为t时刻的输入门,Sigmoid()为激活函数,V
t
为t时刻词向量预训练语言模型输出的特征向量和双向长短期记忆网络模型输入向量,W
vi
和b
i
为输入向量在输入门单元的权重参数和偏置参数,H
t
‑1和W
hi
为上一时刻隐含层输出结果和权重参数;F
t
为t时刻的遗忘门,W
vf
和b
f
为输入向量在遗忘门单元的权重参数和偏置参数,W...

【技术保护点】

【技术特征摘要】
1.一种基于数据挖掘的海关企业风险评估方法,其特征在于:所述方法包括以下步骤:步骤S1:采集多个海关企业信息作为元数据集,对元数据集进行预处理,将元数据集划分为结构化数据与非结构化数据进行存储;步骤S2:利用获取的结构化数据建立海关企业质检数据库;步骤S3:利用企业质检信息命名实体识别模型从非结构化数据中提取关键信息,进一步扩充海关企业质检数据库;步骤S4:基于海关企业质检数据库检索海关企业名称获得的检索结果,利用检索结果建立海关企业风险评估模型;步骤S5:将海关企业质检数据库中的数据作为训练样本,用于更新海关企业风险评估模型的参数;步骤S6:利用更新参数后的海关企业风险评估模型为海关企业设定企业风险标签。2.根据权利要求1所述的一种基于数据挖掘的海关企业风险评估方法,其特征在于:所述步骤S1具体包括:步骤S101:获取多个海关企业的信息;步骤S102:对收集的表格类数据进行抽取、清洗、汇总得到结构化数据集;步骤S103:对收集的文本类数据进行筛选、清洗、归纳得到非结构化数据集。3.根据权利要求1所述的一种基于数据挖掘的海关企业风险评估方法,其特征在于:所述步骤S2包括:步骤S201:根据需求与收集得到的结构化数据集,设计数据库、创建表结构、构建表间关系、实现数据安全性和维护数据完整性;步骤S202:将收集的结构化数据集导入步骤S201设计的数据库中。4.根据权利要求1所述的一种基于数据挖掘的海关企业风险评估方法,其特征在于:所述步骤S3包括:步骤S301:基于处理后的非结构化数据集,构建企业质检信息命名实体识别模型;步骤S302:将数据集输入企业质检信息命名实体识别模型,生成结构化的海关企业实体信息;步骤S303:利用生成的结构化实体信息更新步骤S2设计的数据库。5.根据权利要求1所述的一种基于数据挖掘的海关企业风险评估方法,其特征在于:所述步骤S301中企业质检信息命名实体识别模型包括:一个词向量预训练语言模型、一个双向长短期记忆网络模型和一个隐马尔可夫模型;所述命名实体识别模型的输入端为词向量预训练语言模型的输入端;所述词向量预训练语言模型的输出端与双向长短期网络模型的输入端连接;所述双向长短期记忆网络模型的输出端与隐马尔可夫模型的输入端连接;所述隐马尔可夫模型的输出端作为命名实体识别模型的输出端。6.根据权利要求1所述的一种基于数据挖掘的海关企业风险评估方法,其特征在于:所述步骤S302中,生成结构化的海关企业实体信息的计算如下所示:所述词向量预训练语言模型具体包括:自注意力机制层、层归一化、全连接前馈网络层,其计算公式为:V
n1
=X
·
W
n1
V
n2
=X
·
W
n2
V
n3
=X
·
W
n3
Z=Concat(A1,
···
,A
n
)
·
W
z
V=Relu(Z)
·
W
v
+b
v
其中,V
n1
,V
n2
,V
n3
为第n次线性变换输出词向量矩阵,X为输入词向量矩阵,W
n1
,W
n2
,W
n3
为第n次线性变换输出词向量的权重参数;A
n
()为自注意力机制计算函数,Softmax()为归一化函数,N为输出词向量V
n2
的维度;Z为多头注意力机制输出,Concat()为自注意力拼接函数,W
z
为自注意力拼接函数的权重参数;V为词向量预训练语言模型输出的特征向量,Relu()为激活函数,W
v
和b
v
为词向量预训练语言模型中全连接层的权重参数和偏置参数;所述双向长短期记忆网络模型具体包括向前长短期记忆网络层、向后长短期记忆网络层、合并层,其计算公式为:I
t
=Sigmoid(W
vi
·
V
t
+H
t
‑1·
W
hi
+b
i
)F
t
=Sigmoid(W
vf
·
V
t
+H
t
‑1·
W
hf
+b
f
)O
t
=Sigmoid(W
vo
·
V
t
+H
t
‑1·
W
ho
+b
o
))H
t
=O
t

tanh(C
t
)其中,I
t
为t时刻的输入门,Sigmoid()为激活函数,V
t
为t时刻词向量预训练语言模型输出的特征向量和双向长短期记忆网络模型输入向量,W
vi
和b
i
为输入向量在输入门单元的权重参...

【专利技术属性】
技术研发人员:游泽青余华乔少杰周图南蒋梓涵赵传波韩楠赵明李耀陈偲黄灿张宇珂
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1