一种基于数据融合的关务数据处理系统技术方案

技术编号：39497466 阅读：10 留言：0更新日期：2023-11-24 11:27

本发明专利技术涉及人工智能技术领域，揭露了一种基于数据融合的关务数据处理系统

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据融合的关务数据处理系统、方法及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种基于数据融合的关务数据处理系统
、
方法及介质
。

技术介绍

[0002]国际贸易是经济发展的重要推动力之一，关务数据可以提供对进出口货物的详细信息，包括数量
、
价值
、
品牌等，从而帮助企业了解贸易流动情况，分析市场需求和趋势，为制定经济政策和商业决策提供依据
。
通过对关务数据的处理和分析，可以促进贸易畅通，优化供应链，提高市场竞争力，从而推动经济的稳定和增长
。
[0003]由于关务数据涉及多个环节和多个部门，包括进出口商
、
海关
、
运输公司等，这些各方之间的数据收集和整理方式可能不统一，数据格式和标准存在差异，导致数据的收集和整理工作相对繁琐和复杂，同时，处理过程中可能需要跨部门或跨机构协同工作，由于沟通和协作的问题导致处理流程冗长，从而导致关务数据处理时的效率较低
。

技术实现思路

[0004]本专利技术提供一种基于数据融合的关务数据处理系统
、
方法及介质，其主要目的在于解决自助收银时的效率较低的问题
。
[0005]为实现上述目的，本专利技术提供的一种基于数据融合的关务数据处理系统，其特征在于，所述系统包括数据清洗模块
、
数据纠正模块
、
数据集成模块
、
数据映射模块r/>、
模型训练模块及数据融合模块，其中：
[0006]所述数据清洗模块，用于生成预先采集的多源关务数据的清洗数据；
[0007]所述数据纠正模块，用于生成所述清洗数据的数据冲突值，根据所述数据冲突值对所述清洗数据进行数据纠正，得到所述清洗数据的纠正数据；
[0008]所述数据集成模块，用于根据所述纠正数据的关键字段生成所述纠正数据的集成数据；
[0009]所述数据映射模块，用于对所述集成数据进行数据映射，得到所述集成数据的映射数据；
[0010]所述模型训练模块，用于利用所述映射数据和预设的目标函数对预先构建的数据融合模型进行模型训练，得到训练完成的数据融合模型，其中，所述预设的目标函数为：
[0011][0012]其中，
Y
是目标函数值，
min(*)
是最小化函数，
w
是所述数据融合模型需要训练的权重向量，
w
T
是所述权重向量的转置，
b
是所述数据融合模型需要训练的偏置项，
ξ
i
是第
i
个训练数据所对应的松弛变量，
C
是正则化参数，
i
是所述训练数据的数据标识，
l
是所述训练数据的数据总数；
[0013]所述数据融合模块，用于利用所述训练完成的数据融合模型对实时关务数据进行数据融合，得到所述实时关务数据的融合数据
。
[0014]可选地，所述数据清洗模块在生成预先采集的多源关务数据的清洗数据时，具体用于：
[0015]根据预先采集的多源关务数据的数据来源对所述多源关务数据进行数据去重，得到所述多源关务数据的去重数据；
[0016]对所述去重数据进行缺失值填充，得到所述去重数据的填充数据；
[0017]对所述填充数据进行异常值处理，得到异常值处理后的填充数据，确定所述异常值处理后的填充数据为所述多源关务数据的清洗数据
。
[0018]可选地，所述数据纠正模块在生成所述清洗数据的数据冲突值时，具体用于：
[0019]对所述清洗数据进行特征提取，得到所述清洗数据的数据特征；
[0020]对所述数据特征进行哈希映射，得到所述数据特征的哈希值；
[0021]利用所述哈希值生成所述数据特征的标识符；
[0022]根据所述标识符和所述标识符所对应的数据来源生成所述清洗数据的数据冲突值
。
[0023]可选地，所述数据纠正模块在根据所述数据冲突值对所述清洗数据进行数据纠正，得到所述清洗数据的纠正数据时，具体用于：
[0024]S11、
当所述数据冲突值大于预设的冲突阈值，确定所述数据冲突值所对应的清洗数据为待纠正数据；
[0025]S12、
逐个生成所述待纠正数据的候选选项；
[0026]S13、
根据所述候选选项和所述待纠正数据的投票顺序对所述待纠正数据中的第一个待纠正数据进行投票决策，得到所述第一个待纠正数据的第一个投票结果；
[0027]S14、
根据所述第一个投票结果对所述待纠正数据进行数据更新，得到所述待纠正数据的更新数据；
[0028]S15、
逐个生成所述更新数据的候选选项，返回步骤
S13
，直至所述待纠正数据中的全部纠正数据都完成投票决策，根据投票决策的决策结果对所述待纠正数据进行数据纠正，得到所述清洗数据的纠正数据
。
[0029]可选地，所述数据集成模块在根据所述纠正数据的关键字段生成所述纠正数据的集成数据时，具体用于：
[0030]提取所述纠正数据的关键字段，计算所述关键字段的字段相似度；
[0031]根据所述字段相似度对所述纠正数据进行数据匹配，得到所述纠正数据的匹配数据；
[0032]对所述匹配数据进行数据集成，得到所述匹配数据得分集成数据
。
[0033]可选地，所述数据集成模块在计算所述关键字段的字段相似度时，具体用于：
[0034]利用如下相似度算法计算所述关键字段的字段相似度：
[0035][0036]其中，
S
是所述关键字段的字段相似度，
A
是所述关键字段中第一个字段的字段向
量，
B
是所述关键字段中第二个字段的字段向量，
W
是所述字段向量所对应的权重向量，
W
⊙
B
表示所述关键字段中第二个字段的字段向量
B
与所述字段向量所对应的权重向量
W
的元素逐一相乘得到的加权向量，
A
·
(W
⊙
B)
表示将所述关键字段中第一个字段的字段向量
A
与所述加权向量
W
⊙
B
的内积运算
。
[0037]可选地，所述数据映射模块在对所述集成数据进行数据映射，得到所述集成数据的映射数据时，具体用于：
[0038]对所述集成数据进行数据归一化，得到所述集成数据的归一化数据；
[0039]根据所述集成数据的排列顺序生成所述归一化数据的数据序列；
[0040]构建所述归一化数据的数据词典，利用所述数据词典对所述数据序列中的归一化本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于数据融合的关务数据处理系统，其特征在于，所述系统包括数据清洗模块
、
数据纠正模块
、
数据集成模块
、
数据映射模块
、
模型训练模块及数据融合模块，其中：所述数据清洗模块，用于生成预先采集的多源关务数据的清洗数据；所述数据纠正模块，用于生成所述清洗数据的数据冲突值，根据所述数据冲突值对所述清洗数据进行数据纠正，得到所述清洗数据的纠正数据；所述数据集成模块，用于根据所述纠正数据的关键字段生成所述纠正数据的集成数据；所述数据映射模块，用于对所述集成数据进行数据映射，得到所述集成数据的映射数据；所述模型训练模块，用于利用所述映射数据和预设的目标函数对预先构建的数据融合模型进行模型训练，得到训练完成的数据融合模型，其中，所述预设的目标函数为：其中，
Y
是目标函数值，
min(*)
是最小化函数，
w
是所述数据融合模型需要训练的权重向量，
w
T
是所述权重向量的转置，
b
是所述数据融合模型需要训练的偏置项，
ξ
i
是第
i
个训练数据所对应的松弛变量，
C
是正则化参数，
i
是所述训练数据的数据标识，
l
是所述训练数据的数据总数；所述数据融合模块，用于利用所述训练完成的数据融合模型对实时关务数据进行数据融合，得到所述实时关务数据的融合数据
。2.
如权利要求1所述的基于数据融合的关务数据处理系统，其特征在于，所述数据清洗模块在生成预先采集的多源关务数据的清洗数据时，具体用于：根据预先采集的多源关务数据的数据来源对所述多源关务数据进行数据去重，得到所述多源关务数据的去重数据；对所述去重数据进行缺失值填充，得到所述去重数据的填充数据；对所述填充数据进行异常值处理，得到异常值处理后的填充数据，确定所述异常值处理后的填充数据为所述多源关务数据的清洗数据
。3.
如权利要求1所述的基于数据融合的关务数据处理系统，其特征在于，所述数据纠正模块在生成所述清洗数据的数据冲突值时，具体用于：对所述清洗数据进行特征提取，得到所述清洗数据的数据特征；对所述数据特征进行哈希映射，得到所述数据特征的哈希值；利用所述哈希值生成所述数据特征的标识符；根据所述标识符和所述标识符所对应的数据来源生成所述清洗数据的数据冲突值
。4.
如权利要求1所述的基于数据融合的关务数据处理系统，其特征在于，所述数据纠正模块在根据所述数据冲突值对所述清洗数据进行数据纠正，得到所述清洗数据的纠正数据时，具体用于：
S11、
当所述数据冲突值大于预设的冲突阈值，确定所述数据冲突值所对应的清洗数据为待纠正数据；
S12、
逐个生成所述待纠正数据的候选选项；
S13、
根据所述候选选项和所述待纠正数据的投票顺序对所述待纠正数据中的第一个待纠正数据进行投票决策，得到所述第一个待纠正数据的第一个投票结果；
S14、
根据所述第一个投票结果对所述待纠正数据进行数据更新，得到所述待纠正数据的更新数据；
S15、
逐个生成所述更新数据的候选选项，返回步骤
S13
，直至所述待纠正数据中的全部纠正数据都完成投票决策，根据投票决策的决策结果对所述待纠正数据进行数据纠正，得到所述清洗数据的纠正数据
。5.
如权利要求1所述的基于数据融合的关务数据处理系统，其特征在于，所述数据集成模块在根据所述纠正数据的关键字段生成所述纠正数据的集成数据时，具体用于：提取所述纠正数据的关键字段，计算所述关键字段的字段相似度；根据所述字段相似度对所述纠正数据进行数据匹配，得到所述纠正数据的匹配数据；对所述匹配数据进行数据集成，得到所述匹配数据得分集成数据
。6.
...

【专利技术属性】
技术研发人员：陈征，王辉，
申请(专利权)人：深圳市深国际湾区投资发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人