一种分布式多源异构数据融合应用方法技术

技术编号：37086582 阅读：10 留言：0更新日期：2023-03-29 20:01

本发明专利技术涉及一种分布式多源异构数据融合应用方法，方法包括：获取多源数据并对其进行划分，得到等分多个弹性子数据集；利用Spark Shuffle并行化处理模型对LSTM长短期记忆递归神经网络算法进行改进，并将其建立在分布式Apache Spark平台上；改进的网络融合算法对各子数据集中的样本数据处理与融合模型进行训练；对各子数据集中的样本数据进行数据融合，并输出Map任务中间数据，判定数据的类别，以此得到最终的预测值。本发明专利技术可广泛适用于大数据时代背景下各行业海量的多源异构数据的融合应用，并可有效提高海量数据融合的精度与速度，可为我国交通、金融等行业相关数据融合应用提供有力依据，对推动行业大数据分析水平发展具有重要意义。展具有重要意义。展具有重要意义。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式多源异构数据融合应用方法

[0001]本专利技术涉及数据融合应用领域，特别是涉及一种分布式多源异构数据融合应用方法。

技术介绍

[0002]大数据时代背景下，全球范围内，研究发展大数据技术、运用大数据推动社会经济发展，提高行业生产服务质量水平成为趋势。在交通、金融、通信以及电商等行业，用户、设备信息等海量数据成为推动行业高质量发展的宝贵资源，通过数据挖掘等数据分析技术，可有效获知用户需求以及设备运行状况等有效数据。然而，由于各行业普遍面临数据体量庞大，数据来源多样且数据结构复杂等问题，因此，研究分布式多源异构数据融合应用方法，有助于集成复杂结构数据，便于数据挖掘分析，对推动行业高质量发展，为用户提供更优质的服务具有重要意义。
[0003]目前，多源异构数据融合研究主要面向于小规模数据融合应用，将各种不同的数据信息进行综合，吸取不同数据源的特点然后从中提取出统一的，比单一数据更好、更丰富的信息。目前有一些多源数据融合技术通过对数据进行预处理和文本匹配，实现了多源异构数据的融合，但其还不能建立完整性、准确性和一致性强的数据库；
[0004]因此如何将多种数据源中的相关数据进行提取、融合、梳理整合成一个分析数据集，再上述的数据进行有效的存储和融合，并能快速访问和输出是目前的难点之一；现在普遍采用传统的反向传播神经网络进行数据处理，存在运算效率低、准确度不高等问题，无法满足海量的多元异构数据融合应用，进而难以适应大数据时代背景下数据融合需求。

技术实现思路

[0005]基于此，有必要...

【技术保护点】

【技术特征摘要】
1.一种分布式多源异构数据融合应用方法，其特征在于，包括以下步骤：S1：获取多源数据并利用“Map”映射机制对其进行划分，得到等分多个弹性子数据集，并分配至指定“Map”任务执行节点；S2：利用Spark Shuffle并行化处理模型对LSTM长短期记忆递归神经网络算法进行改进，并将其建立在分布式Apache Spark平台上；S3：改进的采用LSTM长短期记忆递归神经网络融合算法对各子数据集中的样本数据处理与融合模型进行训练；S4：基于训练后的融合算法对各子数据集中的样本数据进行数据融合，并输出Map任务中间数据，判定数据的类别；S5：通过“Reduce”机制将多个Map任务所属的子集数据进行合并融合，以此得到最终的预测值。2.根据权利要求1所述的一种分布式多源异构数据融合应用方法，其特征在于，对步骤S1中，获取所述多源数据进行划分包括：对获取到的多源数据进行离散化处理，得到离散化数据；将离散化数据进行矩阵化处理，得到与时间相关的数据矩阵。3.根据权利要求1所述一种分布式多源异构数据融合应用方法，其特征在于，对步骤S2中，LSTM长短期记忆递归神经网络算法采用3层遗忘门结构，所述LSTM长短期记忆递归神经网络算法的具体操作步骤包括：S21：设置遗忘门、输入门以及输出门的神经元个数；S22：明确训练方法、最大轮数以及初始学习率；同时，设置减少学习率的周期间隔并设置学习率减小因子；S23：LSTM长短期记忆递归神经网络引入记忆结构，在每个时间步下，结合上一节点的输出值，通过门结构对细胞状态的信息进行添加或删除。4.根据权利要求3所述一种分布式多源异构数据融合应用方法，其特征在于，所述LSTM长短期记忆递归神经网络算法的基本单元，包括：遗忘门：输入门：输出门：记忆单元结构：记忆单元结构：y
t
＝σ(Wh
<t>
)其中，sigmoid激励函数具体公式为：
tanh非线性函数为：式中：W
f
、W
i
、W
o
与b
f
、b
i
、b
o
为通过该LSTM层的网络结构参数，即在训练中通过损失函数反馈后进行调整的参数，为遗忘门控，控制上一状态的c
<t
‑
1>
具体的遗忘部分，为输入门控，控制对于输入x
<t>
的记忆，为输出门控，控制当前状态的输出，通过sigmoid激励函数转化成为0到1之间的数值，将c
<t>
结果通过非线性函数tanh转化为
‑
1到1之间的值。5.根据权利要求1所述一种分布式多源异构数据融合应用方法，其特征在于，所述对子数据的处理还包括，将经过模型处理的各子数据集的结果进行识别并输出类型，得到不同类型的对象结果。6.根据权利要求1所述一种分布式多源异构数据融合应用方法，其特征...

【专利技术属性】
技术研发人员：李海坤，杨璐绮，
申请(专利权)人：烽火乾坤科技南京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人