一种分布式多源异构数据融合应用方法技术

技术编号:37086582 阅读:10 留言:0更新日期:2023-03-29 20:01
本发明专利技术涉及一种分布式多源异构数据融合应用方法,方法包括:获取多源数据并对其进行划分,得到等分多个弹性子数据集;利用Spark Shuffle并行化处理模型对LSTM长短期记忆递归神经网络算法进行改进,并将其建立在分布式Apache Spark平台上;改进的网络融合算法对各子数据集中的样本数据处理与融合模型进行训练;对各子数据集中的样本数据进行数据融合,并输出Map任务中间数据,判定数据的类别,以此得到最终的预测值。本发明专利技术可广泛适用于大数据时代背景下各行业海量的多源异构数据的融合应用,并可有效提高海量数据融合的精度与速度,可为我国交通、金融等行业相关数据融合应用提供有力依据,对推动行业大数据分析水平发展具有重要意义。展具有重要意义。展具有重要意义。

【技术实现步骤摘要】
一种分布式多源异构数据融合应用方法


[0001]本专利技术涉及数据融合应用领域,特别是涉及一种分布式多源异构数据融合应用方法。

技术介绍

[0002]大数据时代背景下,全球范围内,研究发展大数据技术、运用大数据推动社会经济发展,提高行业生产服务质量水平成为趋势。在交通、金融、通信以及电商等行业,用户、设备信息等海量数据成为推动行业高质量发展的宝贵资源,通过数据挖掘等数据分析技术,可有效获知用户需求以及设备运行状况等有效数据。然而,由于各行业普遍面临数据体量庞大,数据来源多样且数据结构复杂等问题,因此,研究分布式多源异构数据融合应用方法,有助于集成复杂结构数据,便于数据挖掘分析,对推动行业高质量发展,为用户提供更优质的服务具有重要意义。
[0003]目前,多源异构数据融合研究主要面向于小规模数据融合应用,将各种不同的数据信息进行综合,吸取不同数据源的特点然后从中提取出统一的,比单一数据更好、更丰富的信息。目前有一些多源数据融合技术通过对数据进行预处理和文本匹配,实现了多源异构数据的融合,但其还不能建立完整性、准确性和一致性强的数据库;
[0004]因此如何将多种数据源中的相关数据进行提取、融合、梳理整合成一个分析数据集,再上述的数据进行有效的存储和融合,并能快速访问和输出是目前的难点之一;现在普遍采用传统的反向传播神经网络进行数据处理,存在运算效率低、准确度不高等问题,无法满足海量的多元异构数据融合应用,进而难以适应大数据时代背景下数据融合需求。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种分布式多源异构数据融合应用方法。
[0006]为了实现上述目的,本专利技术实施例采用以下技术方案:一种分布式多源异构数据融合应用方法,包括:
[0007]S1:获取多源数据并利用“Map”映射机制对其进行划分,得到等分多个弹性子数据集,并分配至指定“Map”任务执行节点;
[0008]S2:利用Spark Shuffle并行化处理模型对LSTM长短期记忆递归神经网络算法进行改进,并将其建立在分布式Apache Spark平台上;
[0009]S3:改进的采用LSTM长短期记忆递归神经网络融合算法对各子数据集中的样本数据处理与融合模型进行训练;
[0010]S4:基于训练后的融合算法对各子数据集中的样本数据进行数据融合,并输出Map任务中间数据,判定数据的类别;
[0011]S5:通过“Reduce”机制将多个Map任务所属的子集数据进行合并融合,以此得到最终的预测值。
[0012]对步骤S1中,获取所述多源数据进行划分包括:
[0013]对获取到的多源数据进行离散化处理,得到离散化数据;根据行业数据融合应用需求及目标,结合样本数据特征,针对所采集的连续型数据,采用合适的数据离散化方法,包括等距离离散、等频率离散、基于聚类离散、分位数离散、二值化离散,进行离散化处理;
[0014]将离散化数据进行矩阵化处理,得到与时间相关的数据矩阵。
[0015]基于对海量样本数据按采集时间节点切片的思想,获取数据矩阵,具体为:
[0016][0017]基于此,某数据采集时间片段多传感器所采集的样本数据矩阵N为:
[0018][0019]式中,向量D
j
为第j时间节点所采集到的多维数据,D
j
=(d
j1
,d
j2
,

d
jm
,t
j
)。其中,m表示维数,d
jm
表示在j时间节点的第m维样本数据采集值,t
j
表示采集的时间节点。
[0020]所述LSTM长短期记忆递归神经网络融合算法具体指基于LSTM长短期记忆递归神经网络算法,实现多元异构数据融合应用,LSTM长短期记忆递归神经网络为一种特殊类型的循环神经网络,可解决RNN链式结构神经网络时间依赖问题,且有效避免梯度消失与梯度爆炸问题;
[0021]对步骤S2中,LSTM长短期记忆递归神经网络算法采用3层遗忘门结构,所述LSTM长短期记忆递归神经网络算法的具体操作步骤包括:
[0022]S21:设置遗忘门、输入门以及输出门的神经元个数;
[0023]S22:明确训练方法、最大轮数以及初始学习率;同时,设置减少学习率的周期间隔并设置学习率减小因子;
[0024]S23:LSTM长短期记忆递归神经网络引入记忆结构,在每个时间步下,结合上一节点的输出值,通过门结构对细胞状态的信息进行添加或删除。
[0025]所述LSTM长短期记忆递归神经网络算法的基本单元,包括:
[0026]遗忘门:
[0027][0028]输入门:
[0029][0030]输出门:
[0031][0032]记忆单元结构:
[0033][0034]其中,sigmoid激励函数具体公式为:
[0035][0036]tanh非线性函数为:
[0037][0038]式中:W
f
、W
i
、W
o
与b
f
、b
i
、b
o
为通过该LSTM层的网络结构参数,即在训练中通过损失函数反馈后进行调整的参数,为遗忘门控,控制上一状态的c
<t

1>
具体的遗忘部分,为输入门控,控制对于输入x
<t>
的记忆,为输出门控,控制当前状态的输出,通过sigmoid激励函数转化成为0到1之间的数值,将c
<t>
结果通过非线性函数tanh转化为

1到1之间的值。
[0039]所述对子数据的处理还包括,将经过模型处理的各子数据集的结果进行识别并输出类型,得到不同类型的对象结果。
[0040]对于步骤S3中对所述模型进行训练还包括以下步骤:
[0041]S31:对网络初始化并赋予初值,输入数据;
[0042]S32:求解隐含层和输出层的输出,以及输出层的偏差值;
[0043]S33:判断偏差是否满足,若不满足则调节隐含层和输出层之间的连接权值并重新计算输出层的输出和偏差;
[0044]S33:当偏差满足时结束训练。
[0045]对步骤S4中,所述训练后的融合算法对各子数据集中的样本数据的处理与融合模型的流程,还包括以下步骤:
[0046]步骤S41:将输入的数据为多样属性样本的数据,通过LSTM长短期记忆递归神经网络融合算法,将数据源对应输入门、遗忘门以及输出门的数据与所述数据处理与融合模型的数据融合对应,设计多输入转化为单输出的网络结构;
[0047]步骤S42:根据采集的多源异构样本数据特征,结合数据融合目标及需求,针对各类别样本数据调定遗忘门节点数目,利用模型训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式多源异构数据融合应用方法,其特征在于,包括以下步骤:S1:获取多源数据并利用“Map”映射机制对其进行划分,得到等分多个弹性子数据集,并分配至指定“Map”任务执行节点;S2:利用Spark Shuffle并行化处理模型对LSTM长短期记忆递归神经网络算法进行改进,并将其建立在分布式Apache Spark平台上;S3:改进的采用LSTM长短期记忆递归神经网络融合算法对各子数据集中的样本数据处理与融合模型进行训练;S4:基于训练后的融合算法对各子数据集中的样本数据进行数据融合,并输出Map任务中间数据,判定数据的类别;S5:通过“Reduce”机制将多个Map任务所属的子集数据进行合并融合,以此得到最终的预测值。2.根据权利要求1所述的一种分布式多源异构数据融合应用方法,其特征在于,对步骤S1中,获取所述多源数据进行划分包括:对获取到的多源数据进行离散化处理,得到离散化数据;将离散化数据进行矩阵化处理,得到与时间相关的数据矩阵。3.根据权利要求1所述一种分布式多源异构数据融合应用方法,其特征在于,对步骤S2中,LSTM长短期记忆递归神经网络算法采用3层遗忘门结构,所述LSTM长短期记忆递归神经网络算法的具体操作步骤包括:S21:设置遗忘门、输入门以及输出门的神经元个数;S22:明确训练方法、最大轮数以及初始学习率;同时,设置减少学习率的周期间隔并设置学习率减小因子;S23:LSTM长短期记忆递归神经网络引入记忆结构,在每个时间步下,结合上一节点的输出值,通过门结构对细胞状态的信息进行添加或删除。4.根据权利要求3所述一种分布式多源异构数据融合应用方法,其特征在于,所述LSTM长短期记忆递归神经网络算法的基本单元,包括:遗忘门:输入门:输出门:记忆单元结构:记忆单元结构:y
t
=σ(Wh
<t>
)其中,sigmoid激励函数具体公式为:
tanh非线性函数为:式中:W
f
、W
i
、W
o
与b
f
、b
i
、b
o
为通过该LSTM层的网络结构参数,即在训练中通过损失函数反馈后进行调整的参数,为遗忘门控,控制上一状态的c
<t

1>
具体的遗忘部分,为输入门控,控制对于输入x
<t>
的记忆,为输出门控,控制当前状态的输出,通过sigmoid激励函数转化成为0到1之间的数值,将c
<t>
结果通过非线性函数tanh转化为

1到1之间的值。5.根据权利要求1所述一种分布式多源异构数据融合应用方法,其特征在于,所述对子数据的处理还包括,将经过模型处理的各子数据集的结果进行识别并输出类型,得到不同类型的对象结果。6.根据权利要求1所述一种分布式多源异构数据融合应用方法,其特征...

【专利技术属性】
技术研发人员:李海坤杨璐绮
申请(专利权)人:烽火乾坤科技南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1