一种基于联邦学习的多源异构数据融合方法技术

技术编号:34460406 阅读:108 留言:0更新日期:2022-08-06 17:19
本发明专利技术公开了一种基于联邦学习的多源异构数据融合方法,旨在解决现有异构数据融合方法所存在的网络带宽占用量大、用户数据存在泄露风险的问题,包括:在初始化阶段,中心控制节点对特征提取模块、特征融合模块和特征决策模块进行网络参数随机初始化,并下发至边缘节点;在模型训练阶段,边缘节点根据本地的数据集结构选择对应的特征提取模块,并利用本地数据集对选择的特征提取模块以及接收到的特征融合模块和特征决策模块进行训练;待训练结束后,将训练后的模型返回至中心控制节点;在模型聚合阶段,中心控制节点采用平均聚合算法对训练后的模型进行聚合,形成具有全局异构数据特征的共享模型,并将共享模型重新下发至边缘节点进行新一轮训练。节点进行新一轮训练。节点进行新一轮训练。

【技术实现步骤摘要】
一种基于联邦学习的多源异构数据融合方法


[0001]本专利技术属于数据处理
,具体地说,是涉及一种用于对多源异构数据进行融合的方法。

技术介绍

[0002]异构数据融合是一种用于解决不同数据源下,结构不一的数据之间融合问题的技术。异构数据融合的目标就在于实现不同结构的数据之间的数据信息资源、硬件设备资源和人力资源的合并与共享。
[0003]现阶段的异构数据融合方法主要采用以云计算模型为核心的数据集中化处理方式,其优势在于异构数据融合可以在云服务器层面上运行,继而降低服务的维护和部署成本。但是,这种异构数据融合方法存在以下问题:其一,需要将所有边缘设备的数据全部上传至云端进行统一处理,不仅效率低下,而且会造成额外的带宽开销,同时网络延迟也会增加;其二,随着用户隐私意识的提高,边缘设备的数据很有可能在上传通信链路时发生泄密,导致个人隐私的安全问题无法得到保障。

技术实现思路

[0004]本专利技术的目的在于提供一种基于联邦学习的多源异构数据融合方法,以解决现有的异构数据融合方法所存在的网络带宽占用量大、用户数据存在泄露风险的问题。
[0005]为解决上述技术问题,本专利技术采用以下技术方案予以实现:一种基于联邦学习的多源异构数据融合方法,包括初始化阶段、模型训练阶段和模型聚合阶段三个阶段;其中,在初始化阶段,中心控制节点对特征提取模块、特征融合模块和特征决策模块进行网络参数随机初始化,并将初始化后的特征提取模块、特征融合模块和特征决策模块下发至边缘节点;在模型训练阶段,边缘节点根据本地的数据集结构选择对应的特征提取模块,并利用本地数据集对选择的特征提取模块以及接收到的特征融合模块和特征决策模块进行训练;待训练结束后,将训练后的特征提取模块、特征融合模块和特征决策模块返回至中心控制节点进行模型聚合;在模型聚合阶段,中心控制节点采用平均聚合算法对训练后的模型进行聚合,然后将聚合后的特征提取模块、特征融合模块和特征决策模块重新下发至边缘节点进行新一轮训练。
[0006]在本申请的一些实施例中,在所述模型训练阶段,优选配置所述边缘节点训练结束的条件是本地节点训练轮数超过中心控制节点给定的训练轮数。
[0007]在本申请的一些实施例中,优选在所述特征提取模块中配置音频、视觉特征子网络和文本特征子网络;其中,所述音频、视觉特征子网络针对音频信息和视觉信息,分别采用COVAREP声学分析框架和FACET面部表情分析框架对数据集进行特征采样提取;所述文本特征子网络在编码部分先采用全局词向量对口语词进行预处理,然后使用长短期记忆人工神经网络学习与时间相关的语言表示,并将此作为CNN卷积神经网络的输入,在卷积层通过
卷积核对文本信息进行局部特征提取。
[0008]在本申请的一些实施例中,优选在所述特征融合模块中引入具有异构数据特征空间的记忆单元W,配置所述记忆单元W的每一模态对应于一种异构数据特征的空间映射;在对异构数据特征进行融合时,可以将某一模态的异构数据特征与记忆单元W所对应的特征空间进行模乘,得到具有该模态异构数据特征的记忆单元;对于剩余模态的异构数据特征,可以依次与具有前一模态的异构数据特征的记忆单元所对应的特征空间进行模乘,以得到具有后一模态的异构数据特征的记忆单元。
[0009]在本申请的一些实施例中,针对三模态特征,可以将所述特征融合模块的融合操作分为三个阶段:在第一阶段,将记忆单元W沿着一阶与第一模态的异构数据特征进行模乘,得到具有第一模态异构数据特征的新的记忆单元W1;在第二阶段,将新的记忆单元W1沿着二阶与第二模态的异构数据特征进行模乘,得到具有两种模态异构数据特征的记忆单元W2;在第三阶段,将记忆单元W2沿着三阶与第三模态的异构数据特征进行模乘,由此便可得到具有三种模态异构数据特征的记忆单元W3。
[0010]在本申请的一些实施例中,优选配置所述特征决策模块针对融合后的数据,采用CNN卷积神经网络的全连接层在全局特征的基础上进行决策,包括回归模型的预测和分类模型的概率预测;其中,在回归模型模块中,优选采用L1范数损失函数对目标值和预测值之间的误差进行衡量。
[0011]在本申请的一些实施例中,由于各个边缘节点是采用自适应选择机制对特征提取模块进行训练的,因此,在所述模型聚合阶段,中心控制节点首先需将各个边缘节点选择训练的特征提取子网络进行归并,使同一模态的数据提取特征具有相似性;然后,采用平均聚合算法对特征提取模块、特征融合模块和特征决策模块进行聚合,得到具有全局异构数据特征的共享模型。
[0012]与现有技术相比,本专利技术的优点和积极效果主要体现在:1、对多源异构数据具有更强的自适应性。与传统算法相比,本专利技术在对模型进行训练时,不需要同时输入所有类型的异构数据,因此,更适合在联邦学习中的不同类型的边缘节点中应用。
[0013]2、能够更好地保护用户的数据隐私。由于采用本专利技术的方法无需将边缘节点中的异构数据发送至中心控制节点进行训练,因此不会产生用户隐私数据在上传通信链路时可能存在泄露的风险。
[0014]3、大大降低了传输带宽。由于采用本专利技术的方法只需传输提取各个边缘节点拥有的异构数据对应的特征提取子网络模型参数,而无需传输提取所有异构数据特征的模型参数,因此网络带宽占用少,数据传输效率高,不会产生明显的网络延迟。
[0015]结合附图阅读本专利技术实施方式的详细描述后,本专利技术的其他特点和优点将变得更加清楚。
附图说明
[0016]图1为本专利技术所提出的基于联邦学习的多源异构数据融合方法的一种实施例的整体架构流程图;图2为模型训练阶段的流程图。
具体实施方式
[0017]下面结合附图对本专利技术的具体实施方式进行详细地描述。
[0018]联邦学习是一种分布式学习框架,其原始数据可以被收集并存储在多个边缘节点上,并在边缘节点处执行模型的训练过程,训练后的模型可以通过边缘节点与中心控制节点之间的交互实现逐步优化。
[0019]基于联邦学习的以上框架结构,本实施例设计多源异构数据融合系统,主要包括边缘设备、物联网和云端服务器等。其中,物联网可以是网关或者路由器等;边缘设备可以是用户端计算机或者用户端服务器等。将边缘设备作为联邦学习框架中的边缘节点,通过物联网与作为中心控制节点的云端服务器互联,针对边缘设备采集到的不同类型的异构数据,在不进行数据互通的前提下,解决多源异构数据间的融合问题。
[0020]具体而言,可以在边缘设备中引入联邦学习算法,各个边缘设备分别利用其本地数据对云端服务器下发的学习模型进行训练,并将训练后的学习模型上传至云端服务器,以聚合出一个泛化的共享模型。边缘设备利用模型替代数据与云端服务器进行交互,由此可以规避用户数据泄露的风险,解决用户隐私安全的问题。
[0021]下面结合图1,对本实施例的多源异构数据融合方法的整体设计流程进行详细阐述。
[0022]本实施例的多源异构数据融合算法所涉及的数学模型主要包括特征提取模块、特征融合模块和特征决策模块。其中,特征提取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的多源异构数据融合方法,其特征在于,包括:初始化阶段:中心控制节点对特征提取模块、特征融合模块和特征决策模块进行网络参数随机初始化,并将初始化后的特征提取模块、特征融合模块和特征决策模块下发至边缘节点;模型训练阶段:边缘节点根据本地的数据集结构选择对应的特征提取模块,并利用本地数据集对选择的特征提取模块以及接收到的特征融合模块和特征决策模块进行训练;待训练结束后,将训练后的特征提取模块、特征融合模块和特征决策模块返回至中心控制节点进行模型聚合;模型聚合阶段:中心控制节点采用平均聚合算法对训练后的模型进行聚合,然后将聚合后的特征提取模块、特征融合模块和特征决策模块重新下发至边缘节点进行新一轮训练。2.根据权利要求1所述的基于联邦学习的多源异构数据融合方法,其特征在于,在所述模型训练阶段,边缘节点训练结束的条件是本地节点训练轮数超过中心控制节点给定的训练轮数。3.根据权利要求1所述的基于联邦学习的多源异构数据融合方法,其特征在于,所述特征提取模块包括:音频、视觉特征子网络,其针对音频信息和视觉信息,分别采用COVAREP声学分析框架和FACET面部表情分析框架对数据集进行特征采样提取;文本特征子网络,其在编码部分先采用全局词向量对口语词进行预处理,然后使用长短期记忆人工神经网络学习与时间相关的语言表示,并将此作为CNN卷积神经网络的输入,在卷积层通过卷积核对文本信息进行局部特征提取。4.根据权利要求1所述的基于联邦学习的多源异构数据融合方法,其特征在于,所述特征融合模块包括具有异构数据特征空间的记忆单元W,所述记忆单元W的每一模态对应...

【专利技术属性】
技术研发人员:侯瑞春魏振辉
申请(专利权)人:中国海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1