一种模型训练方法、装置以及电子设备制造方法及图纸

技术编号:25225543 阅读:27 留言:0更新日期:2020-08-11 23:14
本申请公开了一种模型训练方法、装置以及电子设备,涉及机器学习技术领域。具体实现方案为:获取第一模态的第一样本集以及第二模态的第二样本集的特征分布;将第一样本集输入初始深度神经网络模型,得到第一样本集的特征数据,第一样本集的特征数据包括第一样本集的第一类特征数据;基于第一样本集的第一类特征数据,得到第一样本集的特征分布;利用第一损失函数对初始深度神经网络模型的参数进行调整,得到目标神经网络模型;其中,第一损失函数与第一样本集的特征分布以及第二样本集的特征分布相关。可提高目标深度神经网络模型的准确性。

【技术实现步骤摘要】
一种模型训练方法、装置以及电子设备
本申请涉及计算机技术中的机器学习
,尤其涉及一种模型训练方法、装置以及电子设备。
技术介绍
随着信息技术的不断推进,跨模态应用也越来越广,例如,跨模态识别以及跨模态检索等。目前,常常用一个模态的数据来训练一个网络模型,训练完成的网路模型可对该模态的待测数据进行有效预测,然而利用该训练完成的网络模型对跨模态数据(与训练网络模型的数据的模态不同,与训练网路模型的数据差异较大)进行预测,容易导致预测不准确,即现有网络模型准确性较低。
技术实现思路
本申请提供一种模型训练方法、装置和电子设备,以解决现有网络模型准确性较低的问题。第一方面,本申请一个实施例提供一种模型训练方法,包括:获取第一模态的第一样本集以及第二模态的第二样本集的特征分布;将所述第一样本集输入初始深度神经网络模型,得到所述第一样本集的特征数据,所述第一样本集的特征数据包括所述第一样本集的第一类特征数据;基于所述第一样本集的第一类特征数据,得到所述第一样本集的特征分布;利用第一损失函数对所述初始深度神经网络模型的参数进行调整,得到目标神经网络模型;其中,所述第一损失函数与所述第一样本集的特征分布以及所述第二样本集的特征分布相关。在本申请的实施例的模型训练过程中,首先利用第一模态的第一样本集输入初始深度神经网络,得到第一样本集的特征数据,然后利用第一样本集的特征数据估计第一样本集的特征分布,再利用与第一样本集的特征分布以及第二样本集的特征分布相关的第一损失函数对初始深度神经网络模型的参数进行调整,得到目标神经网络模型,实现对初始深度神经网络模型的训练。由于在模型训练过程中,不但利用了第一模态的第一样本集的特征分布,可训练模型对第一模态的数据的特征提取能力,而且利用了第二模态的第二样本集的特征分布,可训练模型对第二模态的数据的特征提取能力,从而使训练得到的目标深度神经网路模型能够适应于不同模态的数据,即提高目标深度神经网络模型的准确性。第二方面,本申请一个实施例提供一种模型训练装置,所述装置包括:第一获取模块,用于获取第一模态的第一样本集以及第二模态的第二样本集的特征分布;第一特征获取模块,用于将所述第一样本集输入初始深度神经网络模型,得到所述第一样本集的特征数据,所述第一样本集的特征数据包括所述第一样本集的第一类特征数据;第一特征分布获取模块,用于基于所述第一样本集的第一类特征数据,得到所述第一样本集的特征分布;确定模块,用于利用第一损失函数对所述初始深度神经网络模型的参数进行调整,得到目标神经网络模型;其中,所述第一损失函数与所述第一样本集的特征分布以及所述第二样本集的特征分布相关。在本申请的实施例的模型训练装置在训练过程中,首先利用第一模态的第一样本集输入初始深度神经网络,得到第一样本集的特征数据,然后利用第一样本集的特征数据估计第一样本集的特征分布,再利用与第一样本集的特征分布以及第二样本集的特征分布相关的第一损失函数对初始深度神经网络模型的参数进行调整,得到目标神经网络模型,实现对初始深度神经网络模型的训练。由于在模型训练过程中,不但利用了第一模态的第一样本集的特征分布,可训练模型对第一模态的数据的特征提取能力,而且利用了第二模态的第二样本集的特征分布,可训练模型对第二模态的数据的特征提取能力,从而使训练得到的目标深度神经网路模型能够适应于不同模态的数据,即提高目标深度神经网络模型的准确性。第三方面,本申请一个实施例还提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请各实施例提供的方法。第四方面,本申请一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请各实施例提供的方法。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请提供的一个实施例的模型训练方法的流程示意图之一;图2是本申请提供的一个实施例的模型训练方法的流程示意图之二;图3是本申请提供的一个实施例的模型训练装置的结构图;图4是用来实现本申请实施例的模型训练方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。如图1所示,根据本申请的实施例,本申请提供一种模型训练方法,包括:步骤S101:获取第一模态的第一样本集以及第二模态的第二样本集的特征分布。模态指数据的存在形式,第一模态与第二模态不同,第一样本集可以为第一图像样本集,第二样本集可以为第二图像样本集,即集合中均是图像样本,两个集合之间图像样本的模态不同,即两个集合中记录的是不同模态的图像,不同模态的图像,其图像数据的形式不同。举例说明,第一样本集中样本为RGB图像,为第一模态的图像,第二样本集中的样本为红外图像,为第二模态的图像。在本实施例的型训练过程中,首先获取第一模态的第一样本集,以及第二模态的第二样本集的特征分布,为后续训练过程提供依据。作为一个示例,第二样本集的特征分布可基于第二样本集的第一类特征数据得到。步骤S102:将第一样本集输入初始深度神经网络模型,得到第一样本集的特征数据。获得第一样本集后,可将第一样本集输入预先构建的初始深度神经网络模型,通过初始深度神经网络对第一样本集进行特征提取,以得到第一样本的特征数据,可以理解,该过程为训练初始深度神经网络过程中的前向传播中的部分。其中,第一样本集的特征数据包括第一样本集的第一类特征数据,作为一个示例,第一类特征数据可以为ID类特征数据等。步骤S103:基于第一样本集的第一类特征数据,得到第一样本集的特征分布。第一样本集中包括多个第一样本,第一样本可以为第一图像样本,通过初始深度神经网络模型得到的第一样本集的特征数据包括第一样本集中每个第一样本的特征数据,第一样本的特征数据包括第一样本的第一类特征数据。可根据第一样本集的第一类特征数据,估计第一样本集的第一类特征数据的分布,即估计第一样本集的特征分布。估计第一样本集的特征分布的方式有多种,在此不作限定。步骤S104:利用第一损失函数对初始深度神经网络模型的参数进行调整,得到目标神经网络模型。其中,第一损失函数与第一样本集的特征分布以及第二样本集的特征分布相关。可以理解,在得到第一样本集的特征分布后,利用第一样本集的特征分布以及第二样本集的特征分布计算第一损失函数,利用第一损失函数对初始深度神经网络模型的参数本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:/n获取第一模态的第一样本集以及第二模态的第二样本集的特征分布;/n将所述第一样本集输入初始深度神经网络模型,得到所述第一样本集的特征数据,所述第一样本集的特征数据包括所述第一样本集的第一类特征数据;/n基于所述第一样本集的第一类特征数据,得到所述第一样本集的特征分布;/n利用第一损失函数对所述初始深度神经网络模型的参数进行调整,得到目标神经网络模型;/n其中,所述第一损失函数与所述第一样本集的特征分布以及所述第二样本集的特征分布相关。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
获取第一模态的第一样本集以及第二模态的第二样本集的特征分布;
将所述第一样本集输入初始深度神经网络模型,得到所述第一样本集的特征数据,所述第一样本集的特征数据包括所述第一样本集的第一类特征数据;
基于所述第一样本集的第一类特征数据,得到所述第一样本集的特征分布;
利用第一损失函数对所述初始深度神经网络模型的参数进行调整,得到目标神经网络模型;
其中,所述第一损失函数与所述第一样本集的特征分布以及所述第二样本集的特征分布相关。


2.根据权利要求1所述的方法,其特征在于,所述第一损失函数中包括第二样本集的特征分布与第一样本集的特征分布之间的距离。


3.根据权利要求1所述的方法,其特征在于,所述第一损失函数还与所述第一样本集的预测输出结果以及所述第一样本集的标准输出结果相关。


4.根据权利要求3所述的方法,其特征在于,所述第一样本集的特征数据还包括第一样本集的第二类特征数据,所述第一样本集的预测输出结果与所述第一样本集的第一类特征数据以及所述第一样本集的第二类特征数据相关。


5.根据权利要求1所述的方法,其特征在于,获取第二模态的第二样本集的特征分布的方式,包括:
获取所述第二模态的第二样本集;
将所述第二样本集输入已训练的第一深度神经网络模型,得到所述第二样本集的第一类特征数据,其中,所述已训练的第一深度神经网络模型基于第三样本集训练得到,所述第三样本集为所述第二模态的样本集;
基于所述第二样本集的第一类特征数据,得到所述第二样本集的特征分布。


6.一种模型训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一模态的第一样本集以及第二模态的第二样本集的特征分布;
第一特征获取模块,用于将所述第一样本集输入初始深度神经网络模型,得到所述第一样本集的特征数据,所述第一样本集的特征数据包括所述第一样本集...

【专利技术属性】
技术研发人员:希滕张刚温圣召
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1