多模态图像识别方法和装置、模型训练方法和装置制造方法及图纸

技术编号:35143334 阅读:19 留言:0更新日期:2022-10-05 10:20
本公开提供了一种多模态图像识别模型训练方法和装置,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于人脸识别等场景。具体实现方案为:从预先构建的多目标多模态图像样本集中选取至少两种模态的目标图像样本,目标图像样本中均具有同一目标;将目标图像样本中任意一种模态图像样本输入目标网络进行特征提取,得到目标特征;将目标图像样本输入在线网络进行特征提取,得到第一在线特征;将第一在线特征分别输入对应的特征队列,得到一一对应的特征序列;基于目标特征、所述特征序列,训练对应在线网络的多模态图像识别模型。该实施方式提高了多模态图像识别的准确性。模态图像识别的准确性。模态图像识别的准确性。

【技术实现步骤摘要】
多模态图像识别方法和装置、模型训练方法和装置


[0001]本公开涉及人工智能
,具体为深度学习、图像处理、计算机视觉
,可应用于人脸识别等场景,尤其涉及一种多模态图像识别模型训练方法和装置、多模态图像识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。

技术介绍

[0002]在目标识别应用过程中,有时需要兼容可见光图像和近红外图像中目标的身份识别。由于可见光图像和近红外图像的风格差异很大,直接将可见光图像和近红外图像混合在一起训练得到的识别模型的效果不好。

技术实现思路

[0003]提供了一种多模态图像识别模型训练方法和装置、多模态图像识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。
[0004]根据第一方面,提供了一种多模态图像识别模型训练方法,该方法包括:从预先构建的多目标多模态图像样本集中选取至少两种模态的目标图像样本,目标图像样本中均具有同一目标;将目标图像样本中任意一种模态图像样本输入目标网络进行特征提取,得到目标特征;将目标图像样本输入在线网络进行特征提取,得到第一在线特征,在线网络与目标网络具有相同的网络结构;将第一在线特征分别输入对应的特征队列,得到一一对应的特征序列;基于目标特征、特征序列,训练对应在线网络的多模态图像识别模型。
[0005]根据第二方面,提供了一种多模态图像识别方法,该方法包括:获取具有至少两种模态的图像;将图像输入采用第一方面任一实现方式描述的方法生成的多模态图像识别模型中,得到图像的特征;基于图像的特征,得到图像中目标的识别结果。
[0006]根据第三方面,提供了一种多模态图像识别模型训练装置,该装置包括:样本选取单元,被配置成从预先构建的多目标多模态图像样本集中选取至少两种模态的目标图像样本,目标图像样本中均具有同一目标;目标得到单元,被配置成将目标图像样本中任意一种模态图像样本输入目标网络进行特征提取,得到目标图像样本的目标特征;在线得到单元,被配置成将目标图像样本输入在线网络进行特征提取,得到目标图像样本的第一在线特征,在线网络与目标网络具有相同的网络结构;序列得到单元,被配置成将第一在线特征分别输入对应的特征队列,得到一一对应的特征序列;训练单元,被配置成基于目标特征、特征序列,训练对应在线网络的多模态图像识别模型。
[0007]根据第四方面,提供了一种多模态图像识别装置,该装置包括:图像获取单元,被配置成获取具有至少两种模态的图像;特征得到单元,被配置成将图像输入采用第三方面任一实现方式描述的装置生成的多模态图像识别模型中,得到图像的特征;图像识别单元,被配置成基于图像的特征,得到图像中目标的识别结果。
[0008]根据第五方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,
指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。
[0009]根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。
[0010]根据第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。
[0011]本公开的实施例提供的预训练模型生成方法和装置,首先,从预先构建的多目标多模态图像样本集中选取至少两种模态的目标图像样本,目标图像样本中均具有同一目标;其次,将目标图像样本中任意一种模态图像样本输入目标网络进行特征提取,得到目标特征;再次,将目标图像样本输入在线网络进行特征提取,得到第一在线特征,在线网络与目标网络具有相同的网络结构;从次,将第一在线特征分别输入对应的特征队列,得到一一对应的特征序列;最后,基于目标特征、特征序列,训练对应在线网络的多模态图像识别模型。由此,在多模态图像识别模型训练过程中,充分参考第一在线特征对在线网络进行训练,使在线网络可以确定各个模态的目标图像样本的特征,提高了多模态图像识别模型识别各个模态图像中目标的特征的准确性;并且采用网络结构相同的在线网络和目标网络训练多模态图像识别模型,将对比学习和特征队列应用在多模态图像的目标特征识别中,使得多模态图像识别模型在训练中可以均衡学习各种模态图像的图像信息,提高了目标识别的精度。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1是根据本公开多模态图像识别模型训练方法的一个实施例的流程图;
[0015]图2是本公开多模态图像识别模型训练过程的一种结构示意图;
[0016]图3是根据本公开多模态图像识别方法的一个实施例的流程图;
[0017]图4是根据本公开多模态图像识别模型训练装置的实施例的结构示意图;
[0018]图5是根据本公开多模态图像识别装置的实施例的结构示意图;
[0019]图6是用来实现本公开实施例的多模态图像识别模型训练方法或多模态图像识别方法的电子设备的框图。
具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0021]本实施例中,“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
[0022]在对图像中的目标(例如人脸)进行识别时,有时需要兼容多种模态的图像,而直接将多种模态的图像直接混合在一起训练目标识别模型的效果并不好,对此,本公开提出了一种基于多队列的多模态图像识别模型训练方法,通过构建不同模态图像的特征队列,使得多模态图像识别模型在训练中可以均衡学习多种模态的图像的信息,图1示出了根据本公开多模态图像识别模型训练方法的一个实施例的流程100,上述多模态图像识别模型训练方法包括以下步骤:
[0023]步骤101,从预先构建的多目标多模态图像样本集中选取至少两种模态的目标图像样本。
[0024]本实施例中,多目标多模态图像样本集包括至少一种模态的图像样本,每种模态的图像样本可以是在不同成像模式、不同光照条件对不同身份标识的目标(人物、动物、景象等)进行拍摄形成的图像,从而多目标多模态图像样本集是对应不同目标的多模态图像的集合,例如,一种模态的图像样本是在白光成像模式下对第一动物进行拍摄所获取得到的影像图像,另一种模态的图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态图像识别模型训练方法,所述方法包括:从预先构建的多目标多模态图像样本集中选取至少两种模态的目标图像样本,所述目标图像样本中均具有同一目标;将所述目标图像样本中任意一种模态图像样本输入目标网络进行特征提取,得到目标特征;将所述目标图像样本输入在线网络进行特征提取,得到第一在线特征,所述在线网络与所述目标网络具有相同的网络结构;将所述第一在线特征分别输入对应的特征队列,得到一一对应的特征序列;基于所述目标特征、所述特征序列,训练对应所述在线网络的多模态图像识别模型。2.根据权利要求1所述的方法,其中,所述基于所述目标特征、所述特征序列,训练对应所述在线网络的多模态图像识别模型,包括:基于所述目标特征、所述特征序列,更新所述目标网络的第一参数和所述在线网络的第二参数;响应于确定所述目标网络满足训练完成条件,得到对应所述在线网络的多模态图像识别模型,所述目标网络是基于所述第一参数训练的。3.根据权利要求2所述的方法,其中,所述基于所述目标特征、所述特征序列,更新所述目标网络的第一参数和所述在线网络的第二参数,包括:基于所述目标特征和所述特征序列,计算各个模态的损失值;基于所述损失值计算总损失值;基于所述总损失值,更新所述第一参数和所述第二参数。4.根据权利要求3所述的方法,其中,所述基于所述总损失值,更新所述第一参数和所述第二参数,包括:基于所述总损失值,采用随机梯度下降法更新所述第一参数;通过所述随机梯度下降法访问的所述第一参数,并采用指数滑动平均算法更新所述第二参数。5.根据权利要求3所述的方法,其中,所述基于所述目标特征和所述特征序列,计算各个模态的损失值,包括:根据分类损失函数和所述目标特征、所述特征序列中的第二在线特征,计算所述损失值,所述第二在线特征至少包括所述第一在线特征。6.根据权利要求5所述的方法,其中,所述第二在特征还包括:所述特征队列中的历史在线特征,所述历史在线特征为所述在线网络在历史时刻输入所述特征队列的在线特征。7.根据权利要求1

6之一所述的方法,其中,所述特征队列为先进先出队列;所述将所述第一在线特征分别输入对应的特征队列,得到一一对应的特征序列,包括:将所述第一在线特征分别更新至所述第一在线特征对应的先进先出队列的队尾;响应于确定所述先进先出队列已满,弹出所述先进先出队列的队首的历史在线特征。8.根据权利要求1所述的方法,其中,所述至少两种模态包括:色彩模式模态和近红外模态。9.一种多模态图像识别方法,所述方法包括:获取具有至少两种模态的图像;
将所述图像输入采用权利要求1

8中任一项所述的多模态图像识别模型训练方法得到的多模态图像识别模型中,得到所述图像的特征;基于所述图像的特征,得到所述图像中目标的识别结果。10.根据权利要求9所述的方法,其中,所述基于所述图像的特征,得到所述图像中目标的识别结果,包括:一一计算所述图像的特征与数据库中的至少两个底库特征的相似度;选取相似度最高的底库特征对应的目标,并将该目标的身份信息作为所述图像中目标的识别结果。11.根据权利要求9所述的方法,其中,所述图像包括:色彩模式图像和近红外图像,所述识别结果包括:所述色彩模式图像中目标的特征和所述近红外图像中目标的特征。12.根据权利要求9所述的方法,其中,所述目标为人脸,所述识别结果包括:所述图像中不同人物的人脸特征。13.一种多模态图像识别模型训练装置,所述装置包括:样本选取单元,被配置成从预先构建的多目标多模态图像样本集中选取至少两种模态的目标图像样本,所述目标图像样本中均具有同一目标;目标得到单元,被配置成将所述目标图像样本中任意一种模态图像样本输入目标网络进行特征提取,得到所述目标图像样本的目标特征;在线得到单元,被配置成将所述目标图像样本输...

【专利技术属性】
技术研发人员:张婉平
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1