多模态图像识别方法和装置、模型训练方法和装置制造方法及图纸

技术编号：35143334 阅读：19 留言：0更新日期：2022-10-05 10:20

本公开提供了一种多模态图像识别模型训练方法和装置，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于人脸识别等场景。具体实现方案为：从预先构建的多目标多模态图像样本集中选取至少两种模态的目标图像样本，目标图像样本中均具有同一目标；将目标图像样本中任意一种模态图像样本输入目标网络进行特征提取，得到目标特征；将目标图像样本输入在线网络进行特征提取，得到第一在线特征；将第一在线特征分别输入对应的特征队列，得到一一对应的特征序列；基于目标特征、所述特征序列，训练对应在线网络的多模态图像识别模型。该实施方式提高了多模态图像识别的准确性。模态图像识别的准确性。模态图像识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
多模态图像识别方法和装置、模型训练方法和装置

[0001]本公开涉及人工智能
，具体为深度学习、图像处理、计算机视觉
，可应用于人脸识别等场景，尤其涉及一种多模态图像识别模型训练方法和装置、多模态图像识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。

技术介绍

[0002]在目标识别应用过程中，有时需要兼容可见光图像和近红外图像中目标的身份识别。由于可见光图像和近红外图像的风格差异很大，直接将可见光图像和近红外图像混合在一起训练得到的识别模型的效果不好。

技术实现思路

[0003]提供了一种多模态图像识别模型训练方法和装置、多模态图像识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。
[0004]根据第一方面，提供了一种多模态图像识别模型训练方法，该方法包括：从预先构建的多目标多模态图像样本集中选取至少两种模态的目标图像样本，目标图像样本中均具有同一目标；将目标图像样本中任意一种模态图像样本输入目标网络进行特征提取，得到目标特征；将目标图像样本输入在线网络进行特征提取，得到第一在线特征，在线网络与目标网络具有相同的网络结构；将第一在线特征分别输入对应的特征队列，得到一一对应的特征序列；基于目标特征、特征序列，训练对应在线网络的多模态图像识别模型。
[0005]根据第二方面，提供了一种多模态图像识别方法，该方法包括：获取具有至少两种模态的图像；将图像输入采用第一方面任一实现方式描述的方法生成的多模态图像识别模型中，得到图像的特征；基于图像的特征，得到图像中...

【技术保护点】

【技术特征摘要】
1.一种多模态图像识别模型训练方法，所述方法包括：从预先构建的多目标多模态图像样本集中选取至少两种模态的目标图像样本，所述目标图像样本中均具有同一目标；将所述目标图像样本中任意一种模态图像样本输入目标网络进行特征提取，得到目标特征；将所述目标图像样本输入在线网络进行特征提取，得到第一在线特征，所述在线网络与所述目标网络具有相同的网络结构；将所述第一在线特征分别输入对应的特征队列，得到一一对应的特征序列；基于所述目标特征、所述特征序列，训练对应所述在线网络的多模态图像识别模型。2.根据权利要求1所述的方法，其中，所述基于所述目标特征、所述特征序列，训练对应所述在线网络的多模态图像识别模型，包括：基于所述目标特征、所述特征序列，更新所述目标网络的第一参数和所述在线网络的第二参数；响应于确定所述目标网络满足训练完成条件，得到对应所述在线网络的多模态图像识别模型，所述目标网络是基于所述第一参数训练的。3.根据权利要求2所述的方法，其中，所述基于所述目标特征、所述特征序列，更新所述目标网络的第一参数和所述在线网络的第二参数，包括：基于所述目标特征和所述特征序列，计算各个模态的损失值；基于所述损失值计算总损失值；基于所述总损失值，更新所述第一参数和所述第二参数。4.根据权利要求3所述的方法，其中，所述基于所述总损失值，更新所述第一参数和所述第二参数，包括：基于所述总损失值，采用随机梯度下降法更新所述第一参数；通过所述随机梯度下降法访问的所述第一参数，并采用指数滑动平均算法更新所述第二参数。5.根据权利要求3所述的方法，其中，所述基于所述目标特征和所述特征序列，计算各个模态的损失值，包括：根据分类损失函数和所述目标特征、所述特征序列中的第二在线特征，计算所述损失值，所述第二在线特征至少包括所述第一在线特征。6.根据权利要求5所述的方法，其中，所述第二在特征还包括：所述特征队列中的历史在线特征，所述历史在线特征为所述在线网络在历史时刻输入所述特征队列的在线特征。7.根据权利要求1
‑
6之一所述的方法，其中，所述特征队列为先进先出队列；所述将所述第一在线特征分别输入对应的特征队列，得到一一对应的特征序列，包括：将所述第一在线特征分别更新至所述第一在线特征对应的先进先出队列的队尾；响应于确定所述先进先出队列已满，弹出所述先进先出队列的队首的历史在线特征。8.根据权利要求1所述的方法，其中，所述至少两种模态包括：色彩模式模态和近红外模态。9.一种多模态图像识别方法，所述方法包括：获取具有至少两种模态的图像；
将所述图像输入采用权利要求1
‑
8中任一项所述的多模态图像识别模型训练方法得到的多模态图像识别模型中，得到所述图像的特征；基于所述图像的特征，得到所述图像中目标的识别结果。10.根据权利要求9所述的方法，其中，所述基于所述图像的特征，得到所述图像中目标的识别结果，包括：一一计算所述图像的特征与数据库中的至少两个底库特征的相似度；选取相似度最高的底库特征对应的目标，并将该目标的身份信息作为所述图像中目标的识别结果。11.根据权利要求9所述的方法，其中，所述图像包括：色彩模式图像和近红外图像，所述识别结果包括：所述色彩模式图像中目标的特征和所述近红外图像中目标的特征。12.根据权利要求9所述的方法，其中，所述目标为人脸，所述识别结果包括：所述图像中不同人物的人脸特征。13.一种多模态图像识别模型训练装置，所述装置包括：样本选取单元，被配置成从预先构建的多目标多模态图像样本集中选取至少两种模态的目标图像样本，所述目标图像样本中均具有同一目标；目标得到单元，被配置成将所述目标图像样本中任意一种模态图像样本输入目标网络进行特征提取，得到所述目标图像样本的目标特征；在线得到单元，被配置成将所述目标图像样本输...

【专利技术属性】
技术研发人员：张婉平，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人