多模态场景识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：38532870 阅读：15 留言：0更新日期：2023-08-19 17:05

本申请涉及一种多模态场景识别方法、装置、计算机设备、存储介质和计算机程序产品。方法包括：确定预训练的第一多模态场景识别模型；第一多模态场景识别模型包括第一图像编码网络，第二多模态场景识别模型包括第二图像编码网络；将样本图像分别输入第一图像编码网络和第二图像编码网络中进行编码处理，将对应的编码处理的结果分别输入预训练的第一辅助分支和已训练的第二辅助分支中进行图像识别，得到第一图像识别结果和第二图像识别结果；基于第一图像识别结果与第二图像识别结果之间的差异，调整第一图像编码网络，得到已训练的第一多模态场景识别模型；基于已训练的第一多模态场景识别模型进行场景识别。采用本方法能够提高场景识别的准确度。提高场景识别的准确度。提高场景识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
多模态场景识别方法、装置、计算机设备和存储介质

[0001]本申请涉及深度学习
，特别是涉及一种多模态场景识别方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机和互联网技术的发展，场景识别的应用越来越广泛，例如，可以对拍摄到的图像或视频进行场景识别，场景识别可以用于为图像或视频添加与场景匹配的文本。
[0003]传统技术中，可以利用多模态表示模型进行场景识别，多模态表示模型是指机器从图像、文本、视频、语音等多个领域数据提取信息，实现信息的转换和融合，进而提升模型的性能的一种技术。由于通常多模态表示模型的结构复杂，从而可以通过知识蒸馏降低模型的复杂度。
[0004]然而，多模态表示模型的蒸馏方案，主要是利用教师网络去训练学生网络、多个学生网络之间互蒸馏、单个学生网络的自蒸馏等，采用传统的蒸馏方案得到的模型在准确度上有待提升。

技术实现思路

[0005]基于此，有必要针对上述技术问题，提供一种能够提高识别准确度的多模态场景识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面，本申请提供了一种多模态场景识别方法。所述方法包括：确定预训练的第一多模态场景识别模型；所述预训练的第一多模态场景识别模型包括第一图像编码网络、第一文本编码网络，所述预训练的第一多模态场景识别模型，是基于已训练的第二多模态场景识别模型训练得到的，所述第二多模态场景识别模型包括第二图像编码网络、第二文本编码网络，所述第一图像编码网络的网络复杂...

【技术保护点】

【技术特征摘要】
1.一种多模态场景识别方法，其特征在于，所述方法包括：确定预训练的第一多模态场景识别模型；所述预训练的第一多模态场景识别模型包括第一图像编码网络、第一文本编码网络，所述预训练的第一多模态场景识别模型，是基于已训练的第二多模态场景识别模型训练得到的，所述第二多模态场景识别模型包括第二图像编码网络、第二文本编码网络，所述第一图像编码网络的网络复杂程度小于所述第二图像编码网络的网络复杂程度；所述第一文本编码网络是基于所述第二文本编码网络确定的；将样本图像输入到所述第一图像编码网络中进行编码处理，将编码处理的结果输入到预训练的第一辅助分支中进行图像识别，得到第一图像识别结果；将样本图像输入到所述第二图像编码网络中进行编码处理，将编码处理的结果输入到已训练的第二辅助分支中进行图像识别，得到第二图像识别结果；基于所述第一图像识别结果与所述第二图像识别结果之间的差异，调整所述第一图像编码网络，得到已训练的第一多模态场景识别模型；基于所述已训练的第一多模态场景识别模型进行场景识别。2.根据权利要求1所述的方法，其特征在于，所述基于所述第一图像识别结果与所述第二图像识别结果之间的差异，调整所述第一图像编码网络，得到已训练的第一多模态场景识别模型包括：基于所述第一图像识别结果与所述第二图像识别结果之间的差异，得到第一损失值；将样本图像输入到所述预训练的第一多模态场景识别模型中的第一图像编码网络中进行编码处理，得到第一编码特征；将所述样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理，得到第二编码特征；基于所述第一编码特征与所述第二编码特征之间的特征差异值，得到第二损失值；基于所述第一损失值和所述第二损失值，调整所述预训练的第一多模态场景识别模型中的第一图像编码网络，得到所述已训练的第一多模态场景识别模型。3.根据权利要求1所述的方法，其特征在于，确定所述已训练的第二辅助分支的步骤包括：将样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理，将编码处理的结果输入到待训练的第二辅助分支中进行图像识别，得到样本图像的第三图像识别结果；基于所述第三图像识别结果和样本图像的标准图像识别结果之间的差异，调整所述待训练的第二辅助分支，得到所述已训练的第二辅助分支。4.根据权利要求3所述的方法，其特征在于，所述基于所述第三图像识别结果和样本图像的标准图像识别结果之间的差异，调整所述待训练的第二辅助分支，得到所述已训练的第二辅助分支包括：基于所述第三图像识别结果和所述标准图像识别结果之间的差异，调整所述待训练的第二辅助分支，得到初步训练的第二辅助分支；将样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理，将编码处理的结果输入到待训练的第二辅助分支中进行图像识别，得到样本图像的第四图像识别结果；
基...

【专利技术属性】
技术研发人员：卢波，肖塞，曲晓超，刘洛麒，
申请(专利权)人：厦门美图之家科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人