多模态场景识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:38532870 阅读:15 留言:0更新日期:2023-08-19 17:05
本申请涉及一种多模态场景识别方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:确定预训练的第一多模态场景识别模型;第一多模态场景识别模型包括第一图像编码网络,第二多模态场景识别模型包括第二图像编码网络;将样本图像分别输入第一图像编码网络和第二图像编码网络中进行编码处理,将对应的编码处理的结果分别输入预训练的第一辅助分支和已训练的第二辅助分支中进行图像识别,得到第一图像识别结果和第二图像识别结果;基于第一图像识别结果与第二图像识别结果之间的差异,调整第一图像编码网络,得到已训练的第一多模态场景识别模型;基于已训练的第一多模态场景识别模型进行场景识别。采用本方法能够提高场景识别的准确度。提高场景识别的准确度。提高场景识别的准确度。

【技术实现步骤摘要】
多模态场景识别方法、装置、计算机设备和存储介质


[0001]本申请涉及深度学习
,特别是涉及一种多模态场景识别方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机和互联网技术的发展,场景识别的应用越来越广泛,例如,可以对拍摄到的图像或视频进行场景识别,场景识别可以用于为图像或视频添加与场景匹配的文本。
[0003]传统技术中,可以利用多模态表示模型进行场景识别,多模态表示模型是指机器从图像、文本、视频、语音等多个领域数据提取信息,实现信息的转换和融合,进而提升模型的性能的一种技术。由于通常多模态表示模型的结构复杂,从而可以通过知识蒸馏降低模型的复杂度。
[0004]然而,多模态表示模型的蒸馏方案,主要是利用教师网络去训练学生网络、多个学生网络之间互蒸馏、单个学生网络的自蒸馏等,采用传统的蒸馏方案得到的模型在准确度上有待提升。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高识别准确度的多模态场景识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种多模态场景识别方法。所述方法包括:确定预训练的第一多模态场景识别模型;所述预训练的第一多模态场景识别模型包括第一图像编码网络、第一文本编码网络,所述预训练的第一多模态场景识别模型,是基于已训练的第二多模态场景识别模型训练得到的,所述第二多模态场景识别模型包括第二图像编码网络、第二文本编码网络,所述第一图像编码网络的网络复杂程度小于所述第二图像编码网络的网络复杂程度;将样本图像输入到所述第一图像编码网络中进行编码处理,将编码处理的结果输入到预训练的第一辅助分支中进行图像识别,得到第一图像识别结果;将样本图像输入到所述第二图像编码网络中进行编码处理,将编码处理的结果输入到已训练的第二辅助分支中进行图像识别,得到第二图像识别结果;基于所述第一图像识别结果与所述第二图像识别结果之间的差异,调整所述第一图像编码网络,得到已训练的第一多模态场景识别模型;基于所述已训练的第一多模态场景识别模型进行场景识别。
[0007]第二方面,本申请还提供了一种多模态场景识别装置。所述装置包括:模型确定模块,用于确定预训练的第一多模态场景识别模型;所述预训练的第一多模态场景识别模型包括第一图像编码网络、第一文本编码网络,所述预训练的第一多模态场景识别模型,是基于已训练的第二多模态场景识别模型训练得到的,所述第二多模态场景识别模型包括第二图像编码网络、第二文本编码网络,所述第一图像编码网络的网络复杂程度小于所述第二图像编码网络的网络复杂程度;第一图像识别模块,用于将样本图像输入到所述第一图像编码网络中进行编码处理,将编码处理的结果输入到预训练的第一辅助分支中进行图像识
别,得到第一图像识别结果;第二图像识别模块,用于将样本图像输入到所述第二图像编码网络中进行编码处理,将编码处理的结果输入到已训练的第二辅助分支中进行图像识别,得到第二图像识别结果;模型调整模块,用于基于所述第一图像识别结果与所述第二图像识别结果之间的差异,调整所述第一图像编码网络,得到已训练的第一多模态场景识别模型;场景识别模块,用于基于所述已训练的第一多模态场景识别模型进行场景识别。
[0008]在一些实施例中,所述模型调整模块还用于:基于所述第一图像识别结果与所述第二图像识别结果之间的差异,得到第一损失值;将样本图像输入到所述预训练的第一多模态场景识别模型中的第一图像编码网络中进行编码处理,得到第一编码特征;将所述样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理,得到第二编码特征;基于所述第一编码特征与所述第二编码特征之间的特征差异值,得到第二损失值;基于所述第一损失值和所述第二损失值,调整所述预训练的第一多模态场景识别模型中的第一图像编码网络,得到所述已训练的第一多模态场景识别模型。
[0009]在一些实施例中,所述多模态场景识别装置还包括第一训练模块,所述第一训练模块用于:将样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理,将编码处理的结果输入到待训练的第二辅助分支中进行图像识别,得到样本图像的第三图像识别结果;基于所述第三图像识别结果和样本图像的标准图像识别结果之间的差异,调整所述待训练的第二辅助分支,得到所述已训练的第二辅助分支。
[0010]在一些实施例中,所述第一训练模块还用于:基于所述第三图像识别结果和所述标准图像识别结果之间的差异,调整所述待训练的第二辅助分支,得到初步训练的第二辅助分支;将样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理,将编码处理的结果输入到待训练的第二辅助分支中进行图像识别,得到样本图像的第四图像识别结果;基于所述第四图像识别结果和样本图像的标准图像识别结果之间的差异,调整所述初步训练的第二辅助分支,得到所述已训练的第二辅助分支。
[0011]在一些实施例中,所述多模态场景识别装置还包括第二训练模型,所述第二训练模块用于:将样本图像和样本文本输入到所述已训练的第二多模态场景识别模型中进行相似度计算,生成第一相似度;所述第一相似度,表征样本图像和样本文本之间的相似度;将样本图像和样本文本输入到待训练的第一多模态场景识别模型中进行相似度计算,生成第二相似度;基于所述第一相似度和所述第二相似度之间的差值,调整所述待训练的第一多模态场景识别模型的参数,得到预训练的第一多模态场景识别模型。
[0012]在一些实施例中,所述场景识别模块还用于:将目标场景图像输入所述已训练的第一多模态场景识别模型的第一图像编码网络中,得到目标图像特征;将候选场景文本输入所述已训练的第一多模态场景识别模型的第一文本编码网络中,得到候选文本特征;在所述目标图像特征与所述候选文本特征之间的相似度大于相似度阈值的情况下,将所述候选场景文本确定为与所述目标场景图像匹配的目标场景文本。
[0013]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述多模态场景识别方法中的步骤。
[0014]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述多模态场景识别方法中
的步骤。
[0015]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述多模态场景识别方法中的步骤。
[0016]上述多模态场景识别方法、装置、计算机设备、存储介质和计算机程序产品,第一多模态场景识别模型包括第一图像编码网络,第二多模态场景识别模型包括第二图像编码网络,且第一图像编码网络的网络复杂程度小于第二图像编码网络的网络复杂程度,已训练的第二多模态场景识别模型经过大量数据的训练,能够计算不同模态的数据之间的相似度实现场景识别并具有较高本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态场景识别方法,其特征在于,所述方法包括:确定预训练的第一多模态场景识别模型;所述预训练的第一多模态场景识别模型包括第一图像编码网络、第一文本编码网络,所述预训练的第一多模态场景识别模型,是基于已训练的第二多模态场景识别模型训练得到的,所述第二多模态场景识别模型包括第二图像编码网络、第二文本编码网络,所述第一图像编码网络的网络复杂程度小于所述第二图像编码网络的网络复杂程度;所述第一文本编码网络是基于所述第二文本编码网络确定的;将样本图像输入到所述第一图像编码网络中进行编码处理,将编码处理的结果输入到预训练的第一辅助分支中进行图像识别,得到第一图像识别结果;将样本图像输入到所述第二图像编码网络中进行编码处理,将编码处理的结果输入到已训练的第二辅助分支中进行图像识别,得到第二图像识别结果;基于所述第一图像识别结果与所述第二图像识别结果之间的差异,调整所述第一图像编码网络,得到已训练的第一多模态场景识别模型;基于所述已训练的第一多模态场景识别模型进行场景识别。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一图像识别结果与所述第二图像识别结果之间的差异,调整所述第一图像编码网络,得到已训练的第一多模态场景识别模型包括:基于所述第一图像识别结果与所述第二图像识别结果之间的差异,得到第一损失值;将样本图像输入到所述预训练的第一多模态场景识别模型中的第一图像编码网络中进行编码处理,得到第一编码特征;将所述样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理,得到第二编码特征;基于所述第一编码特征与所述第二编码特征之间的特征差异值,得到第二损失值;基于所述第一损失值和所述第二损失值,调整所述预训练的第一多模态场景识别模型中的第一图像编码网络,得到所述已训练的第一多模态场景识别模型。3.根据权利要求1所述的方法,其特征在于,确定所述已训练的第二辅助分支的步骤包括:将样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理,将编码处理的结果输入到待训练的第二辅助分支中进行图像识别,得到样本图像的第三图像识别结果;基于所述第三图像识别结果和样本图像的标准图像识别结果之间的差异,调整所述待训练的第二辅助分支,得到所述已训练的第二辅助分支。4.根据权利要求3所述的方法,其特征在于,所述基于所述第三图像识别结果和样本图像的标准图像识别结果之间的差异,调整所述待训练的第二辅助分支,得到所述已训练的第二辅助分支包括:基于所述第三图像识别结果和所述标准图像识别结果之间的差异,调整所述待训练的第二辅助分支,得到初步训练的第二辅助分支;将样本图像输入到所述已训练的第二多模态场景识别模型中的第二图像编码网络中进行编码处理,将编码处理的结果输入到待训练的第二辅助分支中进行图像识别,得到样本图像的第四图像识别结果;
基...

【专利技术属性】
技术研发人员:卢波肖塞曲晓超刘洛麒
申请(专利权)人:厦门美图之家科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1