【技术实现步骤摘要】
基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
本专利技术属于计算机视觉领域,尤其涉及一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。图文匹配技术在很多领域都有广泛的应用需求,如:安防监控场景下的基于自然语言的行人/身份/行为/事件/属性/目标检索、人机交互背景下的语音-图像跨模态检索、互联网电商平台中商品的文字描述与图像照片的跨模态匹配及相关产品推荐等。此外,图文匹配技术的进步也可以推动指代性表达、视觉问答、图像描述、交互式三维视觉场景多轮对话、视觉辅助的跨语种翻译、视觉-语言导航、基于语言的图像合成等众多视觉-语言多模态任务的共同进步。图文匹配任务始终面临着来自视觉-语言之间“语义理解鸿沟”的巨大挑战,它来源于图像与文本间存在的巨大数据结构差异。虽然图文匹配在近几年出现了自底向上注意力机制、预训练语言模型、图像-文本融合式建模等重要研究进展,发表的很多相关工作都取得了越来越好的效果,将图文匹配的性能提高 ...
【技术保护点】
1.一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,包括:/nS1:获取图文匹配数据集,并构建学生网络模型和老师网络模型;/nS2:对所述图文匹配数据集进行预处理和数据加载;/nS3:基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵,计算差分相似度矩阵;基于差分相似度矩阵,计算奇异值;基于奇异值,构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;基于正交相似度软蒸馏损失函数或正交相似度硬蒸馏损失函数,计算联合损失函数;基于联合损失函数对学生网络模型进行训练;/nS4:对训练完成后的学生网络模型进行性能测试,得到图文匹配数据集的性能评测结果和训练好 ...
【技术特征摘要】
1.一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,包括:
S1:获取图文匹配数据集,并构建学生网络模型和老师网络模型;
S2:对所述图文匹配数据集进行预处理和数据加载;
S3:基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵,计算差分相似度矩阵;基于差分相似度矩阵,计算奇异值;基于奇异值,构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;基于正交相似度软蒸馏损失函数或正交相似度硬蒸馏损失函数,计算联合损失函数;基于联合损失函数对学生网络模型进行训练;
S4:对训练完成后的学生网络模型进行性能测试,得到图文匹配数据集的性能评测结果和训练好的学生网络模型;
S5:将待测图像或文本输入训练好的学生网络模型,输出图像对应的文本或文本对应的图像。
2.根据权利要求1所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,所述S1包括:
S1.1:获取图文匹配数据集;
S1.2:采用切词器对图文匹配数据集中的文本进行切词处理,并按词的出现顺序配以相应的整数编号,构建双向词典集合;
S1.3:采用图像编码器和文本编码器分别提取图文匹配数据集的图像特征和文本特征;
S1.4:构建学生网络模型和老师网络模型,将老师网络模型的知识传授给学生网络模型,所述学生网络模型和老师网络模型包括图像编码器和文本编码器。
3.根据权利要求2所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,所述S2包括:
S2.1:根据任务需要,对所述图文匹配数据集中的图像进行预处理,图像预处理至少包括:归一化、缩放、随机剪裁以及随机翻转处理中的一种;
S2.2:根据任务需要,对所述图文匹配数据集中的文本进行预处理,文本预处理至少包括:采用切词器将句子切分成单个单词,采用S1.2所述的双向词典集合将每个单词从字符串映射成整数编号,进而将整数编号映射成一位有效编码,或,对长度不够的句子补零填充,或,对句长降序排列处理中的一种;
S2.3:对图文匹配数据集进行分割、乱序和批次整理,完成图文匹配训练集、图文匹配验证集以及图文匹配测试集的加载。
4.根据权利要求3所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,所述S3包括:
S3.1:获取一批次的图文匹配训练集;
S3.2:采用前向传播对所述学生网络模型和老师网络模型进行处理,得到相似度打分矩阵;
S3.3:基于学生网络的相似度矩阵和老师网络的相似度矩阵,计算正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;
S3.4:基于正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数,计算联合损失函数;
S3.5:基于联合损失函数对学生网络模型进行两阶段训练;
S3.6:采用图文匹配验证集对锻炼好的学生网络模型进行性能测评,若测评结果取得了新的最优精度,则保持当前学生网络模型的参数文件;否则,不保存;若训练次数达到最大时,没有在验证时取得新的最优精度,则退出训练。
5.根据权利要求4所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,所述S3.2包括:
S3.2...
【专利技术属性】
技术研发人员:王亮,黄岩,王聿铭,袁辉,纪文峰,李凯,
申请(专利权)人:中科人工智能创新技术研究院青岛有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。