【技术实现步骤摘要】
跨模态检索模型训练方法、跨模态检索方法、设备及介质
[0001]本专利技术属于跨模态检索
,涉及一种跨模态检索模型训练方法、跨模态检索方法、设备及计算机存储介质。
技术介绍
[0002]随着科学技术的不断发展,人们的生活环境充满了各种各样模态的数据,如图像、文本、语音、视频等。对于同一个事物,不同模态数据的表达形式不同,但表达的语义信息是相同的,因此不同模态之间的信息相互关联和补充,可以帮助人们更好地感知外部环境。随着互联网上多模态数据呈现指数式增长,从庞大的数据库中准确地检索出用户需要的数据尤为重要。然而目前大多数搜索引擎支持的都是单模态数据的检索,跨模态检索要求以一种模态的数据作为请求,检索出最相关的另一种模态的数据,相比于单模态检索,跨模态检索更符合用户的需求,具有重要的研究和应用价值。
[0003]虽然目前的跨模态检索方法已经取得不错的效果,但是传统的对比损失函数如三元损失(Triplet Loss)仅仅在一个批次(Batch)中通过随机采样的方式获取负样本,由于一个批次中样本的数量有限,使得采样到的负 ...
【技术保护点】
【技术特征摘要】
1.一种跨模态检索模型训练方法,其特征在于,基于各批次的训练数据,对图像与文本之间的跨模态检索模型进行训练;其中,单批次所述训练数据中包括由正样本对和负样本对组成的各样本对,各所述样本对中包括图像样本和文本样本;所述跨模态检索模型包括特征编码模块、采样优化模块和特征匹配模块;所述采样优化模块中包括图像记忆池和文本记忆池;所述特征匹配模块包括第一特征匹配子模块和第二特征匹配子模块;所述跨模态检索模型训练方法,包括:获取当前批次的所述训练数据,将其输入至所述特征编码模块,以获取所述训练数据中各所述样本对的图像Q编码信息与图像K编码信息,和各所述样本对的文本Q编码信息和文本K编码信息;将各所述样本对的图像K编码信息和文本K编码信息,输入所述采样优化模块中,以更新所述采样优化模块中的图像记忆池和文本记忆池;将各所述样本对的图像Q编码信息和文本Q编码信息,输入所述第一特征匹配子模块,以获取所述正样本对的Q码正相似度和所述负样本对的Q码负相似度;并基于所述Q码正相似度和所述Q码负相似度,获取所述训练数据的第一损失函数值;将各所述样本对的图像Q编码信息和图像K编码信息、与文本Q编码信息和文本K编码信息,输入所述第二特征匹配子模块,以获取所述正样本对的图文QK码正相似度和文图QK码正相似度;以及,基于各所述图像样本的Q编码信息与所述文本记忆池中的各文本K编码信息,获取各图文QK码负相似度,和基于各所述文本样本的Q编码信息与所述图像记忆池中的各图像K编码信息,获取各文图QK码负相似度;基于所述图文QK码正相似度和所述图文QK码负相似度,获取所述训练数据的第二损失函数值,和基于所述文图QK码正相似度和所述文图QK码负相似度,获取所述训练数据的第三损失函数值;基于所述第一损失函数值至所述第三损失函数值,获得总损失函数值;基于该总损失函数值,反向更新所述特征编码模块中的各模型参数;更新所述训练数据,以基于下一批次的所述训练数据执行该模型训练,直至退出。2.根据权利要求1所述的跨模态检索模型训练方法,其特征在于,所述特征编码模块包括图像特征编码子模块和文本特征编码子模块;其中,所述图像编码子模块包括图像Query编码器和图像Key编码器;所述文本编码子模块包括文本Query编码器和文本Key编码器;所述获取各所述样本对的图像Q编码信息与图像K编码信息,和各所述样本对的文本Q编码信息和文本K编码信息,包括:将各所述样本对输入所述图像特征编码子模块中,以基于所述图像Query编码器和所述图像Key编码器,对应提取各所述样本对的图像Q编码信息与图像K编码信息;将各所述样本对输入所述文本特征编码子模块中,以基于所述文本Query编码器和所述文本Key编码器,对应提取各所述样本对的文本Q编码信息与文本K编码信息。3.根据权利要求1所述的跨模态检索模型训练方法,其特征在于,所述更新所述采样优化模块中的图像记忆池和文本记忆池,包括:将输入的所述图像K编码信息存储至所述图像记忆池的最顶层,并将所述图像记忆池最底层的所述图像K编码信息移除;将输入的所述文本K编码信息存储至所述文本记忆池的最顶层,并将所述文本记忆池
最底层的所述文本K编码信息移除。4.根据权利要求1所述的跨模态检索模型训练方法,其特征在于,所述负样本对的Q码负相似度包括所述负样本对的图文Q码负相似度和文图Q码负相似度,所述获取所述正样本对的Q码正相似度,和所述负样本对的Q码负相似度,包括:计算所述正样本对的图像Q编码信息与文本Q编码信息之间的余弦相似度,以获得所述正样本对的Q码正相似度;计算所述负样本对的图像Q编码信息与文本Q编码信息之间的余弦相似度,以获得所述负样本对的图文Q码负相似度;计算所述负样本对的文本Q编码信息与图像Q编码信息之...
【专利技术属性】
技术研发人员:黄俊,潘浩,魏鑫燏,朱智聪,
申请(专利权)人:中国科学院上海高等研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。