一种图像文本检索方法、装置及计算机存储介质制造方法及图纸

技术编号：34054766 阅读：48 留言：0更新日期：2022-07-06 16:42

本发明专利技术公开了一种图像文本检索方法、装置及计算机存储介质，包括将图像样本库内图像样本输入至完成训练的多标签图像分类器中，输出图像样本关键词，基于每幅图像样本及其对应的图像样本关键词之间的映射关系，构建正排表，基于正排表获取与各个图像样本关键词对应的图像样本，构建倒排表，将检索文本输入至完成训练的多标签文本分类器中，输出检索文本关键词，基于倒排表，在图像样本库中检索与检索文本关键词对应的图像样本，得到预筛选图像样本集，将预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型，输出检索结果，降低图像文本检索模型的计算复杂度，将搜索引擎的倒排表引入到关键词匹配中，实现高效预筛选，提高了检索效率。提高了检索效率。提高了检索效率。

An image text retrieval method, device and computer storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种图像文本检索方法、装置及计算机存储介质

[0001]本专利技术涉及图像文本检索
，特别是涉及一种图像文本检索方法、装置及计算机存储介质。

技术介绍

[0002]近年来，跨模态图像文本检索逐渐成为多媒体计算和信息检索领域的主流研究课题之一。它的目的是通过一种模态下的查询样本来从一个大型存储库中检索另一种模式下的样本。具体来说，将一个文本作为查询样本来检索其相应图像称为文本到图像的检索，反之亦然。由于文本和图像这两种模式之间存在语义差异，所以文本检索具有很大的挑战性。
[0003]从广义上讲，关于图像文本检索的研究可分为两种：晚期融合和早期融合。晚期融合方法强调图像和文本的特征编码，然后利用图像和文本特征之间的简单内积来计算相似度，在学习特征表示时缺乏跨模态的信息融合，性能通常是有限的。与之相反的早期融合方法更注重设计复杂的交互模块，以便深入融合图像和文本特征，但在早期融合方法中，需要将每一对图像文本对送入模型计算相似度，这种方法效率较低，在实际应用中会存在计算成本高的问题。而采用注重效率的方法使用轻量级架构，将每一对图像文本对都送入模型计算相似度，仍需要很长时间。
[0004]因此尽管图像文本检索在准确性方面取得了蓬勃发展，但当前的图像文本检索方法仍存在着时间复杂度的问题，使得这些方法在实践应用受到了阻碍。综上所述可知，现有图像文本检索模型不能在保证性能的情况下提高检索效率。

技术实现思路

[0005]本专利技术的目的是提供一种图像文本检索方法、装置及计算机存储介质，以解决现有...

【技术保护点】

【技术特征摘要】
1.一种图像文本检索方法，其特征在于，包括：将图像样本库内图像样本输入至完成训练的多标签图像分类器中，输出图像样本关键词；基于每幅图像样本及其对应的图像样本关键词之间的映射关系，构建第一正排表；基于所述第一正排表，获取与各个图像样本关键词对应的图像样本，构建第一倒排表；将检索文本输入至完成训练的多标签文本分类器中，输出检索文本关键词；基于所述第一倒排表，在所述图像样本库中检索与所述检索文本关键词对应的图像样本，得到预筛选图像样本集；将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型，输出检索结果。2.如权利要求1所述图像文本检索方法，其特征在于，还包括：将文本样本库内文本样本输入至完成训练的多标签文本分类器中，输出文本样本关键词；基于各个文本样本及其对应的文本样本关键词之间的映射关系，构建第二正排表；基于所述第二正排表，获取与各个文本样本关键词对应的文本样本，构建第二倒排表；将检索图像输入至完成训练的多标签图像分类器中，输出检索图像关键词；基于所述第二倒排表，在所述文本样本库中检索与所述检索图像关键词对应的文本样本，得到预筛选文本样本集；将所述预筛选文本样本集与检索图像输入至训练完成的图像文本检索模型，输出检索结果。3.如权利要求1所述图像文本检索方法，其特征在于，所述基于每幅图像样本及其对应的图像样本关键词之间的映射关系，构建第一正排表包括：将各个图像样本的ID指定为键，各个图像样本对应的关键词指定为值，基于键到值的映射，构建所述第一正排表。4.如权利要求3所述图像文本检索方法，其特征在于，所述构建第一倒排表包括：根据所述第一正排表中图像样本ID与各个图像样本关键词的映射关系，检索各个图像样本关键词对应的图像样本ID，并将各个图像样本关键词指定为键，与各个图像样本关键词对应的图像样本ID指定为值，构建所述第一倒排表。5.如权利要求1所述图像文本检索方法，其特征在于，所述多标签图像分类器、所述多标签文本分类器及所述图像文本检索模型的训练过程包括：获取训练数据集；将所述训练数据集中图像数据集输入图像编码器中，提取图像特征值；将所述图像特征值发送至所述多标签图像分类器，利用非对称损失函数作为多标签图像分类损失进行约束，完成所述多标签图像分类器的训练；将所述训练...

【专利技术属性】
技术研发人员：王丹，张韫竹，张翔，王海光，曹敏，曹自强，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人