当前位置: 首页 > 专利查询>苏州大学专利>正文

一种图像文本检索方法、装置及计算机存储介质制造方法及图纸

技术编号:34054766 阅读:48 留言:0更新日期:2022-07-06 16:42
本发明专利技术公开了一种图像文本检索方法、装置及计算机存储介质,包括将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建正排表,基于正排表获取与各个图像样本关键词对应的图像样本,构建倒排表,将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词,基于倒排表,在图像样本库中检索与检索文本关键词对应的图像样本,得到预筛选图像样本集,将预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果,降低图像文本检索模型的计算复杂度,将搜索引擎的倒排表引入到关键词匹配中,实现高效预筛选,提高了检索效率。提高了检索效率。提高了检索效率。

An image text retrieval method, device and computer storage medium

【技术实现步骤摘要】
一种图像文本检索方法、装置及计算机存储介质


[0001]本专利技术涉及图像文本检索
,特别是涉及一种图像文本检索方法、装置及计算机存储介质。

技术介绍

[0002]近年来,跨模态图像文本检索逐渐成为多媒体计算和信息检索领域的主流研究课题之一。它的目的是通过一种模态下的查询样本来从一个大型存储库中检索另一种模式下的样本。具体来说,将一个文本作为查询样本来检索其相应图像称为文本到图像的检索,反之亦然。由于文本和图像这两种模式之间存在语义差异,所以文本检索具有很大的挑战性。
[0003]从广义上讲,关于图像文本检索的研究可分为两种:晚期融合和早期融合。晚期融合方法强调图像和文本的特征编码,然后利用图像和文本特征之间的简单内积来计算相似度,在学习特征表示时缺乏跨模态的信息融合,性能通常是有限的。与之相反的早期融合方法更注重设计复杂的交互模块,以便深入融合图像和文本特征,但在早期融合方法中,需要将每一对图像文本对送入模型计算相似度,这种方法效率较低,在实际应用中会存在计算成本高的问题。而采用注重效率的方法使用轻量级架构,将每一对图像文本对都送入模型计算相似度,仍需要很长时间。
[0004]因此尽管图像文本检索在准确性方面取得了蓬勃发展,但当前的图像文本检索方法仍存在着时间复杂度的问题,使得这些方法在实践应用受到了阻碍。综上所述可知,现有图像文本检索模型不能在保证性能的情况下提高检索效率。

技术实现思路

[0005]本专利技术的目的是提供一种图像文本检索方法、装置及计算机存储介质,以解决现有技术中检索效率低,耗时久的问题。
[0006]为解决上述技术问题,本专利技术提供一种图像文本检索方法、装置及计算机存储介质,包括:将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词;基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表;基于所述第一正排表,获取与各个图像样本关键词对应的图像样本,构建第一倒排表;将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词;基于所述第一倒排表,在所述图像样本库中检索与所述检索文本关键词对应的图像样本,得到预筛选图像样本集;将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型,输出检索结果。
[0007]优选地,图像文本检索方法还包括:将文本样本库内文本样本输入至完成训练的多标签文本分类器中,输出文本样本关键词;基于各个文本样本及其对应的文本样本关键词之间的映射关系,构建第二正排表;基于所述第二正排表,获取与各个文本样本关键词对应的文本样本,构建第二倒排表;将检索图像输入至完成训练的多标签图像分类器中,输出检索图像关键词;基于所述第二倒排表,在所述文本样本库中检索与所述检索图像关键词对应的文本样本,得到预筛选文本样本集;将所述预筛选文本样本集与检索图像输入至训练完成的图像文本检索模型,输出检索结果。
[0008]优选地,所述基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表包括:将各个图像样本的ID指定为键,各个图像样本对应的关键词指定为值,基于键到值的映射,构建所述第一正排表。
[0009]优选地,所述构建第一倒排表包括:根据所述第一正排表中图像样本ID与各个图像样本关键词的映射关系,检索各个图像样本关键词对应的图像样本ID,并将各个图像样本关键词指定为键,与各个图像样本关键词对应的图像样本ID指定为值,构建所述第一倒排表。
[0010]优选地,所述多标签图像分类器、所述多标签文本分类器及所述图像文本检索模型的训练过程包括:获取训练数据集;将所述训练数据集中图像数据集输入图像编码器中,提取图像特征值;将所述图像特征值发送至所述多标签图像分类器,利用非对称损失函数作为多标签图像分类损失进行约束,完成所述多标签图像分类器的训练;将所述训练数据集中文本数据集输入文本编码器中,提取文本特征值;将所述文本特征值发送至所述多标签文本分类器中,利用非对称损失函数作为多标签文本分类损失进行约束,完成所述多标签文本分类器的训练;将所述图像特征值与所述文本特征值发送至多模态编码器中,利用损失函数进行约束,完成所述图像文本检索模型的训练。
[0011]优选地,所述多标签图像分类器与所述多标签文本分类器采用的非对称损失函数其计算公式为:其中,为非对称损失函数,为标签个数,为正样本损失函数,为负样本损失函数,表示第个标签是正确的标签,表示第个标签是错误的标签;
其中,为正聚焦参数,为负聚焦参数,为第个标签的输出概率,为偏移标签概率,当时,负样本将被丢弃。
[0012]优选地,所述将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型,输出检索结果包括:将所述预筛选图像样本集与所述检索文本分别输入至图像编码器和文本编码器中提取图像特征以及文本特征;将所述图像特征和所述文本特征输入至多模态编码器中,通过所述多模态编码器将图像特征与文本特征融合,输出检索结果。本专利技术还提供了一种图像文本检索方法的装置,包括:图像关键词预测模块,用于利用多标签图像分类器对图像样本关键词预测;第一正排表构建模块,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表;第一倒排表构建模块,基于所述第一正排表,获取与各个图像样本关键词对应的图像样本,构建第一倒排表;文本关键词预测模块,用于利用多标签文本分类器对检索文本关键词预测;预筛选模块,用于筛除图像样本关键词与文本样本关键词中没有重叠的图像样本,得到预筛选图像样本集;检索模块,用于将所述预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果。
[0013]本专利技术还提供了一种图像文本检索方法的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种图像文本检索方法的步骤。
[0014]本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种图像文本检索方法的步骤。
[0015]本专利技术所提供的一种图像文本检索方法,基于多标签图像分类器与多标签文本分类器构建预筛选框架,利用训练结束的多标签图像分类器和多标签文本分类器预测图像关键词和文本关键词,基于所述图像关键词和所述文本关键词构造正排表和倒排表,降低了计算复杂度,减少了预筛选的耗时,基于所述倒排表,将图像关键词和文本关键词对应的样本合并为一个预筛选候选集,提高了预筛选效率,且本专利技术将关键词预测转化为一个多标签分类任务,为轻量级高性能关键词预测提供了新的学习方案。
附图说明
[0016]为了更清楚的说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根
据这些附图获得其他的附图。
[0017]图1为本专利技术所提供的一种图像文本检索方法的第一种具体实施例的流程图;图2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像文本检索方法,其特征在于,包括:将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词;基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表;基于所述第一正排表,获取与各个图像样本关键词对应的图像样本,构建第一倒排表;将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词;基于所述第一倒排表,在所述图像样本库中检索与所述检索文本关键词对应的图像样本,得到预筛选图像样本集;将所述预筛选图像样本集与所述检索文本输入至完成训练的图像文本检索模型,输出检索结果。2.如权利要求1所述图像文本检索方法,其特征在于,还包括:将文本样本库内文本样本输入至完成训练的多标签文本分类器中,输出文本样本关键词;基于各个文本样本及其对应的文本样本关键词之间的映射关系,构建第二正排表;基于所述第二正排表,获取与各个文本样本关键词对应的文本样本,构建第二倒排表;将检索图像输入至完成训练的多标签图像分类器中,输出检索图像关键词;基于所述第二倒排表,在所述文本样本库中检索与所述检索图像关键词对应的文本样本,得到预筛选文本样本集;将所述预筛选文本样本集与检索图像输入至训练完成的图像文本检索模型,输出检索结果。3.如权利要求1所述图像文本检索方法,其特征在于,所述基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建第一正排表包括:将各个图像样本的ID指定为键,各个图像样本对应的关键词指定为值,基于键到值的映射,构建所述第一正排表。4.如权利要求3所述图像文本检索方法,其特征在于,所述构建第一倒排表包括:根据所述第一正排表中图像样本ID与各个图像样本关键词的映射关系,检索各个图像样本关键词对应的图像样本ID,并将各个图像样本关键词指定为键,与各个图像样本关键词对应的图像样本ID指定为值,构建所述第一倒排表。5.如权利要求1所述图像文本检索方法,其特征在于,所述多标签图像分类器、所述多标签文本分类器及所述图像文本检索模型的训练过程包括:获取训练数据集;将所述训练数据集中图像数据集输入图像编码器中,提取图像特征值;将所述图像特征值发送至所述多标签图像分类器,利用非对称损失函数作为多标签图像分类损失进行约束,完成所述多标签图像分类器的训练;将所述训练...

【专利技术属性】
技术研发人员:王丹张韫竹张翔王海光曹敏曹自强
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1