一种多模态复合编码图像检索方法和系统技术方案

技术编号:32032265 阅读:12 留言:0更新日期:2022-01-27 13:09
本发明专利技术提供一种多模态复合编码图像检索方法和系统,方法包括:获取待检索信息,并判定待检索信息的数据类型;根据待检索信息的数据类型选择进行粗粒度检索或细粒度检索,细粒度检索包括当输入的待检索信息同时包括图像和文本描述数据时,通过对两种特征进行融合,获取复合特征,进而通过所述复合特征进行数据检索;本发明专利技术可以根据数据类型选择进行粗粒度检索或细粒度检索,可以通过对两种特征进行融合,获取复合特征,进而通过复合特征进行细粒度检索的数据检索;本发明专利技术可以提高数据库构建效率,增加了检索方式的灵活性,减小了检索难度,为图像检索提供一种精度与泛化性能统一,模糊检索与精准检索切换更灵活的解决方案。模糊检索与精准检索切换更灵活的解决方案。模糊检索与精准检索切换更灵活的解决方案。

【技术实现步骤摘要】
一种多模态复合编码图像检索方法和系统


[0001]本专利技术涉及计算机应用领域,尤其涉及一种多模态复合编码图像检索方法和系统。

技术介绍

[0002]图像检索技术在各种领域得到了广泛的应用,如商品搜索,视频内容理解等。但是由于图像的多样性,图像内容的复杂性,高效准确的图像检索方法的研究一直以来是机器视觉领域重要的研究课题。
[0003]目前,图像检索的技术流程主要为三步:特征的提取,特征编码以及数据库的索引。根据特征的不同,图像检索一般分为基于文本的检索和基于图像内容的检索,这两种技术也得到了广泛的应用与研究。基于文本的检索一般是对图像进行各维度属性的标记,检索时只能匹配具有相同属性的图像,准确性较高但泛化性能较差,而且需提前对大量图像进行人工标注,时间成本较高。基于图像内容的检索则利用图像语义为线索进行处理,以图像处理技术为基础完成图像低、高维特征的提取,并进行匹配,可检索存在相同或者相似特性的图像,具备一定的泛化性能,人工参与较少;但基于图像特征的多样性复杂性,可能存在大量的误匹配,例如当图像中存在相同类别但非相同目标图像时就很难进行区分。另外,通过提前对图像进行文本语义标注,完成图像内容的文本描述,应用起来标注成本较高,维护难度大。

技术实现思路

[0004]鉴于以上所述现有技术的缺点,本专利技术提供一种多模态复合编码图像检索方法和系统,以解决上述技术问题。
[0005]本专利技术提供的多模态复合编码图像检索方法,包括:
[0006]获取待检索信息,并判定待检索信息的数据类型;
[0007]根据所述待检索信息的数据类型选择进行粗粒度检索或细粒度检索,所述细粒度检索包括当输入的待检索信息同时包括图像和文本描述数据时,通过对两种特征进行融合,获取复合特征,进而通过所述复合特征进行数据检索,获取目标数据;所述粗粒度检索包括当输入的待检索信息包括图像或文本描述数据之一时,根据对应的特征进行数据检索,获取目标数据。
[0008]于本专利技术的一实施例中,预先建立识别模型并进行训练,所述识别模型包括用于图像描述生成的第一模型、用于文本处理的第二模型,以及用于多模态特征提取的第三模型;
[0009]通过所述第一模型对输入的图像数据进行处理,获取第一输出结果,所述第一输出结果包括图像特征编码以及图像内容的文本描述;
[0010]通过所述第二模型对输入的文本数据和/或第一模型输出的所述图像内容的文本描述进行处理,获取第二输出结果;
[0011]当输入的待检索信息为文本描述时,通过所述第二模型的输出结果进行所述粗粒度检索;
[0012]当输入的待检索信息为图像时,通过所述第一输出结果中的图像特征编码进行所述粗粒度检索,或者,将第一输出结果中的图像内容的文本描述输入至第二模型,通过第一输出结果中的图像特征编码和第二输出结果进行细粒度检索;
[0013]当同时输入的图像和文本描述时,将图像输入至第一模型,将文本描述输入至第二模型,再将各自的输出结果同时输入至所述第三模型,根据第三模型的输出结果进行所述细粒度检索。
[0014]于本专利技术的一实施例中,所述第二输出结果包括文本特征的文本编码,当输入的文本数据和/或第一模型输出的所述图像内容的文本描述包括多个句子时,所述文本编码为包括句子全局特征和局部特征的混合编码。
[0015]于本专利技术的一实施例中,通过所述第二模型对输入的文本数据和/或第一模型输出的所述图像内容的文本描述进行处理,获取包含文本特征的文本编码包括:
[0016]获取句子向量,并将所述句子向量作为混合编码的句编码部分;
[0017]对所述多个句子进行词性标注,并进行命名实体识别,获取用于与检索相关词性的词语,及词向量,并将所述词向量作为混合编码的词编码部分;
[0018]通过所述句编码部分和词编码部分,获取包含句子全局特征和局部特征的混合编码;
[0019]所述句编码部分和词编码部分均作为检索特征。
[0020]于本专利技术的一实施例中,所述通过对两种特征进行融合,获取复合特征包括:
[0021]根据第一模型和第二模型对输出结果,对图像特征和文本特征进行拼接,获取特征矩阵,完成初步融合;
[0022]通过一特殊卷积对所述特征矩阵进行注意力机制处理,获取新特征矩阵;
[0023]通过对所述新特征矩阵与原始特征矩阵进行通道融合,完成最终融合。
[0024]于本专利技术的一实施例中,通过一特殊卷积对所述特征矩阵进行注意力机制处理,获取将图向量与所有文本特征进行融合的新特征矩阵,所述特殊卷积的长度为特征矩阵的向量长度;
[0025]将所述新特征矩阵与原始特征矩阵进行通道融合,形成2通道特征图,完成最终融合。
[0026]于本专利技术的一实施例中,所述初步融合包括:
[0027]获取图向量,图向量所对应的所有句子向量,以及所有句子对应的词向量;
[0028]按图向量、图像对应的第一句子向量、第一句子对应的第一词向量的顺序,依次将图像中所有词向量进行拼接,获取所述包含图像特征和文本特征的特征矩阵。
[0029]本专利技术还提供一种多模态复合编码图像检索系统,包括
[0030]采集模块,用于获取待检索信息,并判定待检索信息的数据类型;
[0031]处理模块,用于根据所述待检索信息的数据类型选择进行粗粒度检索或细粒度检索,所述细粒度检索包括当输入的待检索信息同时包括图像和文本描述数据时,通过对两种特征进行融合,获取复合特征,进而通过所述复合特征进行数据检索,获取目标数据;所述粗粒度检索包括当输入的待检索信息包括图像或文本描述数据之一时,根据对应的特征
进行数据检索,获取目标数据。
[0032]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述方法。
[0033]本专利技术还提供一种电子终端,包括:处理器及存储器;
[0034]所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如上述中任一项所述方法。
[0035]本专利技术的有益效果:本专利技术中的多模态复合编码图像检索方法和系统,可以根据数据类型选择进行粗粒度检索或细粒度检索,可以通过对两种特征进行融合,获取复合特征,进而通过复合特征进行细粒度检索的数据检索;本专利技术可以提高数据库构建效率,增加了检索方式的灵活性,减小了检索难度,为图像检索提供一种精度与泛化性能统一,模糊检索与精准检索切换更灵活的解决方案。
附图说明
[0036]图1是本专利技术实施例中多模态复合编码图像检索方法的流程示意图。
[0037]图2是本专利技术实施例中多模态复合编码图像检索方法的句子编码的流程示意图。
[0038]图3是本专利技术实施例中多模态复合编码图像检索方法的词编码的流程示意图。
[0039]图4是本专利技术实施例中多模态复合编码图像检索方法的多模态特征符合编码流程示意图。
具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态复合编码图像检索方法,其特征在于,包括:获取待检索信息,并判定待检索信息的数据类型;根据所述待检索信息的数据类型选择进行粗粒度检索或细粒度检索,所述细粒度检索包括当输入的待检索信息同时包括图像和文本描述数据时,通过对两种特征进行融合,获取复合特征,进而通过所述复合特征进行数据检索,获取目标数据;所述粗粒度检索包括当输入的待检索信息包括图像或文本描述数据之一时,根据对应的特征进行数据检索,获取目标数据。2.根据权利要求1所述的多模态复合编码图像检索方法,其特征在于:预先建立识别模型并进行训练,所述识别模型包括用于图像描述生成的第一模型、用于文本处理的第二模型,以及用于多模态特征提取的第三模型;通过所述第一模型对输入的图像数据进行处理,获取第一输出结果,所述第一输出结果包括图像特征编码以及图像内容的文本描述;通过所述第二模型对输入的文本数据和/或第一模型输出的所述图像内容的文本描述进行处理,获取第二输出结果;当输入的待检索信息为文本描述时,通过所述第二模型的输出结果进行所述粗粒度检索;当输入的待检索信息为图像时,通过所述第一输出结果中的图像特征编码进行所述粗粒度检索,或者,将第一输出结果中的图像内容的文本描述输入至第二模型,通过第一输出结果中的图像特征编码和第二输出结果进行细粒度检索;当同时输入的图像和文本描述时,将图像输入至第一模型,将文本描述输入至第二模型,再将各自的输出结果同时输入至所述第三模型,根据第三模型的输出结果进行所述细粒度检索。3.根据权利要求2所述的多模态复合编码图像检索方法,其特征在于:所述第二输出结果包括文本特征的文本编码,当输入的文本数据和/或第一模型输出的所述图像内容的文本描述包括多个句子时,所述文本编码为包括句子全局特征和局部特征的混合编码。4.根据权利要求2所述的多模态复合编码图像检索方法,其特征在于,通过所述第二模型对输入的文本数据和/或第一模型输出的所述图像内容的文本描述进行处理,获取包含文本特征的文本编码包括:获取句子向量,并将所述句子向量作为混合编码的句编码部分;对所述多个句子进行词性标注,并进行命名实体识别,获取用于与检索相关词性的词语,及词向量...

【专利技术属性】
技术研发人员:张桂荣
申请(专利权)人:重庆紫光华山智安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1