一种融入图像描述驱动的图文双向检索方法及系统技术方案

技术编号:43103787 阅读:20 留言:0更新日期:2024-10-26 09:46
本发明专利技术提供一种融入图像描述驱动的图文双向检索方法及系统。该方法包括:获取待检索图文数据集,包括若干个待检索图像和待检索文本;分析待检索图文数据集的平台来源,根据平台来源选择提示词策略;利用提示词策略和预设大语言模型生成每个待检索图像的文本描述,并建立待检索图像与其对应的文本描述的索引;利用提示词策略和预设大语言模型生成每个待检索文本的语义增强文本;针对以文搜图任务,将给定的查询文本与每个待检索图像的文本描述进行相似度比较,返回相似度最高的前N个待检索图像;针对以图搜文任务,生成给定的查询图像的文本描述并将其与每个待检索文本的语义增强文本进行相似度比较,返回相似度最高的前N个待检索文本。

【技术实现步骤摘要】

本专利技术涉及图文跨模态检索,尤其涉及一种融入图像描述驱动的图文双向检索方法及系统


技术介绍

1、在多媒体社交网络的背景下,海量的图像和文本数据构成了一个复杂的多模态数据环境。用户对于跨模态信息检索的需求日益增长,希望能实现在大量数据中快速准确地检索与查询条件相匹配的另一模态数据。

2、跨模态图文检索领域主要包含统计分析、深度学习和预训练模型三种方法,且正从由统计分析方法主导转向由深度学习和预训练模型主导。

3、图文检索领域传统的统计分析方法,如依赖人感觉进行手工设置核函数的核典型相关性分析法(kernel canonical correlation analysis,kcca),已经逐步降温。相较于传统的基于人的感知的特征提取,深度学习方法中基于大规模数据与优化算法的特征提取往往具有更高的普适性。

4、早期图文检索领域的深度学习方法,主要是将图片信息与文本信息映射在同一空间中,再利用相似度计算等方法进行特征对应,来满足全局语义的粗粒度匹配,这些方法很难满足局部语义的细粒度匹配。而vsrn模型的提出提供了一种可以捕捉视本文档来自技高网...

【技术保护点】

1.一种融入图像描述驱动的图文双向检索方法,其特征在于,包括:

2.根据权利要求1所述的一种融入图像描述驱动的图文双向检索方法,其特征在于,步骤2中具体包括:采用K-means聚类方法对待检索图文数据集进行聚类分析以得到每个待检索图像或待检索文本的来源平台。

3.根据权利要求1所述的一种融入图像描述驱动的图文双向检索方法,其特征在于,在步骤2之前还包括:预先根据不同平台来源的风格构建不同的提示词策略。

4.根据权利要求1所述的一种融入图像描述驱动的图文双向检索方法,其特征在于,步骤5中,相似度比较的过程包括:

5.一种融入图像描述驱动的图文...

【技术特征摘要】

1.一种融入图像描述驱动的图文双向检索方法,其特征在于,包括:

2.根据权利要求1所述的一种融入图像描述驱动的图文双向检索方法,其特征在于,步骤2中具体包括:采用k-means聚类方法对待检索图文数据集进行聚类分析以得到每个待检索图像或待检索文本的来源平台。

3.根据权利要求1所述的一种融...

【专利技术属性】
技术研发人员:吴宇涛雷寒萩杨耀瑀田文浩蒋浩文马雯马德魁王建辉刘庆
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1