一种多模态图文检索方法、装置、设备及存储介质制造方法及图纸

技术编号：42630371 阅读：34 留言：0更新日期：2024-09-06 01:31

本发明专利技术公开了一种多模态图文检索方法、装置、设备及存储介质。包括：构建基础检索模型，对基础检索模型进行微调以生成微调检索模型；获取目标检索功能和待检索信息，其中，目标检索功能包括图片分类、以图搜文、以文搜图和分类推理；基于目标检索功能将待检索信息输入基础检索模型或微调检索模型以生成检索结果。通过训练图文数据集构建多模态的基础检索模型和微调检索模型，能够同时考虑文本和图像的特征，充分挖掘两种模态之间的关联，提高了检索的准确性和全面性，实现更智能、个性化的检索服务，仅需少量标注数据就可以进行图文检索，降低了算力成本，提高了检索效率，规避了视觉单模态模型的泛化性差、多模态关联能力不足的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别，尤其涉及一种多模态图文检索方法、装置、设备及存储介质。

技术介绍

1、多模态图文检索是一种结合了文本和图像两种模态信息的检索技术。随着互联网的飞速发展，人们每天都面临着海量的多媒体信息，包括文本、图像、音频、视频等。其中，文本和图像是最为常见的两种模态。在很多实际应用中，用户往往需要同时检索文本和图像，以获取更全面、准确的信息。

2、传统的检索技术主要基于视觉单模态的方法预测属性信息，需要标注大量未见过的数据，并且标签个数受限，只能识别训练集中限定的监督标签推理。另外，传统方法的模型泛化性和通用性较差，可能各自受制于空间位置、光照条件、视角变化等因素的影响，需要不停的收集回流数据迭代，占用大量时间，而且模型对图片整体的语义理解能力受限，需要通过大量逻辑进行关联。

技术实现思路

1、本专利技术提供了一种多模态图文检索方法、装置、设备及存储介质，通过利用不同来源的城市级别多模态图文数据，进行深度融合图像和文字信息，能够显著增强在复杂城市特定领域环境下的目标识...

【技术保护点】

1.一种多模态图文检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述构建基础检索模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取图文数据集，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述基础检索模型进行微调以生成微调检索模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标检索功能将所述待检索信息输入所述基础检索模型或所述微调检索模型以生成检索结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述待检索信息输入所述基础检索模型以生成所述检索结果...

【技术特征摘要】

1.一种多模态图文检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述构建基础检索模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取图文数据集，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述基础检索模型进行微调以生成微调检索模型，包括：

6.根据...

【专利技术属性】
技术研发人员：高世奇，马国亮，李文华，杨世佳，
申请(专利权)人：北京升哲科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人