【技术实现步骤摘要】
本专利技术涉及图像识别,尤其涉及一种多模态图文检索方法、装置、设备及存储介质。
技术介绍
1、多模态图文检索是一种结合了文本和图像两种模态信息的检索技术。随着互联网的飞速发展,人们每天都面临着海量的多媒体信息,包括文本、图像、音频、视频等。其中,文本和图像是最为常见的两种模态。在很多实际应用中,用户往往需要同时检索文本和图像,以获取更全面、准确的信息。
2、传统的检索技术主要基于视觉单模态的方法预测属性信息,需要标注大量未见过的数据,并且标签个数受限,只能识别训练集中限定的监督标签推理。另外,传统方法的模型泛化性和通用性较差,可能各自受制于空间位置、光照条件、视角变化等因素的影响,需要不停的收集回流数据迭代,占用大量时间,而且模型对图片整体的语义理解能力受限,需要通过大量逻辑进行关联。
技术实现思路
1、本专利技术提供了一种多模态图文检索方法、装置、设备及存储介质,通过利用不同来源的城市级别多模态图文数据,进行深度融合图像和文字信息,能够显著增强在复杂城市特定领域环境下的目标识
...【技术保护点】
1.一种多模态图文检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述构建基础检索模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述获取图文数据集,包括:
4.根据权利要求1所述的方法,其特征在于,所述对所述基础检索模型进行微调以生成微调检索模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标检索功能将所述待检索信息输入所述基础检索模型或所述微调检索模型以生成检索结果,包括:
6.根据权利要求5所述的方法,其特征在于,所述将所述待检索信息输入所述基础检索模
...【技术特征摘要】
1.一种多模态图文检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述构建基础检索模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述获取图文数据集,包括:
4.根据权利要求1所述的方法,其特征在于,所述对所述基础检索模型进行微调以生成微调检索模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标检索功能将所述待检索信息输入所述基础检索模型或所述微调检索模型以生成检索结果,包括:
6.根据...
【专利技术属性】
技术研发人员:高世奇,马国亮,李文华,杨世佳,
申请(专利权)人:北京升哲科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。