【技术实现步骤摘要】
本专利技术涉及计算机视觉处理领域,尤其是涉及一种图文匹配方法、图文匹配多模态大模型及大模型训练方法。
技术介绍
1、当前,视觉与语言多模态处理领域普遍面临特征提取与融合的挑战。传统方法多采用分离的视觉与语言特征提取器,不仅增加了模型复杂度,还难以有效捕捉跨模态间的深层关联。此外,特征提取与编码过程往往独立进行,导致信息在传递过程中易丢失,限制了多模态理解的深度与精度。因此,亟需一种创新的架构,能够高效整合视觉与语言特征,实现更紧密的跨模态融合,以提升多模态任务的处理效果。
技术实现思路
1、本专利技术主要是解决现有技术所存在的模型复杂度高、难以有效捕捉跨模态间的深层关联、信息在传递过程中易丢失等的技术问题,提供一种高效整合视觉与语言特征、实现更紧密的跨模态融合的图文匹配方法、图文匹配多模态大模型及大模型训练方法。
2、本专利技术针对上述技术问题主要是通过下述技术方案得以解决的:一种图文匹配方法,基于图文匹配多模态大模型,包括特征提取和特征判定,所述特征提取包括以下步骤:
...【技术保护点】
1.一种图文匹配方法,其特征在于,基于图文匹配多模态大模型,包括特征提取和特征判定,所述特征提取包括以下步骤:
2.根据权利要求1所述的一种图文匹配方法,其特征在于,所述步骤S4具体为:将二级文本特征和二级图像特征输入到由若干层编码模块构成的多模态特征融合编码器中,上一层的编码模块的输出作为下一层编码模块的输入,第k层编码模块的处理过程如下:
3.根据权利要求1所述的一种图文匹配方法,其特征在于,所述步骤S1具体为:
4.根据权利要求1所述的一种图文匹配方法,其特征在于,所述步骤S5具体为:
5.一种图文匹配多模态大模型
...【技术特征摘要】
1.一种图文匹配方法,其特征在于,基于图文匹配多模态大模型,包括特征提取和特征判定,所述特征提取包括以下步骤:
2.根据权利要求1所述的一种图文匹配方法,其特征在于,所述步骤s4具体为:将二级文本特征和二级图像特征输入到由若干层编码模块构成的多模态特征融合编码器中,上一层的编码模块的输出作为下一层编码模块的输入,第k层编码模块的处理过程如下:
3.根据权利要求1所述的一种图文匹配方法,其特征在于,所述步骤s1具体为:
4.根据权利要求1所述的一种图文匹配方法,其特征在于,所述步骤s5具体为:
5.一种图文匹配多模态大模型,运行有如权利要求1所述的图文匹配方法,其特征在于,包括特征提取器和特征判别器,所述特征提取器包括...
【专利技术属性】
技术研发人员:何旋,赵天成,刘伊涟,许若晨,李超,
申请(专利权)人:杭州联汇科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。