一种图文匹配方法、图文匹配多模态大模型及大模型训练方法组成比例

技术编号：43372548 阅读：28 留言：0更新日期：2024-11-19 17:52

本发明专利技术公开了一种图文匹配方法、图文匹配多模态大模型以及大模型训练方法，匹配方法包括特征提取和特征判定，特征提取包括：S1、对输入的图像进行编码得到初始图像特征；S2、对输入的文本进行编码得到初始文本特征；S3、将初始图像特征和初始文本特征分别加上一个不同的位置编码，得到二级图像特征和二级文本特征；S4、将步骤S3中得到的二级图像特征和二级文本特征进行融合，得到融合文本特征I<subgt;T</subgt;和融合图像特征T<subgt;I</subgt;；特征判定包括：S5、将融合文本特征I<subgt;T</subgt;和融合图像特征T<subgt;I</subgt;分别进行特征池化，然后缩放并拼接，对拼接后的特征进行特征判别，通过判别线性层输出0至1表示匹配程度。本发明专利技术可以同时提取并深度融合视觉和语言特征。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉处理领域，尤其是涉及一种图文匹配方法、图文匹配多模态大模型及大模型训练方法。

技术介绍

1、当前，视觉与语言多模态处理领域普遍面临特征提取与融合的挑战。传统方法多采用分离的视觉与语言特征提取器，不仅增加了模型复杂度，还难以有效捕捉跨模态间的深层关联。此外，特征提取与编码过程往往独立进行，导致信息在传递过程中易丢失，限制了多模态理解的深度与精度。因此，亟需一种创新的架构，能够高效整合视觉与语言特征，实现更紧密的跨模态融合，以提升多模态任务的处理效果。

技术实现思路

1、本专利技术主要是解决现有技术所存在的模型复杂度高、难以有效捕捉跨模态间的深层关联、信息在传递过程中易丢失等的技术问题，提供一种高效整合视觉与语言特征、实现更紧密的跨模态融合的图文匹配方法、图文匹配多模态大模型及大模型训练方法。

2、本专利技术针对上述技术问题主要是通过下述技术方案得以解决的：一种图文匹配方法，基于图文匹配多模态大模型，包括特征提取和特征判定，所述特征提取包括以下步骤：

3、s1、对输本文档来自技高网...

【技术保护点】

1.一种图文匹配方法，其特征在于，基于图文匹配多模态大模型，包括特征提取和特征判定，所述特征提取包括以下步骤：

2.根据权利要求1所述的一种图文匹配方法，其特征在于，所述步骤S4具体为：将二级文本特征和二级图像特征输入到由若干层编码模块构成的多模态特征融合编码器中，上一层的编码模块的输出作为下一层编码模块的输入，第k层编码模块的处理过程如下：

3.根据权利要求1所述的一种图文匹配方法，其特征在于，所述步骤S1具体为：

4.根据权利要求1所述的一种图文匹配方法，其特征在于，所述步骤S5具体为：

5.一种图文匹配多模态大模型，运行有如权利要求1...

【技术特征摘要】

1.一种图文匹配方法，其特征在于，基于图文匹配多模态大模型，包括特征提取和特征判定，所述特征提取包括以下步骤：

2.根据权利要求1所述的一种图文匹配方法，其特征在于，所述步骤s4具体为：将二级文本特征和二级图像特征输入到由若干层编码模块构成的多模态特征融合编码器中，上一层的编码模块的输出作为下一层编码模块的输入，第k层编码模块的处理过程如下：

3.根据权利要求1所述的一种图文匹配方法，其特征在于，所述步骤s1具体为：

4.根据权利要求1所述的一种图文匹配方法，其特征在于，所述步骤s5具体为：

5.一种图文匹配多模态大模型，运行有如权利要求1所述的图文匹配方法，其特征在于，包括特征提取器和特征判别器，所述特征提取器包括...

【专利技术属性】
技术研发人员：何旋，赵天成，刘伊涟，许若晨，李超，
申请(专利权)人：杭州联汇科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人