一种跨模态特征融合模型的训练方法以及检索方法技术

技术编号：45056246 阅读：35 留言：0更新日期：2025-04-22 17:39

本发明专利技术公开了一种跨模态特征融合模型的训练方法以及一种基于跨模态特征融合模型的检索方法，跨模态特征融合模型包括LLM、CLIP、线性层和跨模态注意力层；所述LLM的输出端通过所述线性层与所述跨模态注意力层的输入端相连；所述CLIP的输出端与所述跨模态注意力层的输入端相连；本发明专利技术显著提高了知识召回任务的准确率和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习，更具体的说是涉及一种跨模态特征融合模型的训练方法以及检索方法。

技术介绍

1、近年来，随着深度学习和大规模预训练模型的快速发展，跨模态检索技术逐渐成为人工智能领域的研究热点，特别是在文本与图像的联合理解与信息检索方面。跨模态检索旨在通过对不同模态数据(如文本和图像)的特征表示和对齐，实现模态间的信息互通与智能匹配。

2、目前，主流的跨模态检索方法大多采用文本和图像分开编码的架构，通过独立的编码器对文本和图像进行特征提取，并在高维特征空间中实现对齐。例如，与本专利技术相关的研究论文《llm2clip:powerful language model unlock richer visualrepresentation》中提出了一种基于文本和图像分离编码的跨模态表示模型。该模型利用大型语言模型(llm)和视觉编码器(clip)的强大特性，分别提取文本和图像的语义特征。然而，这种分离编码方式在特定应用场景中仍存在以下不足：

3、语义融合能力不足：由于文本和图像特征独立提取，二者在编码阶段未能实现深...

【技术保护点】

1.一种跨模态特征融合模型的训练方法，其特征在于，包括LLM的训练方法以及CLIP、线性层、跨模态注意力层的联合训练方法：

2.根据权利要求1所述的一种跨模态特征融合模型的训练方法，其特征在于，所述第一simCSE损失函数的表达式为：

3.根据权利要求1所述的一种跨模态特征融合模型的训练方法，其特征在于，所述第二simCSE损失函数的表达式为：

4.根据权利要求1所述的一种跨模态特征融合模型的训练方法，其特征在于，将LLM的因果注意力机替换成双向注意力机制。

5.根据权利要求4所述的一种跨模态特征融合模型的训练方法，其特征在于，采用MNTP...

【技术特征摘要】

1.一种跨模态特征融合模型的训练方法，其特征在于，包括llm的训练方法以及clip、线性层、跨模态注意力层的联合训练方法：

2.根据权利要求1所述的一种跨模态特征融合模型的训练方法，其特征在于，所述第一simcse损失函数的表达式为：

3.根据权利要求1所述的一种跨模态特征融合模型的训练方法，其特征在于，所述第二simcse损失函数的表达式为：

4.根据权利要求1所述的一种跨模态特征融合模型的训练方法，其特征在于，将llm的因果注意力机替换成双向注意力机制。

5.根据权利要求4所述的一种跨模态特征融合模型的训练方法，其特征在于，采用mntp方法对所述双向注意力机制进行训练。

6.根据权利要求1所述的一种跨模态特征融合模型的训练方法，其特征在于...

【专利技术属性】
技术研发人员：关玉秋，张鹏飞，苏江，
申请(专利权)人：立心通智科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人