【技术实现步骤摘要】
本专利技术涉及深度学习,更具体的说是涉及一种跨模态特征融合模型的训练方法以及检索方法。
技术介绍
1、近年来,随着深度学习和大规模预训练模型的快速发展,跨模态检索技术逐渐成为人工智能领域的研究热点,特别是在文本与图像的联合理解与信息检索方面。跨模态检索旨在通过对不同模态数据(如文本和图像)的特征表示和对齐,实现模态间的信息互通与智能匹配。
2、目前,主流的跨模态检索方法大多采用文本和图像分开编码的架构,通过独立的编码器对文本和图像进行特征提取,并在高维特征空间中实现对齐。例如,与本专利技术相关的研究论文《llm2clip:powerful language model unlock richer visualrepresentation》中提出了一种基于文本和图像分离编码的跨模态表示模型。该模型利用大型语言模型(llm)和视觉编码器(clip)的强大特性,分别提取文本和图像的语义特征。然而,这种分离编码方式在特定应用场景中仍存在以下不足:
3、语义融合能力不足:由于文本和图像特征独立提取,二者在编码阶段未能实现深
...【技术保护点】
1.一种跨模态特征融合模型的训练方法,其特征在于,包括LLM的训练方法以及CLIP、线性层、跨模态注意力层的联合训练方法:
2.根据权利要求1所述的一种跨模态特征融合模型的训练方法,其特征在于,所述第一simCSE损失函数的表达式为:
3.根据权利要求1所述的一种跨模态特征融合模型的训练方法,其特征在于,所述第二simCSE损失函数的表达式为:
4.根据权利要求1所述的一种跨模态特征融合模型的训练方法,其特征在于,将LLM的因果注意力机替换成双向注意力机制。
5.根据权利要求4所述的一种跨模态特征融合模型的训练方法,其特
...【技术特征摘要】
1.一种跨模态特征融合模型的训练方法,其特征在于,包括llm的训练方法以及clip、线性层、跨模态注意力层的联合训练方法:
2.根据权利要求1所述的一种跨模态特征融合模型的训练方法,其特征在于,所述第一simcse损失函数的表达式为:
3.根据权利要求1所述的一种跨模态特征融合模型的训练方法,其特征在于,所述第二simcse损失函数的表达式为:
4.根据权利要求1所述的一种跨模态特征融合模型的训练方法,其特征在于,将llm的因果注意力机替换成双向注意力机制。
5.根据权利要求4所述的一种跨模态特征融合模型的训练方法,其特征在于,采用mntp方法对所述双向注意力机制进行训练。
6.根据权利要求1所述的一种跨模态特征融合模型的训练方法,其特征在于...
【专利技术属性】
技术研发人员:关玉秋,张鹏飞,苏江,
申请(专利权)人:立心通智科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。