【技术实现步骤摘要】
本专利技术涉及人工智能领域,具体提供一种基于多模态数据的多模态模型训练方法、系统及设备。
技术介绍
1、随着深度学习技术的迅速发展,计算机视觉(computer vision,cv)与自然语言处理(natural language processing,nlp)领域取得了显著的进展。然而,这两个领域长期以来都面临着模态间隔阂的问题,即难以通过一个统一的模型,有效地将图像信息与语言信息结合起来,实现多模态的信息理解与交互。模态间隔阂的问题并不仅限于视觉和语言之间,实际上,融合多个模态(如声音、深度信息、红外信息、三维点云等等)一直是一个有挑战的问题。
2、近年来,对比学习(contrastive learning)作为一种自监督学习范式,已经在单一模态的表示学习中展现出巨大潜力。对比学习的核心思想是通过最大化相似样本间的一致性,同时最小化不同样本间的一致性,从而学习到鲁棒的特征表示。在跨模态学习场景下,对比学习可以用来学习不同模态(如图像与文本)之间的对应关系,即通过将跨模态的图像和文本数据映射到共同的表征空间来捕捉并锚定两者
...【技术保护点】
1.一种基于多模态数据的多模态模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于每个多模态图文样本对所对应的图像特征、文本特征,获取不同多模态图文样本对之间的同模态相似度di,j的过程为:
3.根据权利要求1或2所述的方法,其特征在于,基于每个多模态图文样本对所对应的图像特征、文本特征,获取多模态图文样本对之间的跨模态相似度的过程为:
4.根据权利要求3所述的方法,其特征在于,基于所述同模态相似度、所述跨模态相似度,对所述多模态模型进行训练的过程为:
5.根据权利要求1所述的方法,其特征在于
...【技术特征摘要】
1.一种基于多模态数据的多模态模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于每个多模态图文样本对所对应的图像特征、文本特征,获取不同多模态图文样本对之间的同模态相似度di,j的过程为:
3.根据权利要求1或2所述的方法,其特征在于,基于每个多模态图文样本对所对应的图像特征、文本特征,获取多模态图文样本对之间的跨模态相似度的过程为:
4.根据权利要求3所述的方法,其特征在于,基于所述同模态相似度、所述跨模态相似度,对所述多模态模型进行训练的过程为:
5.根据权利要求1所述的方法,其特征在于,基于各个多模态图文样本对,通过多模态模型中对应的编码器和映射层,获取共同的表征空间下的每个多模态图文样本对所对应的图像特征、文本特征;其中,所述编码器包括图像编码器、文本编码器。
6.根据权利要求5所述的方法,其...
【专利技术属性】
技术研发人员:曹睿,焦宾,李亚东,程乐松,温建锋,
申请(专利权)人:云从科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。