一种扩展多模态模型语言能力的方法技术

技术编号：39324931 阅读：12 留言：0更新日期：2023-11-12 16:03

本发明专利技术公开了一种扩展多模态模型语言能力的方法,其步骤为：保留并冻结编码器、选取并冻结预训练多语言文本编码器、定义多层MLP网络、将多语言文本适配器接在预训练多语言文本编码器后面、选取训练集、训练多语言文本适配器。本发明专利技术选用预训练的多语言文本编码器，可以采样原跨模态模型的训练集作为本方案的训练集；分别活动B模态编码表征和文本表征；设计适配器直接将文本表征与B模态编码表征对齐，消除了由目标语言文本表征与源语言文本表征对齐而带来的差异。无需原跨模态模型的全部训练数据，采样部分训练数据即可，训练成本低。训练成本低。训练成本低。

全部详细技术资料下载

【技术实现步骤摘要】
一种扩展多模态模型语言能力的方法

[0001]本专利技术涉及跨模态检索
，特别是一种扩展多模态模型语言能力的方法。

技术介绍

[0002]随着自媒体的不断发展，多种模态数据例如图像、文本、语音、视频等不断增长，创造了互联网上丰富多彩的世界。为了准确建模用户的多模态内容，跨模态检索是跨模态理解的重要任务，即采用一种模态的数据作为输入检索另一种模态的数据。
[0003]随着OpenAI发布CLIP，将文本和视觉领域联系起来，跨模态检索工作取得了巨大进展。跨模态检索框架如图3所示，左边文本称为A模态，右边图像、视频、语音等其他模态称为B模态。文本经过文本编码器得到文本表征；图像、视频、语音等其他模态经过相应的编码器得到相应的表征；跨模态检索模型通过将文本表征与其他模态表征对齐，实现了文本与其他模态的相互检索。
[0004]目前，跨模态检索工作通常关注于高资源语言(比如英语)，要想扩展跨模态检索模型的语言能力，比如实现中文与图像、视频、语音等其他模态的检索，会面临诸多困难(此处将英语称为源语言，中文称为目标语言)。首先，缺少目标语言标注数据，低资源语言的数据的数量以及质量都是存在的难题。其次，多模态模型的训练需要耗费大量的计算资源。以ViT
‑
L/14为例，训练该模型需要耗费256个V100运行12天。对于缺少计算资源的普通开发者来说，如此高昂的训练代价限制了他们在扩展多模态模型的语言能力方向的工作。
[0005]目前，扩展多模态模型的语言能力主要有如下几种方案：
[0...

【技术保护点】

【技术特征摘要】
1.一种扩展多模态模型语言能力的方法，其特征在于，步骤如下：A、保留并冻结B模态编码器：保留原跨模态模型中B模态编码器，并冻结B模态编码器的参数；定义B模态编码器输出表征为v；B、选取并冻结预训练多语言文本编码器：任意选取一个预训练多语言文本编码器，并冻结预训练多语言文本编码器的参数；定义预训练多语言文本编码器输出的文本表征为t；C、定义多层MLP网络，作为多语言文本适配器，输出适配后的文本表征a；适配后的文本表征a与B模态编码器输出表征v的维度一致；D、将多语言文本适配器接在预训练多语言文本编码器后面；E、选取训练集：从原跨模态模型的训练集中采样一部分，作为训练集；F、训练多语言文本适配器：采用对比学习的方法训练多语言文本适配器，将多语言文本表征t与B模态编码器输出表征v对齐，消除了文本表征和其他模态表征之间的差异。2.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员：邓卉，危明，田泽康，
申请(专利权)人：易视腾科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人