一种扩展多模态模型语言能力的方法技术

技术编号:39324931 阅读:12 留言:0更新日期:2023-11-12 16:03
本发明专利技术公开了一种扩展多模态模型语言能力的方法,其步骤为:保留并冻结编码器、选取并冻结预训练多语言文本编码器、定义多层MLP网络、将多语言文本适配器接在预训练多语言文本编码器后面、选取训练集、训练多语言文本适配器。本发明专利技术选用预训练的多语言文本编码器,可以采样原跨模态模型的训练集作为本方案的训练集;分别活动B模态编码表征和文本表征;设计适配器直接将文本表征与B模态编码表征对齐,消除了由目标语言文本表征与源语言文本表征对齐而带来的差异。无需原跨模态模型的全部训练数据,采样部分训练数据即可,训练成本低。训练成本低。训练成本低。

【技术实现步骤摘要】
一种扩展多模态模型语言能力的方法


[0001]本专利技术涉及跨模态检索
,特别是一种扩展多模态模型语言能力的方法。

技术介绍

[0002]随着自媒体的不断发展,多种模态数据例如图像、文本、语音、视频等不断增长,创造了互联网上丰富多彩的世界。为了准确建模用户的多模态内容,跨模态检索是跨模态理解的重要任务,即采用一种模态的数据作为输入检索另一种模态的数据。
[0003]随着OpenAI发布CLIP,将文本和视觉领域联系起来,跨模态检索工作取得了巨大进展。跨模态检索框架如图3所示,左边文本称为A模态,右边图像、视频、语音等其他模态称为B模态。文本经过文本编码器得到文本表征;图像、视频、语音等其他模态经过相应的编码器得到相应的表征;跨模态检索模型通过将文本表征与其他模态表征对齐,实现了文本与其他模态的相互检索。
[0004]目前,跨模态检索工作通常关注于高资源语言(比如英语),要想扩展跨模态检索模型的语言能力,比如实现中文与图像、视频、语音等其他模态的检索,会面临诸多困难(此处将英语称为源语言,中文称为目标语言)。首先,缺少目标语言标注数据,低资源语言的数据的数量以及质量都是存在的难题。其次,多模态模型的训练需要耗费大量的计算资源。以ViT

L/14为例,训练该模型需要耗费256个V100运行12天。对于缺少计算资源的普通开发者来说,如此高昂的训练代价限制了他们在扩展多模态模型的语言能力方向的工作。
[0005]目前,扩展多模态模型的语言能力主要有如下几种方案:
[0006]方案一、重新搜集B模态与目标语言描述对的数据,训练跨模态模型,如图4(a)所示。比如阿里达摩院发布的ChineseClip,使用大规模的中文数据进行训练(~2亿图文对),实现了中文版的跨模态图文检索;
[0007]该方案存在训练数据难以获取,同时训练成本高,需要大量的计算资源和训练时间等问题;
[0008]方案二、使用机器翻译,将源语言翻译成目标语言,生成B模态与目标语言描述对,来缓解人工标注B模态数据与多语言描述语料库困难的问题,如图4(b)所示;
[0009]由于翻译的准确性并不能得到保证,因此在翻译过程中会引入大量噪声,导致翻译的目标语言句子并不能准确的描述其对应的图像、视频或者语音等B模态数据的内容。
[0010]方案三、使用知识蒸馏,在跨模态检索模型的源语言文本编码器上蒸馏一个目标语言文本编码器。如图4(c)所示,锁定B模态编码器,基于平行语料库在跨模态检索模型的源语言文本编码器上知识蒸馏,得到目标语言文本编码器;
[0011]该方案直接对齐目标语言文本表征和源语言文本表征,减少了机器翻译噪声的引入,但目标语言文本表征与B模态编码表征之间存在差异;
[0012]方案四、如图4(d)所示,锁定B模态编码器以及目标语言文本编码器,仅仅训练一个文本适配器,适配目标语言文本表征与源语言文本表征;
[0013]该方案仅需要训练一个适配器,训练简单。使用平行语料库作为训练集,对齐目标
语言文本表征和源语言文本表征,训练代价小;但是目标文本表征与B模态编码表征之间仍然存在差异;
[0014]方案五、如图4(e)所示,为了消除目标语言文本表征与B模态编码表征之间的差异,采用两阶段的训练方法学习一个目标语言文本编码器;
[0015]第一阶段,使用平行语料库,在跨模态检索模型的源语言文本编码器上使用知识蒸馏学习一个目标语言文本编码器;
[0016]第二阶段,搜集B模态数据与目标语言描述对的训练集,将目标语言文本表征与B模态表征对齐;
[0017]该方案使用平行语料库和少量B模态数据与目标语言描述对,通过两阶段训练弥补了目标文本表征与B模态编码表征之间的差异;但是,该方案需要重新搜集B模态数据与目标语言描述对的数据集,并且两阶段训练的方式训练过程繁琐。

技术实现思路

[0018]本专利技术的目的在于,提供一种扩展多模态模型语言能力的方法。本专利技术解决了现有方案中训练数据难以获取、或者多阶段训练导致训练过程繁琐的问题,具有模型简单、有效、训练数据获取容易且训练成本低的优点。
[0019]本专利技术的技术方案:一种扩展多模态模型语言能力的方法,步骤如下:
[0020]A、保留并冻结B模态编码器:保留原跨模态模型中B模态的编码器,并冻结B模态编码器的参数;定义B模态编码器输出表征为v;
[0021]B、选取并冻结预训练多语言文本编码器:任意选取一个预训练多语言文本编码器,并冻结预训练多语言文本编码器的参数;定义预训练多语言文本编码器输出的文本表征为t;
[0022]C、定义多层MLP网络,作为多语言文本适配器,输出适配后的文本表征a;适配后的文本表征a与B模态编码器输出表征v的维度一致;
[0023]D、将多语言文本适配器接在预训练多语言文本编码器后面;
[0024]E、选取训练集:从原跨模态模型的训练集中采样一部分,作为训练集;
[0025]F、训练多语言文本适配器:采用对比学习的方法训练多语言文本适配器,一步到位将多语言文本表征t与B模态编码器输出表征v对齐,消除了文本表征和其他模态表征之间的差异。
[0026]前述的扩展多模态模型语言能力的方法中,步骤B中所述的预训练多语言文本编码器,其至少包括XLM、XLM

R、XLM

100或mMiniLM

L12XH384等。
[0027]前述的扩展多模态模型语言能力的方法中,步骤F所述的训练多语言文本适配器,其对比学习的损失函数如下:
[0028]Loss=Loss
v2a
+Loss
a2v

[0029]Loss
v2a
代表B模态编码器输出表征匹配适配后的文本表征的损失,
[0030][0031]Loss
a2v
代表适配后的文本表征匹配B模态编码器输出表征的损失,
[0032][0033]其中,B为训练的批次大小,τ为温度超参数;
[0034]sim(x,y)代表两个向量的cos距离,
[0035][0036]与现有技术相比,本专利技术在文本编码器的选择上选用预训练的多语言文本编码器(包含源语言),由于包含了源语言,因此在训练时可以采样原跨模态模型的训练集作为本方案的训练集;一方面,B模态数据输入B模态编码器得到B模态编码表征;另一方面,与B模态数据相对应的源语言文本描述输入多语言文本编码器获得文本表征;本申请设计一个适配器直接将文本表征与B模态编码表征对齐,消除了由目标语言文本表征与源语言文本表征对齐而带来的差异;
[0037]本申请实现扩展跨模态模型的语言能力的训练成本低廉;首先,训练数据容易获取,无需重新搜集B模态数据与目标语言描述对的数据集,从原跨模态模型训练集中采样获得训练集;
[0038]其次,训练模型简单,无需重新训练文本编码器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种扩展多模态模型语言能力的方法,其特征在于,步骤如下:A、保留并冻结B模态编码器:保留原跨模态模型中B模态编码器,并冻结B模态编码器的参数;定义B模态编码器输出表征为v;B、选取并冻结预训练多语言文本编码器:任意选取一个预训练多语言文本编码器,并冻结预训练多语言文本编码器的参数;定义预训练多语言文本编码器输出的文本表征为t;C、定义多层MLP网络,作为多语言文本适配器,输出适配后的文本表征a;适配后的文本表征a与B模态编码器输出表征v的维度一致;D、将多语言文本适配器接在预训练多语言文本编码器后面;E、选取训练集:从原跨模态模型的训练集中采样一部分,作为训练集;F、训练多语言文本适配器:采用对比学习的方法训练多语言文本适配器,将多语言文本表征t与B模态编码器输出表征v对齐,消除了文本表征和其他模态表征之间的差异。2.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:邓卉危明田泽康
申请(专利权)人:易视腾科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1