一种基于多语种的多模态模型训练方法及装置制造方法及图纸

技术编号：41756226 阅读：24 留言：0更新日期：2024-06-21 21:38

本发明专利技术涉及人工智能领域，具体提供一种基于多语种的多模态模型训练方法及装置，旨在解决由于部分语种多模态数据匮乏时，该语种多模态模型性能和鲁棒性不足的技术问题。为此目的，本发明专利技术的技术方案，包括：将平行语料库、第一多模态训练数据输入初始训练的第一多模态模型，获取平行语料特征向量、多模态文本特征向量、多模态非文本特征向量并计算特征向量之间的损失，建立多模态文本对应的第一语种与平行语料库中文本对应的第二语种之间的特征对齐，输出多语种的多模态模型。通过上述方案，解决了部分语种多模态数据匮乏所导致的该语种多模态模型性能和鲁棒性不足的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，具体提供一种基于多语种的多模态模型训练方法及装置。

技术介绍

1、在多语种多模态大模型训练时，往往不同语种的多模态数据量参差不齐。以图文多模态模型为例，一般英文图文高质量数据容易获取，而如中文、某些其它语种如藏文等图文数据相对较少且较难获取。

2、当某些语种图文数据量较少时，模型很难根据这些数据直接在该语种获得鲁棒性特征。

3、因此，相应地，本领域需要一种基于多语种的多模态模型训练方法，来解决上述技术问题。

技术实现思路

1、为了克服上述缺陷，提出了本专利技术，以提供解决或至少部分地解决由于部分语种多模态数据匮乏时，该语种多模态模型性能和鲁棒性不足的技术问题。

2、在第一方面，本专利技术提供一种基于多语种的多模态模型训练方法，包括：

3、获取平行语料库；其中，所述平行语料库是指两种或多种不同语种之间对应的文本；

4、将所述平行语料库、第一多模态训练数据输入初始训练的第一多模态模型，获取平行语料特征向量、...

【技术保护点】

1.一种基于多语种的多模态模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，计算所述多模态非文本特征向量和所述多模态文本特征向量之间的第一损失；所述平行语料特征向量与所述多模态非文本特征向量之间的第二损失；

3.根据权利要求1所述的方法，其特征在于，所述平行语料库中的文本包括以下至少之一：句子、段落、文章、整个书籍。

4.根据权利要求1所述的方法，其特征在于，基于第二多模态训练数据，对多模态预训练模型进行初始训练，获取第一多模态模型。

5.根据权利要求4所述的方法，其特征在于，所述多模态预训练模型种类包括以下至少之...

【技术特征摘要】

1.一种基于多语种的多模态模型训练方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，所述平行语料库中的文本包括以下至少之一：句子、段落、文章、整个书籍。

4.根据权利要求1所述的方法，其特征在于，基于第二多模态训练数据，对多模态预训练模型进行初始训练，获取第一多模态模型。

5.根据权利要求4所述的方法，其特征在于，所述多模态预训练模型种类包括以下至少之一：图片文本预训练模型、视频文本预训练模型、语音文本预训练模型；所述多模态预训练模型的模型结构包括以下至少之一：transformer结构、vit结构、resnet结构、bert结构、xlm-ro...

【专利技术属性】
技术研发人员：李亚东，李远钱，李为，
申请(专利权)人：重庆中科云从科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人