【技术实现步骤摘要】
计算机实施的方法、用于计算机学习的系统和介质
[0001]相关申请的交叉引用
[0002]本专利申请涉及于2021年5月19日提交的专利技术人为费洪亮、于探和李平、名称为“SYSTEMS AND METHODS FOR CROSS
‑
LINGUAL CROSS
‑
MODAL TRAINING FOR MULTIMODAL RETRIEVAL[用于多模态检索的跨语言跨模态训练的系统和方法]”的共同未决且共同拥有的美国专利申请号63/190,667(案卷号28888
‑
2494P)并根据35 USC
§
119(e)要求其优先权权益,所述专利文献通过引用以其整体并且出于所有目的并入本文。
[0003]本公开总体上涉及用于可以提供改进的计算机性能、特征和用途的计算机学习的系统和方法。更具体地,本公开涉及用于多模态检索的跨语言跨模态训练和用于部署经训练的多模态检索模型的系统和方法。
技术介绍
[0004]最近基于转换器的预训练视觉
‑
语言模型在英文的跨模态检索、图像字幕和视觉问答(VQA)任务方面取得了出色的表现。例如,在最近的VQA竞争中,大多数领先的竞争者依赖于基于转换器的预训练视觉
‑
语言模型。然而,他们的成功在很大程度上取决于大量带注释的图像
‑
字幕预训练数据集(例如,概念字幕)的可用性。在现实中,其他语言的这种数据是有限的。
[0005]当推广到跨语言跨模态应用时,直接 ...
【技术保护点】
【技术特征摘要】
1.一种计算机实施的方法,包括:在给定第一训练数据批的情况下,使用所述第一训练数据批作为输入来训练跨语言跨模态网络,所述第一训练数据批包括源语言的字幕和对应的图像的视觉特征;基于所述第一训练数据批来计算掩码语言建模MLM任务、掩码区域分类MRC任务和跨模态文本恢复CMTR任务的损失;在给定第二训练数据批的情况下,使用所述第二训练数据批作为输入来训练所述跨语言跨模态网络,所述第二训练数据批包括一组源语言的文本和一组对应的目标语言的文本;基于所述第二训练数据批来计算翻译语言建模TLM任务和跨语言文本恢复CLTR任务的损失;在给定第三训练数据批的情况下,使用所述第三训练数据批作为输入来训练所述跨语言跨模态网络,所述第三训练数据批包括单语文本;基于所述第三训练数据批来计算单语MLM任务的损失;使用所述MLM任务、所述MRC任务、所述CMTR任务、所述TLM任务、所述CLTR任务和所述单语MLM任务的损失来更新所述跨语言跨模态网络;响应于未达到停止条件,利用接下来的第一训练数据批、第二训练数据批和第三训练数据批重复上述步骤;以及响应于达到停止条件,输出预训练的跨语言跨模态CLCM网络。2.如权利要求1所述的计算机实施的方法,其中:对于所述CMTR任务,所述CLCM网络包括注意力层,所述注意力层用于从所述第一训练数据批学习文本特征与视觉特征之间的对齐。3.如权利要求1所述的计算机实施的方法,其中:对于所述CLTR任务,所述CLCM网络包括注意力机制,所述注意力机制用于计算所述源语言的输入文本与其对应的所述目标语言的文本的注意表示。4.如权利要求1所述的计算机实施的方法,其中:使用微调数据作为对CLCM系统的输入,所述CLCM系统包括所述预训练的CLCM网络,其中,对于每个文本,存在与所述文本相关的一个正图像并且所述图像中的剩余图像与所述文本不相关,并且相应地,对于每个图像,存在与所述图像相关的一个正文本并且所述文本中的剩余文本与所述图像不相关;对于来自所述微调数据的一组文本中的每个文本,确定损失包括在给定所述文本的对应的正图像的情况下所述CLCM系统针对所述文本的相关性输出与在给定不相关图像的情况下所述CLCM系统针对所述文本的相关性输出之间的比较;对于来自所述微调数据的一组图像中的每个图像,确定损失包括在给定所述图像的正文本的情况下所述CLCM系统针对所述图像的相关性输出与在给定不相关文本的情况下所述CLCM系统针对所述图像的相关性输出之间的比较;使用基于所述损失的组合的最终损失来更新所述CLCM系统;并且输出经微调的CLCM系统。5.如权利要求4所述的计算机实施的方法,其中:在给定所述文本的情况下,所述不相关图像产生最差的相关性输出;并且
在给定所述图像的情况下,所述不相关文本产生最差的相关性输出。6.如权利要求4所述的计算机实施的方法,其中:所述微调数据中的所述文本包括一种或多种非源语言。7.如权利要求4所述的计算机实施的方法,其中:接收非源语言的查询文本作为对所述经微调的CLCM系统的输入;在给定所述查询文本和一组图像的情况下,使用所述CLCM系统来获得所述一组图像中的至少一些图像相对于所述查询文本的相关性得分;并且基于相关性得分来为所述查询文本输出一组前k个图像。8.如权利要求4所述的计算机实施的方法,其中:接收查询图像作为对所述经微调的CLCM系统的输入;在给定所述查询图像和一种或多种非源语言的一组文本的情况下,使用所述CLCM系统来获得所述一组文本中的至少一些文本相对于所述查询图像的相关性得分;以及基于相关性得分来为所述查询图像输出一组前k个文本。9.一种计算机实施的方法,包括:接收非源语言的查询文本或查询图像作为对跨语言跨模态CLCM系统的输入;响应于所述输入是所述查询图像,执行包括以下各项的步骤:在给定所述查询图像和一种或多种非源语言的一组文本的情况下,使用所述CLCM系统来获得所述一组文本中的至少一些文本相对于所述查询图像的相关性得分;以及基于相关性得分来为所述查询图像输出一组前k个文本;响应于所述输入是所述查询文本,执行包括以下各项的步骤:在给定所述查询文本和一组图像的情况下,使用所述CLCM系统来获得所述一组图像中的至少一些图像相对于所述查询文本的相关性得分;以及基于相关性得分来为所述查询文本输出一组前k个图像;并且其中,通过执行包括以下各项的步骤来训练所述CLCM系统:在给定第一训练数据批的情况下,使用所述第一训练数据批作为输入来训练跨语言跨模态网络,所述第一训练数据批包括源语言的字幕和对应的图像的视觉特征;基于所述第一训练数据批来计算掩码语言建模MLM任务、掩码区域分类MRC任务和跨模态文本恢复CMTR任务的损失;在给定第二训练数据批的情况下,使用所述第二训练数据批作为输入来训练所述跨语言跨模态网络,所述第二训练数据批包括一组源语言的文本和一组对应的目标语言的文本;基于所述第二训练数据批来计算翻译语言建模TLM任务和跨语言文本恢复CLTR任务的损失;在给定第三训练数据批的情况下,使用所述第三训练数据批作为输入来训练所述跨语言跨模态网络,所述第三训练数据批包括单语文本;基于所述第三训练数据批来计算单语MLM任务的损失;使用所述MLM任务、所述MRC任务、所述CMTR任务、所述TLM任务、所述CLTR任务和所述单语MLM任务的损失来更新所述跨语言跨模态网络;响应于未达到停止条件,利用接下来的第一训练数据批、第二训练数据批和第三训练
数据批重复上述步骤;以及响应于达到停止条件,输出所述CLCM系统的跨语言跨模态CLCM网络。10.如权利要求9所述的计算机实施的方法,其中:对于所述CMTR任务,所述CLCM系统包括注意力层,所述注意力层用于从所述第一训练数据批学习文本特征与视觉特征之间的对齐。11.如权利要求9所述的计算机实施的方法,其中:对于所述CLTR任务,所述CLCM系统包括注意力机制,所述注意力机制用于计算所述源语言的输入文本与其对应的所述目标语言的文本的注意表示。12.如权利要求9所述的计算机实施的方法,其中,...
【专利技术属性】
技术研发人员:费洪亮,于探,李平,
申请(专利权)人:百度美国有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。