计算机实施的方法、用于计算机学习的系统和介质技术方案

技术编号:35680014 阅读:13 留言:0更新日期:2022-11-23 14:21
本公开涉及计算机实施的方法、用于计算机学习的系统和介质。用于英文跨模态检索任务的当前预训练视觉

【技术实现步骤摘要】
计算机实施的方法、用于计算机学习的系统和介质
[0001]相关申请的交叉引用
[0002]本专利申请涉及于2021年5月19日提交的专利技术人为费洪亮、于探和李平、名称为“SYSTEMS AND METHODS FOR CROSS

LINGUAL CROSS

MODAL TRAINING FOR MULTIMODAL RETRIEVAL[用于多模态检索的跨语言跨模态训练的系统和方法]”的共同未决且共同拥有的美国专利申请号63/190,667(案卷号28888

2494P)并根据35 USC
§
119(e)要求其优先权权益,所述专利文献通过引用以其整体并且出于所有目的并入本文。


[0003]本公开总体上涉及用于可以提供改进的计算机性能、特征和用途的计算机学习的系统和方法。更具体地,本公开涉及用于多模态检索的跨语言跨模态训练和用于部署经训练的多模态检索模型的系统和方法。

技术介绍

[0004]最近基于转换器的预训练视觉

语言模型在英文的跨模态检索、图像字幕和视觉问答(VQA)任务方面取得了出色的表现。例如,在最近的VQA竞争中,大多数领先的竞争者依赖于基于转换器的预训练视觉

语言模型。然而,他们的成功在很大程度上取决于大量带注释的图像

字幕预训练数据集(例如,概念字幕)的可用性。在现实中,其他语言的这种数据是有限的。
[0005]当推广到跨语言跨模态应用时,直接的方式是利用机器翻译(MT)工具将非英文文本翻译成英文并重用英文预训练模型。然而,性能在很大程度上依赖于MT工具的能力并且在真实世界应用中受到高延迟问题的影响。
[0006]为了学习多语言多模态表示,最近的研究人员利用多语言数据集在联合嵌入空间中对图像和文本字幕进行建模。基于共享特征空间的学习方式,存在两种类型:单词级别对齐和句子级别对齐。这些模型可以捕获语言和图像之间一定程度的语义相似性。然而,他们只对文本和图像的全局特征的相关性进行了建模。这种限制可能会阻止这些模型有效地在局部检测相关性。同时,如多语言BERT和XLM等跨语言语言模型以及预训练视觉

语言模型在桥接不同语言和模态方面已经很普遍。这些模型使用同时从多语言或图像

字幕对训练的转换器架构来构建编码器并针对下游的任务特定目标对编码器进行微调。整个过程实现了跨语言和模态的充分交互。然而,当前跨语言模型和跨模态模型是分别在多语言语料库和英文字幕数据上训练的。因此,所得预训练模型并不直接适用于涉及非英文语言的下游跨模态任务。
[0007]因此,需要的是提供跨语言跨模态预训练框架实施例以学习跨图像和文本模态的语言不变表示的系统和方法。
附图说明
[0008]将参考本公开的实施例,在附图中可以图示实施例的示例。这些附图旨在是说明
性的,而不是限制性的。尽管在这些实施例的上下文中总体地描述了本公开,但是应当理解,这并不旨在将本公开的范围限制于这些特定实施例。附图中的项可能未按比例绘制。
[0009]图1图示了根据本公开的实施例的数据之间的跨语言和跨模态关系。
[0010]图2图示地描绘了根据本公开的实施例的预训练模型。
[0011]图3图示地描绘了根据本公开的实施例的跨模态文本恢复系统和方法流程。
[0012]图4描绘了根据本公开的实施例的用于预训练的跨语言跨模态模型的方法。
[0013]图5图示地描绘了根据本公开的实施例的用于对预训练的跨语言跨模态(CLCM)网络进行微调的架构。
[0014]图6描绘了根据本公开的实施例的用于微调的方法。
[0015]图7描绘了根据本公开的实施例的用于使用跨语言跨模态(CLCM)系统和查询文本来查找一组一个或多个相关图像的方法。
[0016]图8描绘了根据本公开的实施例的用于使用CLCM系统和输入图像来查找一组一个或多个相关文本的方法。
[0017]图9包含表2,其描绘了根据本公开的实施例的英文的跨模态检索结果(以百分比%表示)。
[0018]图10包含表3,其描绘了根据本公开的实施例的日文(数据集2)和德文(数据集1)的跨模态检索结果。
[0019]图11描绘了根据本公开的实施例的计算设备/信息处理系统的简化框图。
具体实施方式
[0020]在以下描述中,出于解释的目的,阐述了具体细节,以便提供对本公开的理解。然而,对于本领域技术人员而言将显而易见的是,可以在没有这些细节的情况下实践本公开。此外,本领域技术人员将认识到,下文描述的本公开的实施例可以以各种方式实施,如进程、装置、系统、设备或有形计算机可读介质上的方法。
[0021]附图中所示的部件或模块是对本公开的示例性实施例的说明并且旨在避免模糊本公开。还应当理解,在整个讨论中,部件可以被描述为可以包括子单元的单独的功能单元,但是本领域技术人员将认识到,各种部件或其部分可以被划分为单独的部件或者可以被集成在一起,包括例如集成在单个系统或部件中。应当注意,本文所讨论的功能或操作可以被实施为部件。可以在软件、硬件或其组合中实施部件。
[0022]此外,附图内的部件或系统之间的连接不旨在限于直接连接。而是,可以通过中间部件对这些部件之间的数据进行修改、重新格式化或以其他方式改变。此外,可以使用附加或更少的连接。还应当注意,术语“耦接”、“连接”、“通信地耦接”、“接口连接”、“接口”或其派生词中的任何派生词应当被理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。还应当注意,如信号、响应、回复、确认、消息、查询等任何通信都可以包括一次或多次信息交换。
[0023]说明书中提及“一个或多个实施例”、“优选实施例”、“实施例”、“多个实施例”等意味着结合实施例描述的特定特征、结构、特性或功能包括在本公开的至少一个实施例中并且可以在多于一个实施例中。另外,说明书中各个地方出现的上述短语不一定指代相同的一个或多个实施例。
[0024]在说明书中各个地方使用某些术语是用于说明并且不应被解释为限制。服务、功能或资源不限于单个服务、功能或资源;这些术语的使用可以指代可以是分布式的或聚合的相关服务、功能或资源的分组。术语“包括(include)”、“包括有”、“包含”和“包含有”应被理解为是开放性术语并且随后的任何列出项目都是示例,并且不意味着限于所列项目。“层”可以包括一个或多个操作。词语“最佳”、“最优”、“优化”等是指结果或过程的改进,并且不要求特定结果或过程已经达到“最佳”或峰值状态。存储器、数据库、信息库、数据存储、表、硬件、缓存等的使用在本文中可以用于指代可以将信息输入或以其他方式记录其中的一个或多个系统部件。
[0025]在一个或多个实施例中,停止条件可以包括:(1)已经执行了一定数量的迭代;(2)已经达到处理时间量;(3)收敛(例如,连续迭代之间的差异小于第一阈值);(4本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实施的方法,包括:在给定第一训练数据批的情况下,使用所述第一训练数据批作为输入来训练跨语言跨模态网络,所述第一训练数据批包括源语言的字幕和对应的图像的视觉特征;基于所述第一训练数据批来计算掩码语言建模MLM任务、掩码区域分类MRC任务和跨模态文本恢复CMTR任务的损失;在给定第二训练数据批的情况下,使用所述第二训练数据批作为输入来训练所述跨语言跨模态网络,所述第二训练数据批包括一组源语言的文本和一组对应的目标语言的文本;基于所述第二训练数据批来计算翻译语言建模TLM任务和跨语言文本恢复CLTR任务的损失;在给定第三训练数据批的情况下,使用所述第三训练数据批作为输入来训练所述跨语言跨模态网络,所述第三训练数据批包括单语文本;基于所述第三训练数据批来计算单语MLM任务的损失;使用所述MLM任务、所述MRC任务、所述CMTR任务、所述TLM任务、所述CLTR任务和所述单语MLM任务的损失来更新所述跨语言跨模态网络;响应于未达到停止条件,利用接下来的第一训练数据批、第二训练数据批和第三训练数据批重复上述步骤;以及响应于达到停止条件,输出预训练的跨语言跨模态CLCM网络。2.如权利要求1所述的计算机实施的方法,其中:对于所述CMTR任务,所述CLCM网络包括注意力层,所述注意力层用于从所述第一训练数据批学习文本特征与视觉特征之间的对齐。3.如权利要求1所述的计算机实施的方法,其中:对于所述CLTR任务,所述CLCM网络包括注意力机制,所述注意力机制用于计算所述源语言的输入文本与其对应的所述目标语言的文本的注意表示。4.如权利要求1所述的计算机实施的方法,其中:使用微调数据作为对CLCM系统的输入,所述CLCM系统包括所述预训练的CLCM网络,其中,对于每个文本,存在与所述文本相关的一个正图像并且所述图像中的剩余图像与所述文本不相关,并且相应地,对于每个图像,存在与所述图像相关的一个正文本并且所述文本中的剩余文本与所述图像不相关;对于来自所述微调数据的一组文本中的每个文本,确定损失包括在给定所述文本的对应的正图像的情况下所述CLCM系统针对所述文本的相关性输出与在给定不相关图像的情况下所述CLCM系统针对所述文本的相关性输出之间的比较;对于来自所述微调数据的一组图像中的每个图像,确定损失包括在给定所述图像的正文本的情况下所述CLCM系统针对所述图像的相关性输出与在给定不相关文本的情况下所述CLCM系统针对所述图像的相关性输出之间的比较;使用基于所述损失的组合的最终损失来更新所述CLCM系统;并且输出经微调的CLCM系统。5.如权利要求4所述的计算机实施的方法,其中:在给定所述文本的情况下,所述不相关图像产生最差的相关性输出;并且
在给定所述图像的情况下,所述不相关文本产生最差的相关性输出。6.如权利要求4所述的计算机实施的方法,其中:所述微调数据中的所述文本包括一种或多种非源语言。7.如权利要求4所述的计算机实施的方法,其中:接收非源语言的查询文本作为对所述经微调的CLCM系统的输入;在给定所述查询文本和一组图像的情况下,使用所述CLCM系统来获得所述一组图像中的至少一些图像相对于所述查询文本的相关性得分;并且基于相关性得分来为所述查询文本输出一组前k个图像。8.如权利要求4所述的计算机实施的方法,其中:接收查询图像作为对所述经微调的CLCM系统的输入;在给定所述查询图像和一种或多种非源语言的一组文本的情况下,使用所述CLCM系统来获得所述一组文本中的至少一些文本相对于所述查询图像的相关性得分;以及基于相关性得分来为所述查询图像输出一组前k个文本。9.一种计算机实施的方法,包括:接收非源语言的查询文本或查询图像作为对跨语言跨模态CLCM系统的输入;响应于所述输入是所述查询图像,执行包括以下各项的步骤:在给定所述查询图像和一种或多种非源语言的一组文本的情况下,使用所述CLCM系统来获得所述一组文本中的至少一些文本相对于所述查询图像的相关性得分;以及基于相关性得分来为所述查询图像输出一组前k个文本;响应于所述输入是所述查询文本,执行包括以下各项的步骤:在给定所述查询文本和一组图像的情况下,使用所述CLCM系统来获得所述一组图像中的至少一些图像相对于所述查询文本的相关性得分;以及基于相关性得分来为所述查询文本输出一组前k个图像;并且其中,通过执行包括以下各项的步骤来训练所述CLCM系统:在给定第一训练数据批的情况下,使用所述第一训练数据批作为输入来训练跨语言跨模态网络,所述第一训练数据批包括源语言的字幕和对应的图像的视觉特征;基于所述第一训练数据批来计算掩码语言建模MLM任务、掩码区域分类MRC任务和跨模态文本恢复CMTR任务的损失;在给定第二训练数据批的情况下,使用所述第二训练数据批作为输入来训练所述跨语言跨模态网络,所述第二训练数据批包括一组源语言的文本和一组对应的目标语言的文本;基于所述第二训练数据批来计算翻译语言建模TLM任务和跨语言文本恢复CLTR任务的损失;在给定第三训练数据批的情况下,使用所述第三训练数据批作为输入来训练所述跨语言跨模态网络,所述第三训练数据批包括单语文本;基于所述第三训练数据批来计算单语MLM任务的损失;使用所述MLM任务、所述MRC任务、所述CMTR任务、所述TLM任务、所述CLTR任务和所述单语MLM任务的损失来更新所述跨语言跨模态网络;响应于未达到停止条件,利用接下来的第一训练数据批、第二训练数据批和第三训练
数据批重复上述步骤;以及响应于达到停止条件,输出所述CLCM系统的跨语言跨模态CLCM网络。10.如权利要求9所述的计算机实施的方法,其中:对于所述CMTR任务,所述CLCM系统包括注意力层,所述注意力层用于从所述第一训练数据批学习文本特征与视觉特征之间的对齐。11.如权利要求9所述的计算机实施的方法,其中:对于所述CLTR任务,所述CLCM系统包括注意力机制,所述注意力机制用于计算所述源语言的输入文本与其对应的所述目标语言的文本的注意表示。12.如权利要求9所述的计算机实施的方法,其中,...

【专利技术属性】
技术研发人员:费洪亮于探李平
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1