用于跨语言检索的句子表示生成制造技术

技术编号:38892424 阅读:17 留言:0更新日期:2023-09-22 14:16
本公开提出了用于跨语言检索的句子表示生成的方法、装置和计算机程序产品。可以获得目标句子。可以通过编码器来生成所述目标句子的初始目标句子表示,所述编码器是通过对比上下文预测机制来预训练的。可以通过跨语言修正,基于所述初始目标句子表示,生成所述目标句子的目标句子表示以用于跨语言检索。句子的目标句子表示以用于跨语言检索。句子的目标句子表示以用于跨语言检索。

【技术实现步骤摘要】
用于跨语言检索的句子表示生成

技术介绍

[0001]跨语言密集向量化检索(Cross

lingual Dense Vector Retrieval)任务是自然语言处理任务中的一类重要任务。跨语言密集向量化检索任务涉及多种语言,其旨在用一种语言的查询检索出另一种语言的信息。出于描述简化的目的,本文将跨语言密集向量化检索任务简称为跨语言检索任务。跨语言检索任务可以包括例如跨语言自然语言推断(Cross

lingual Natural Lanuage Inference)任务、跨语言句子检索(Cross

lingual Sentence Retrieval)任务、跨语言查询段落检索(Cross

Lingual Query Passage Retrieval)任务等。在执行跨语言检索任务时,可以通过编码器生成相应一组句子的一组句子表示,并通过合适的预测层,基于所生成的一组句子表示来输出检索结果。以跨语言查询段落检索任务为例,该任务可以针对给定的一种语言的查询,从另一种语言的候选段落中检索出能够回答该查询的段落。在执行跨语言查询段落检索任务时,可以先通过编码器生成查询以及候选段落中的各个句子的句子表示,然后通过预测层,基于所生成的句子表示来输出检索结果。

技术实现思路

[0002]提供本
技术实现思路
以便介绍一组构思,这组构思将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所保护的主题的关键特征或必要特征,也不旨在用于限制所保护的主题的范围。<br/>[0003]本公开的实施例提出了用于跨语言检索的句子表示生成的方法、装置和计算机程序产品。可以获得目标句子。可以通过编码器来生成所述目标句子的初始目标句子表示,所述编码器是通过对比上下文预测机制来预训练的。可以通过跨语言修正,基于所述初始目标句子表示,生成所述目标句子的目标句子表示以用于跨语言检索。
[0004]应当注意,以上一个或多个方面包括在下文中详细描述并且在权利要求中具体指出的特征。以下说明书及附图详细阐述了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以采用各个方面的原理的各种方式,并且本公开旨在包括所有这些方面及其等同变换。
附图说明
[0005]下文将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
[0006]图1示出了根据本公开实施例的用于跨语言检索的句子表示生成的示例性过程。
[0007]图2示出了根据本公开实施例的用于通过对比上下文预测机制来预训练编码器的示例性过程。
[0008]图3示出了根据本公开实施例的用于获得多个句子对的示例性过程。
[0009]图4示出了根据本公开实施例的用于基于对比上下文预测机制来生成子对比预测损失的示例性过程。
[0010]图5示出了根据本公开实施例的用于执行跨语言修正的示例性过程。
[0011]图6是根据本公开实施例的用于跨语言检索的句子表示生成的示例性方法的流程图。
[0012]图7示出了根据本公开实施例的用于跨语言检索的句子表示生成的示例性装置。
[0013]图8示出了根据本公开实施例的用于跨语言检索的句子表示生成的示例性装置。
具体实施方式
[0014]现在将参考若干示例性实施方式来讨论本公开。应当理解,这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例,而并非教导对本公开的范围的任何限制。
[0015]存在多种用于获得能够生成适于执行跨语言检索任务的句子表示的编码器的方法。作为示例,可以先通过已知的预训练机制,例如掩码语言模型(Masked Language Model,MLM)机制,基于双语训练语料来预训练一机器学习模型。在本文中,双语训练语料可以指包括多个句子对,且每个句子对包括两种语言的两个句子的训练语料。然后,可以针对一种语言对经预训练的模型进行微调(fine

tune)。经微调的模型可以被部署用于针对另一种语言的句子表示生成。作为另一示例,可以通过对比学习(Contrastive Learning)机制,通过使得具有相同含义但不同语言的两个句子能够具有类似表示来预训练机器学习模型。经这种方式预训练的模型可以不经微调而被部署用于跨语言检索的句子表示生成。上述方法需要依赖于双语训练语料。然而,涉及较少使用的低资源语言的双语训练语料或者非英语的双语训练语料是稀缺的,而仅利用涉及英语的双语训练语料来预训练模型将会制约模型在执行涉及其他语言的跨语言检索任务时的性能。此外,一些跨语言检索任务,例如跨语言查询段落检索任务,要求模型将语义相关的查询和候选段落映射到向量空间中的相同位置。然而,现有模型仅能将具有相同含义的双语句子对映射到向量空间中的相同位置,例如将具有相同含义的一种语言的查询和另一种语言的查询映射到向量空间中的相同位置,或者将具有相同含义的一种语言的候选段落和另一种语言的候选段落映射到向量空间中的相同位置,但无法将相同语言的查询和候选段落映射到向量空间中的相同位置。这也将制约模型在生成句子表示时的性能,从而进一步影响跨语言检索的准确性。
[0016]本公开的实施例提出了改进的跨语言检索的句子表示生成。首先,可以通过根据本公开实施例预训练的编码器来生成目标句子的初始目标句子表示。在本文中,可以将要针对其执行跨语言检索任务的文本中的句子称为目标句子。以跨语言查询段落检索任务为例,目标句子可以是查询或者候选段落中的句子。可以将由编码器生成的目标句子的表示称为初始目标句子表示。随后,可以对初始目标句子表示执行后处理,例如跨语言修正(Cross

lingual Calibration),以生成目标句子表示。所生成的目标句子表示可以适用于执行各类跨语言检索任务,例如跨语言自然语言推断任务、跨语言句子检索任务、跨语言查询段落检索任务等。
[0017]在一个方面,本公开的实施例提出了通过对比上下文预测(Contrastive Context Prediction,CCP)机制来预训练编码器。可以利用包括多个句子对的训练数据集合来预训练编码器。每个句子对可以包括来自相同文档的相同上下文窗口中的两个句子。相应地,这两个句子可以是相同语言的两个句子。在本文中,上下文窗口可以指由相同文档中的预定
数量的连续句子组成的文本片段。对比上下文预测机制旨在对文档中的句子级别的上下文关系进行建模,从而使得一个句子对中的两个句子的表示与彼此尽量接近且与随机采样的负样本尽量远离。位于相同上下文窗口中的两个句子通常可以被认为是具有相同或类似含义的。通过对比上下文预测机制预训练的编码器对于具有相同或类似含义的两个句子可以生成类似的表示。进一步地,该编码器对于具有相同或类似含义但不同语言的两个句子可以生成类似表示,因此这两个句子的句子表示在向量空间中可以被自动对齐。相应地,由该编码器生成的不同语言的句子的句子表示可以在向量空间中形成同构(isomorphic)结构。利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于跨语言检索的句子表示生成的方法,包括:获得目标句子;通过编码器来生成所述目标句子的初始目标句子表示,所述编码器是通过对比上下文预测机制来预训练的;以及通过跨语言修正,基于所述初始目标句子表示,生成所述目标句子的目标句子表示以用于跨语言检索。2.根据权利要求1所述的方法,其中,所述目标句子是第一语言的句子,并且所述目标句子表示适用于执行跨所述第一语言和第二语言的跨语言检索任务。3.根据权利要求1所述的方法,其中,所述编码器的预训练包括:利用训练数据集合,通过所述对比上下文预测机制来预训练所述编码器,其中,所述训练数据集合是通过以下操作获得的:获得多个句子对,每个句子对包括位于相同上下文窗口中的两个句子;以及将所述多个句子对组合成所述训练数据集合。4.根据权利要求3所述的方法,其中,所述两个句子是相同语言的两个句子。5.根据权利要求3所述的方法,其中,所述获得多个句子对包括:识别至少一个文档中的多个中心句子;对于所述多个中心句子中的每个中心句子,确定所述至少一个文档中的以所述中心句子为中心的上下文窗口,从所述上下文窗口中提取上下文句子,并且将所述中心句子和所述上下文句子组合成与所述中心句子相对应的句子对;以及获得与所述多个中心句子相对应的所述多个句子对。6.根据权利要求3所述的方法,其中,所述预训练所述编码器包括:对于所述多个句子对中的每个句子对,基于所述对比上下文预测机制来生成与所述句子对相对应的子对比预测损失;基于与所述多个句子对相对应的多个子对比预测损失,生成与所述训练数据集合相对应的对比预测损失;以及至少通过使所述对比预测损失最小化来优化所述编码器。7.根据权利要求6所述的方法,其中,所述句子对包括中心句子和上下文句子,并且所述基于所述对比上下文预测机制来生成与所述句子对相对应的子对比预测损失包括:通过所述编码器,预测所述中心句子的初始中心句子表示;通过所述编码器,预测所述上下文句子的初始上下文句子表示;通过第一投影单元,基于所述初始中心句子表示,生成所述中心句子的中心句子表示;通过第二投影单元,基于所述初始上下文句子表示,生成所述上下文句子的上下文句子表示;以及至少基于所述中心句子表示和所述上下文句子表示来生成所述子对比预测损失。8.根据权利要求7所述的方法,其中,所述第一投影单元至少包括第一批归一化层,所述第二投影单元至少包括第二批归一化层,并且所述第一批归一化层和所述第二批归一化层在相同时刻处于不同的批归一化模式。9.根据权利要求8所述的方法,其中,所述不同的批归一化模式包括:基于批均值和批方差的训练模式,以及
基于移动均值和移动方差的评估模式。10.根据权利要求7所述的方法,其中,所述中心句子和所述上下文句子是第三语言的句子,在记忆库中存储与先前训练数据集合相对应的先前表示集合,并且所述生成所述子对比预测损失包括:从所述先前表示集合中提取针对所述第三语言...

【专利技术属性】
技术研发人员:吴宁梁耀波范宝泉寿林钧公明姜大昕段楠
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1