【技术实现步骤摘要】
用于跨语言检索的句子表示生成
技术介绍
[0001]跨语言密集向量化检索(Cross
‑
lingual Dense Vector Retrieval)任务是自然语言处理任务中的一类重要任务。跨语言密集向量化检索任务涉及多种语言,其旨在用一种语言的查询检索出另一种语言的信息。出于描述简化的目的,本文将跨语言密集向量化检索任务简称为跨语言检索任务。跨语言检索任务可以包括例如跨语言自然语言推断(Cross
‑
lingual Natural Lanuage Inference)任务、跨语言句子检索(Cross
‑
lingual Sentence Retrieval)任务、跨语言查询段落检索(Cross
‑
Lingual Query Passage Retrieval)任务等。在执行跨语言检索任务时,可以通过编码器生成相应一组句子的一组句子表示,并通过合适的预测层,基于所生成的一组句子表示来输出检索结果。以跨语言查询段落检索任务为例,该任务可以针对给定的一种语言的查询,从另一种语言的候选段落中检索出能够回答该查询的段落。在执行跨语言查询段落检索任务时,可以先通过编码器生成查询以及候选段落中的各个句子的句子表示,然后通过预测层,基于所生成的句子表示来输出检索结果。
技术实现思路
[0002]提供本
技术实现思路
以便介绍一组构思,这组构思将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所保护的主题的关键特征或必要特征,也不旨在用于限制所保护的主题的范围。< ...
【技术保护点】
【技术特征摘要】
1.一种用于跨语言检索的句子表示生成的方法,包括:获得目标句子;通过编码器来生成所述目标句子的初始目标句子表示,所述编码器是通过对比上下文预测机制来预训练的;以及通过跨语言修正,基于所述初始目标句子表示,生成所述目标句子的目标句子表示以用于跨语言检索。2.根据权利要求1所述的方法,其中,所述目标句子是第一语言的句子,并且所述目标句子表示适用于执行跨所述第一语言和第二语言的跨语言检索任务。3.根据权利要求1所述的方法,其中,所述编码器的预训练包括:利用训练数据集合,通过所述对比上下文预测机制来预训练所述编码器,其中,所述训练数据集合是通过以下操作获得的:获得多个句子对,每个句子对包括位于相同上下文窗口中的两个句子;以及将所述多个句子对组合成所述训练数据集合。4.根据权利要求3所述的方法,其中,所述两个句子是相同语言的两个句子。5.根据权利要求3所述的方法,其中,所述获得多个句子对包括:识别至少一个文档中的多个中心句子;对于所述多个中心句子中的每个中心句子,确定所述至少一个文档中的以所述中心句子为中心的上下文窗口,从所述上下文窗口中提取上下文句子,并且将所述中心句子和所述上下文句子组合成与所述中心句子相对应的句子对;以及获得与所述多个中心句子相对应的所述多个句子对。6.根据权利要求3所述的方法,其中,所述预训练所述编码器包括:对于所述多个句子对中的每个句子对,基于所述对比上下文预测机制来生成与所述句子对相对应的子对比预测损失;基于与所述多个句子对相对应的多个子对比预测损失,生成与所述训练数据集合相对应的对比预测损失;以及至少通过使所述对比预测损失最小化来优化所述编码器。7.根据权利要求6所述的方法,其中,所述句子对包括中心句子和上下文句子,并且所述基于所述对比上下文预测机制来生成与所述句子对相对应的子对比预测损失包括:通过所述编码器,预测所述中心句子的初始中心句子表示;通过所述编码器,预测所述上下文句子的初始上下文句子表示;通过第一投影单元,基于所述初始中心句子表示,生成所述中心句子的中心句子表示;通过第二投影单元,基于所述初始上下文句子表示,生成所述上下文句子的上下文句子表示;以及至少基于所述中心句子表示和所述上下文句子表示来生成所述子对比预测损失。8.根据权利要求7所述的方法,其中,所述第一投影单元至少包括第一批归一化层,所述第二投影单元至少包括第二批归一化层,并且所述第一批归一化层和所述第二批归一化层在相同时刻处于不同的批归一化模式。9.根据权利要求8所述的方法,其中,所述不同的批归一化模式包括:基于批均值和批方差的训练模式,以及
基于移动均值和移动方差的评估模式。10.根据权利要求7所述的方法,其中,所述中心句子和所述上下文句子是第三语言的句子,在记忆库中存储与先前训练数据集合相对应的先前表示集合,并且所述生成所述子对比预测损失包括:从所述先前表示集合中提取针对所述第三语言...
【专利技术属性】
技术研发人员:吴宁,梁耀波,范宝泉,寿林钧,公明,姜大昕,段楠,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。