基于词表扩充的语种间语义对齐方法、装置及电子设备制造方法及图纸

技术编号:42693008 阅读:49 留言:0更新日期:2024-09-10 12:43
本申请提供一种基于词表扩充的语种间语义对齐方法、装置及电子设备。该方法包括:从目标语言的语料中提取所述目标语言的token;将目标语言的token作为扩充token对原语言模型进行词表扩充;通过微调词表扩充后的原语言模型将所述扩充token嵌入到预训练语言的语义空间中。本申请提供的基于词表扩充的语种间语义对齐方法、装置及电子设备,将目标语言以新添加的token形式嵌入到预训练语言的语义空间中,增强模型处理多语言任务的能力的同时,提升了模型对目标语言的文本理解和生成能力。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其涉及一种基于词表扩充的语种间语义对齐方法、装置及电子设备


技术介绍

1、随着大型预训练语言模型的快速发展,gpt-4、gemini等商用化大模型已经展现出较好的理解和处理多种语言的能力。但与此同时,llama、falcon、mixtral等开源大模型则主要以英语进行预训练,尽管它们在英语任务中表现较好,但在低资源语言上它们的表现并不好,限制了低资源语种的文本数据分析与信息抽取能力的发展。这一性能上的反差凸显了低资源语言在自然语言处理领域中的挑战。

2、针对低资源语言直接预训练语言模型比较困难的问题,可利用现有的大型预训练语言模型进行跨语言的语义空间对齐,但这种方法仍存在知识迁移和共享不充分的问题,导致对低资源语种的文本的理解和生成能力差、模型多语言处理能力不足。


技术实现思路

1、本申请实施例提供一种基于词表扩充的语种间语义对齐方法、装置及电子设备,用以解决现有技术中对低资源语言的语义分析不准确的技术问题。

2、第一方面,本申请实施例提供一种基于词表扩充的本文档来自技高网...

【技术保护点】

1.一种基于词表扩充的语种间语义对齐方法,其特征在于,包括:

2.根据权利要求1所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述通过微调词表扩充后的原语言模型将所述扩充token嵌入到预训练语言的语义空间中,包括:

3.根据权利要求2所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述对词表扩充后的原语言模型的预测头参数、词汇嵌入表示和/或Transformer解码器参数进行微调,包括:

4.根据权利要求3所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述获得第一阶段扩展模型之后,所述方法还包括:

5.根据权利要求4所述的...

【技术特征摘要】

1.一种基于词表扩充的语种间语义对齐方法,其特征在于,包括:

2.根据权利要求1所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述通过微调词表扩充后的原语言模型将所述扩充token嵌入到预训练语言的语义空间中,包括:

3.根据权利要求2所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述对词表扩充后的原语言模型的预测头参数、词汇嵌入表示和/或transformer解码器参数进行微调,包括:

4.根据权利要求3所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述获得第一阶段扩展模型之后,所述方法还包括:

5.根据权利要求4所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述获得第二阶段扩展模型之后,所述方法...

【专利技术属性】
技术研发人员:张兴伟黄海涛吴杨白松冉郑晓龙曾大军
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1