System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多阶段微调的低资源越汉跨语言摘要生成方法技术_技高网

基于多阶段微调的低资源越汉跨语言摘要生成方法技术

技术编号:40281597 阅读:5 留言:0更新日期:2024-02-07 20:35
本发明专利技术涉及基于多阶段微调的低资源越汉跨语言摘要生成方法,属于自然语言处理领域。本发明专利技术首先利用少量越汉平行语料微调多语言预训练模型,以增强源语言(即越南语)与目标语言(即中文)之间的对齐能力。然后,联合少量单语摘要数据集和少量跨语言摘要数据集进一步微调多语言预训练模型,以同步提升模型的信息压缩及语义对齐能力。本发明专利技术针对低资源条件下越汉跨语言摘要生成问题提出基于多阶段微调的低资源越汉跨语言摘要生成方法,所提方法解决了语料稀缺情况下跨语言摘要模型泛化能力差、学习不充分等问题。

【技术实现步骤摘要】

本专利技术涉及基于多阶段微调的低资源越汉跨语言摘要生成方法,属于自然语言处理。


技术介绍

1、跨语言摘要(cross-lingual summarization,cls)旨在将一种语言(源语言)的长文本以简洁而不失原意的方式转换为另一种语言(目标语言)的摘要,可用于帮助用户从不同语言中快速获取信息,促进跨文化交流和提升周边国家事态感知能力。

2、尽管近年来,得益于多语言预训练模型(例如:mbart)的强大表征及迁移能力,基于多语言预训练模型进行跨语言摘要生成逐渐成为趋势,并在富资源语言(例如:中英跨语言摘要)上取得了一定成效。然而,在越南语等低资源语言上,受限于跨语言摘要的语料资源稀缺及构建困难等问题,现有方法较难学习到源语言与目标语言的对齐关系,也难以建模原文到摘要的关键信息精炼过程,进而限制了越汉跨语言摘要生成能力。


技术实现思路

1、为了解决上述问题,本专利技术提供了基于多阶段微调的低资源越汉跨语言摘要生成方法;在第一阶段,利用少量翻译数据集微调多语言预训练模型,以增强源语言(即越南语)与目标语言(即中文)之间的对齐能力。在第二阶段,联合少量单语摘要数据集和少量跨语言摘要数据集进一步微调多语言预训练模型,以同步提升模型的信息压缩及语义对齐能力。

2、本专利技术的技术方案是:基于多阶段微调的低资源越汉跨语言摘要生成方法,所述方法的具体步骤如下:

3、step1、第一阶段中,使用源语言摘要和目标语言摘要的平行语料库来在mbart多语言预训练模型上进行翻译微调训练;

4、step2、编码器和目标语言解码器使用第一阶段rouge-2得分最高的检查点进行初始化,在此基础上再添加一个源语言解码器,其使用mbart多语言预训练模型的解码器参数初始化,最后使用越南语和中文摘要参考来监督训练模型生成越南文和中文摘要。

5、进一步地,所述step1的具体步骤为:

6、step1.1、收集包含源语言摘要和目标语言摘要的平行语料库,该语料库应涵盖足够的样本以进行训练;

7、step1.2、第一阶段,将平行语料库输入到mbart多语言预训练模型中,并使用其进行翻译微调训练;在微调期间,模型会通过逐渐调整参数来提高翻译性能;

8、step1.3、在微调过程中,使用一种评估指标来选择最佳的检查点,该检查点具有在翻译任务上取得最高rouge-2得分的模型参数;

9、step1.4、保留该最佳检查点,并将其作为后续步骤中编码器和目标语言解码器的初始化参数。

10、进一步地,所述step2的具体步骤为:

11、step2.1、在step1的基础上,使用第一阶段rouge-2得分最高的检查点来初始化编码器和目标语言解码器;

12、step2.2、在该阶段中,还引入一个源语言解码器,并使用mbart多语言预训练模型的解码器参数进行初始化;

13、step2.3、引入越南语和中文摘要作为参考,用于监督训练模型生成越南语和中文摘要;

14、step2.4、训练过程,源语言摘要损失ls乘以权重α加上目标语言摘要损失lt乘以β,得到联合损失lcomb,其中,c是可训练参数,r是人为给定参数;

15、

16、

17、lcomb=α·lt+ln(1+(r·c)2)+β·ls+ln(1+c2);

18、step2.5、求导损失lcomb并通过反向传播和优化算法,更新模型参数,使其逐渐优化生成的越南语和中文摘要的质量;

19、step2.6、持续训练模型,直到达到预定的训练轮数或收敛条件。

20、本专利技术的有益效果是:

21、1、使用平行语料库微调预训练模型和使用多任务框架,针对低资源情况下跨语言摘要语义对齐难、信息压缩难等问题,提出了基于多阶段微调的低资源越汉跨语言摘要生成方法,有效解决问题。

22、2、针对多语言预训练模型强大表征及迁移能力的特点,将预训练模型应用到低资源跨语言摘要任务上,有效提升了低资源场景下跨语言摘要模型性能。

本文档来自技高网...

【技术保护点】

1.基于多阶段微调的低资源越汉跨语言摘要生成方法,其特征在于:所述方法的具体步骤如下:

2.根据权利要求1所述的基于多阶段微调的低资源越汉跨语言摘要生成方法,其特征在于:所述Step1的具体步骤为:

3.根据权利要求1所述的基于多阶段微调的低资源越汉跨语言摘要生成方法,其特征在于:所述Step2的具体步骤为:

4.根据权利要求1所述的基于多阶段微调的低资源越汉跨语言摘要生成方法,其特征在于:训练过程,源语言摘要损失Ls乘以权重α加上目标语言摘要损失Lt乘以β,得到联合损失Lcomb,其中,c是可训练参数,r是人为给定参数;

【技术特征摘要】

1.基于多阶段微调的低资源越汉跨语言摘要生成方法,其特征在于:所述方法的具体步骤如下:

2.根据权利要求1所述的基于多阶段微调的低资源越汉跨语言摘要生成方法,其特征在于:所述step1的具体步骤为:

3.根据权利要求1所述的基于多阶段微调的低资源越汉跨语言摘...

【专利技术属性】
技术研发人员:余正涛张凯雄谭凯文张勇丙黄于欣
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1