System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于句子对齐的非自回归大模型篇章级机器翻译方法、装置及介质制造方法及图纸_技高网

一种基于句子对齐的非自回归大模型篇章级机器翻译方法、装置及介质制造方法及图纸

技术编号:44931844 阅读:18 留言:0更新日期:2025-04-08 19:13
本发明专利技术属于机器翻译技术领域,提供了一种基于句子对齐的非自回归大模型篇章级机器翻译方法、装置及介质。本发明专利技术包括:(1)模型训练阶段:(11)采用篇章级别训练数据,进行分句和句子对齐,得到对齐后的句对,基于对齐后的句对使用特殊符号进行拼接,得到拼接后的原文全文本和译文全文本,译文每一句的句子长度,和原文文本一起作为输入一起输入到非自回归大模型中;(12)进行非自回归大模型全参微调;(2)模型推理阶段:采用非自回归的方式,一次性生成所有预测文本,并进行句子长度预测以及翻译效果优化。本发明专利技术通过对大模型进行全参微调,实现篇章级别机器翻译,通过在训练过程加入句子对齐损失函数,解决篇章级机器翻译对齐问题。

【技术实现步骤摘要】

本专利技术属于机器翻译,具体地说,是涉及一种基于句子对齐的非自回归大模型篇章级机器翻译方法、装置及介质


技术介绍

1、与传统机器翻译模型相比,大模型能够更好地捕捉输入文本的语义信息和上下文关系,使用大模型进行篇章级别的机器翻译能很好的解决传统机翻模型输入窗口的问题,并且能利用上下文信息,进行更准确的翻译。

2、但是,大模型进行篇章级机器翻译存在以下两个问题:一是推理速度慢,由于大模型参数量太大,导致在推理时比传统机器翻译慢很多,满足不了线上高并发的用户需求;二是句子对齐问题,由于篇章级机器翻译输入句子太长,会导致大模型在翻译时不能精确的实现原文与译文的句句对应,可能出现漏译、错译等问题。


技术实现思路

1、本专利技术的目的在于提供一种基于句子对齐的非自回归大模型篇章级机器翻译方法,以解决现有技术所存在的技术问题。

2、为了实现上述目的,本专利技术采取的技术方案如下:

3、一种基于句子对齐的非自回归大模型篇章级机器翻译方法,包括:

4、(1)模型训练阶段

5、(11)采用篇章级别训练数据,对篇章级别训练数据进行分句和句子对齐,得到对齐后的句对,基于对齐后的句对使用特殊符号进行拼接,得到拼接后的原文全文本和译文全文本,译文每一句的句子长度,和原文文本一起作为输入一起输入到非自回归大模型中;

6、(12)进行非自回归大模型全参微调,在模型进行参数更新时,引入句子对齐损失函数,分别计算每句的损失函数;

7、(2)模型推理阶段

8、采用非自回归的方式,一次性生成所有预测文本,并进行句子长度预测以及翻译效果优化,具体实现步骤如下:

9、(21)对原文中的每个句子,使用小模型进行自回归预测,连续生成y个预测token作为下模型输出结果,并得到句子长度;

10、(22)利用原文和所述(21)中的预测token作为输入,进行非自回归大模型非自回归解码,一次性输出所有预测token;

11、(23)针对每一步的预测token,使用大模型和小模型的logits做对比:

12、(231)若预测token的大模型的生成概率小于小模型的生成概率,则重新执行步骤(22),得到更新后的预测token;

13、(232)若预测token的大模型生成的效果大于或等于小模型,则保留大模型输出的预测token作为当前步推理的结果;然后,重新执行步骤(21),更新小模型输出结果,并进行下一步推理,直到模型推理结束。

14、在一种优选实施方案中,所述(11)中,篇章级别训练数据通过直接获取现有的整篇文章的原文和译文获得。

15、在一种优选实施方案中,所述(11)中,分句时根据停顿符号,对原文、译文进行句子拆分,得到句对;拆分后使用句子评估方法,对拆分后的原文、译文的句对进行打分,根据阈值,保留分数超过阈值的句对,实现原文和译文的对齐。

16、在一种优选实施方案中,所述(12)中,全参微调的方法如下:保持原有模型的参数结构不变,通过使用特定任务的数据集,对模型进行进一步训练,所有的模型参数都参与更新。

17、在一种优选实施方案中,所述(12)中,损失函数的计算方法如下:根据句子分隔符“<sent>”对标准译文和预测译文进行长度对齐,通过句子拼接符号“<pad>”对较短句子进行补齐,然后再计算总体的损失函数。

18、为了实现上述目的,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行,以实现如上所述的基于句子对齐的非自回归大模型篇章级机器翻译方法。

19、为了实现上述目的,本专利技术还提供了一种基于句子对齐的非自回归大模型篇章级机器翻译装置,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使得所述基于句子对齐的非自回归大模型篇章级机器翻译装置执行如上所述的基于句子对齐的非自回归大模型篇章级机器翻译方法。

20、与现有技术相比,本专利技术具备以下有益效果:

21、(1)根据本专利技术,通过对大模型进行全参微调,实现篇章级别机器翻译。

22、(2)根据本专利技术,通过在训练过程加入句子对齐损失函数,解决篇章级机器翻译对齐问题。

23、(3)根据本专利技术,使用非自回归方式提升大模型推理速度。

24、(4)根据本专利技术,使用投机采样解码的方式优化大模型机翻效果。

本文档来自技高网...

【技术保护点】

1.一种基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,包括:

2.根据权利要求1所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(11)中,篇章级别训练数据通过直接获取现有的整篇文章的原文和译文获得。

3.根据权利要求2所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(11)中,分句时根据停顿符号,对原文、译文进行句子拆分,得到句对;拆分后使用句子评估方法,对拆分后的原文、译文的句对进行打分,根据阈值,保留分数超过阈值的句对,实现原文和译文的对齐。

4.根据权利要求3所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(12)中,全参微调的方法如下:保持原有模型的参数结构不变,通过使用特定任务的数据集,对模型进行进一步训练,所有的模型参数都参与更新。

5.根据权利要求4所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(12)中,损失函数的计算方法如下:根据句子分隔符“<SENT>”对标准译文和预测译文进行长度对齐,通过句子拼接符号“<PAD>”对较短句子进行补齐,然后再计算总体的损失函数。

6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行,以实现如权利要求1~5任一项所述的基于句子对齐的非自回归大模型篇章级机器翻译方法。

7.一种基于句子对齐的非自回归大模型篇章级机器翻译装置,其特征在于,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使得所述基于句子对齐的非自回归大模型篇章级机器翻译装置执行如权利要求1~5任一项所述的基于句子对齐的非自回归大模型篇章级机器翻译方法。

...

【技术特征摘要】

1.一种基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,包括:

2.根据权利要求1所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(11)中,篇章级别训练数据通过直接获取现有的整篇文章的原文和译文获得。

3.根据权利要求2所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(11)中,分句时根据停顿符号,对原文、译文进行句子拆分,得到句对;拆分后使用句子评估方法,对拆分后的原文、译文的句对进行打分,根据阈值,保留分数超过阈值的句对,实现原文和译文的对齐。

4.根据权利要求3所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(12)中,全参微调的方法如下:保持原有模型的参数结构不变,通过使用特定任务的数据集,对模型进行进一步训练,所有的模型参数都参与更新。

5.根据权利...

【专利技术属性】
技术研发人员:朱宪超骆敏霍展羽李晶
申请(专利权)人:四川语言桥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1