【技术实现步骤摘要】
本专利技术属于机器翻译,具体地说,是涉及一种基于句子对齐的非自回归大模型篇章级机器翻译方法、装置及介质。
技术介绍
1、与传统机器翻译模型相比,大模型能够更好地捕捉输入文本的语义信息和上下文关系,使用大模型进行篇章级别的机器翻译能很好的解决传统机翻模型输入窗口的问题,并且能利用上下文信息,进行更准确的翻译。
2、但是,大模型进行篇章级机器翻译存在以下两个问题:一是推理速度慢,由于大模型参数量太大,导致在推理时比传统机器翻译慢很多,满足不了线上高并发的用户需求;二是句子对齐问题,由于篇章级机器翻译输入句子太长,会导致大模型在翻译时不能精确的实现原文与译文的句句对应,可能出现漏译、错译等问题。
技术实现思路
1、本专利技术的目的在于提供一种基于句子对齐的非自回归大模型篇章级机器翻译方法,以解决现有技术所存在的技术问题。
2、为了实现上述目的,本专利技术采取的技术方案如下:
3、一种基于句子对齐的非自回归大模型篇章级机器翻译方法,包括:
4、(1)
本文档来自技高网...【技术保护点】
1.一种基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,包括:
2.根据权利要求1所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(11)中,篇章级别训练数据通过直接获取现有的整篇文章的原文和译文获得。
3.根据权利要求2所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(11)中,分句时根据停顿符号,对原文、译文进行句子拆分,得到句对;拆分后使用句子评估方法,对拆分后的原文、译文的句对进行打分,根据阈值,保留分数超过阈值的句对,实现原文和译文的对齐。
4.根据权利要求3所述的基
...【技术特征摘要】
1.一种基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,包括:
2.根据权利要求1所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(11)中,篇章级别训练数据通过直接获取现有的整篇文章的原文和译文获得。
3.根据权利要求2所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(11)中,分句时根据停顿符号,对原文、译文进行句子拆分,得到句对;拆分后使用句子评估方法,对拆分后的原文、译文的句对进行打分,根据阈值,保留分数超过阈值的句对,实现原文和译文的对齐。
4.根据权利要求3所述的基于句子对齐的非自回归大模型篇章级机器翻译方法,其特征在于,所述(12)中,全参微调的方法如下:保持原有模型的参数结构不变,通过使用特定任务的数据集,对模型进行进一步训练,所有的模型参数都参与更新。
5.根据权利...
【专利技术属性】
技术研发人员:朱宪超,骆敏,霍展羽,李晶,
申请(专利权)人:四川语言桥信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。