一种基于大模型数据增强的机器翻译自动后编辑方法技术

技术编号:40420616 阅读:45 留言:0更新日期:2024-02-20 22:39
本发明专利技术是一种基于大模型数据增强的机器翻译自动后编辑方法。本发明专利技术涉及机器翻译自动后编辑和数据增强技术领域,本发明专利技术通过领域筛选和正向翻译生成大量可用于训练的伪数据,借助大语言模型生成额外的辅助机器翻译译文,解决自动后编辑任务面临的数据稀缺问题,再将数据增强后得到的所有数据传入跨语言预训练模型mBART中进行训练,有效提升机器翻译译文质量。本发明专利技术所提出的方法合理利用了大语言模型的语言能力,能简单高效地解决自动后编辑任务面临的数据稀缺问题,同时该方法能直接适用于多语言对上的自动后编辑任务,而不必训练多个机器翻译模型用于不同语言对上的数据增强。

【技术实现步骤摘要】

本专利技术涉及机器翻译自动后编辑和数据增强,是一种基于大模型数据增强的机器翻译自动后编辑方法


技术介绍

1、自动后编辑是对机器翻译系统的输出译文进行加工,从而纠正译文中存在的各种瑕疵的重要技术。从应用角度来看,该技术有着非常重要的作用,它能为专业的翻译人员提供质量有所提升的机器翻译译文,减少(人工)后编辑工作量,还能调整通用机器翻译系统的输出,使其满足某一特定应用领域的格式或专业词汇要求。

2、对于目前主流的自动后编辑方法,其实现过程和机器翻译非常类似,通常都基于transformer架构,有着编码器和解码器两部分结构,以原文和相应的机器翻译译文作为输入,以后编辑译文作为输出,在训练阶段通过对大量人工标注数据的学习而学会分辨机器翻译译文中的各类错误,从而能在测试阶段对新出现的机器翻译译文中的各类错误纠错。

3、自动后编辑作为一个有监督任务,数据中除了原文和机器翻译译文外,还需要翻译专家参考原文在机器翻译译文基础上编辑得来的后编辑译文。而通过翻译专家编辑得到后编辑译文的过程需要消耗大量的人力和时间,很难获取到大量的后编辑数据。因此,本文档来自技高网...

【技术保护点】

1.一种基于大模型数据增强的机器翻译自动后编辑方法,其特征是:所述方法包括以下步骤:

2.根据权利要求1所述的方法,其特征是:所述步骤1具体为:

3.根据权利要求2所述的方法,其特征是:所述步骤2具体为:

4.根据权利要求3所述的方法,其特征是:所述步骤3具体为:

5.根据权利要求4所述的方法,其特征是:所述步骤4具体为:

6.根据权利要求5所述的方法,其特征是:所述步骤5具体为:

7.根据权利要求6所述的方法,其特征是:所述步骤6具体为:

8.根据权利要求7所述的方法,其特征是:所述步骤7具体为:...

【技术特征摘要】

1.一种基于大模型数据增强的机器翻译自动后编辑方法,其特征是:所述方法包括以下步骤:

2.根据权利要求1所述的方法,其特征是:所述步骤1具体为:

3.根据权利要求2所述的方法,其特征是:所述步骤2具体为:

4.根据权利要求3所述的方法,其特征是:所述步骤3具体为:

5.根据权利要求4所述的方法,其特征是:所述步骤4具体为:

6.根据权利要求5所述的方法,其特征是:所述步骤...

【专利技术属性】
技术研发人员:杨沐昀张瑞朱聪慧徐冰曹海龙赵铁军
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1