一种个性化机器翻译训练方法和系统技术方案

技术编号:33645286 阅读:23 留言:0更新日期:2022-06-02 20:21
本发明专利技术具体涉及一种个性化机器翻译训练方法和系统,该个性化机器翻译训练方法,包括步骤:译者上传历史语料;自动对上传后的语料进行预处理;对预处理后的语料进行人工审核;对审核通过后的语料进行模型增量训练;对增量训练后的模型,抽取部分测试集进行译文自动质量评估;自动质量评估完成后,译者进行手动质量评估;手动质量评估通过后,通过机器翻译调度系统,译者可快速将增量训练后的机器翻译引擎置入预翻译流程中;预翻译;交互式翻译;持续增量训练。该个性化机器翻译训练方法通过个性化语料增量训练和交互式翻译技术融合,实现较低成本、较高个性化程度的机器翻译引擎增量训练。练。练。

【技术实现步骤摘要】
一种个性化机器翻译训练方法和系统


[0001]本专利技术属于自然语言处理、机器翻译、计算机辅助翻译领域,具体涉及一种融合增量学习和交互式翻译的个性化机器翻译训练方法和系统。

技术介绍

[0002]机器翻译技术是指使用计算机等计算设备将一种自然语言(一般称为源语言)的原文翻译为另一种自然语言(一般称为目标语言)的译文的技术。由于这一技术由机器完成,所以与人工翻译相比,可以以相对短的时间处理大量的翻译工作。近年来,机器翻译技术得到了长足的发展。
[0003]机器翻译技术大体上可以分为两类:
[0004]一种方案是,尝试训练垂直领域翻译引擎,即将翻译场景细分为医疗、文化、法律、专利等场景,汇总相关领域语料,训练的一个面向该领域或行业的翻译引擎。或针对特定用户,允许自己上传一批语料,进行增量训练。其本质是学习译者翻译历史中的知识。
[0005]另一种方案为交互式翻译的解决方案,即在译者翻译过程中收集语料,其本质是实时交互过程中的增量学习。即汇总译者翻译过程积累语料、采集收集术语和输入风格、习惯等特征,实时或定时进行机器翻译引擎训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种个性化机器翻译训练方法,其特征在于,包括如下步骤:步骤一:译者上传历史语料;步骤二:自动对上传后的语料进行预处理;步骤三:对预处理后的语料进行人工审核;步骤四:对审核通过后的语料进行模型增量训练;步骤五:对增量训练后的模型,自动抽取部分测试集进行译文自动质量评估;步骤六:自动质量评估完成后,译者进行手动质量评估;步骤七:手动质量评估通过后,通过机器翻译调度系统,译者可快速将增量训练后的机器翻译引擎置入预翻译流程中;步骤八:预翻译;步骤九:交互式翻译;步骤十:持续增量训练。2.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述步骤三后还包括审核未通过的语料返回至步骤一,译者重新上传历史语料。3.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述步骤六后还包括手动质量评估未通过后返回至步骤一,译者重新上传历史语料。4.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述语料进行预处理是指通过编辑距离计算原文相似度,自动对语料去重,去掉重复语料,同时对上传语料中的原文译文计算语义相似度,去掉语义相似度较差的原文译文。5.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述模型增量训练是指对原始模型进行参数统计量初始化,再进行参数迭代训练,得到增量...

【专利技术属性】
技术研发人员:李光华
申请(专利权)人:甲骨易北京语言科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1