翻译评估模型的训练方法、翻译评估方法、设备及介质技术

技术编号:33708160 阅读:20 留言:0更新日期:2022-06-06 08:35
本申请提供一种翻译评估模型的训练方法、翻译评估方法、设备及介质,该翻译评估模型的训练方法包括:获取训练样本集及其中各个训练文本对的标识信息,其中,所述训练文本对包括译文和至少一种类型的参照信息,所述参照信息包括原文和参考译文中的至少一项,标识信息用于指示训练文本对中参照信息的类型;根据所述训练样本集其中各个训练文本对的标识信息,对翻译评估模型进行训练,得到训练后的翻译评估模型,实现了通过统一模型框架进行多种输入场景下的译文评估,提高了翻译评估的便捷性,以及提高了翻译评估模型的应用范围和灵活性。及提高了翻译评估模型的应用范围和灵活性。及提高了翻译评估模型的应用范围和灵活性。

【技术实现步骤摘要】
翻译评估模型的训练方法、翻译评估方法、设备及介质


[0001]本申请涉及自然语言处理
,尤其涉及一种翻译评估模型的训练方法、翻译评估方法、设备及介质。

技术介绍

[0002]机器翻译又称为自动翻译,是一种利用计算机将源语言下的文本转换为目标语言下的文本的过程。随着机器翻译应用场景的增加,翻译质量的评估也受到了广泛的关注。
[0003]机器翻译测评(Machine Translation Metric),主要通过衡量翻译结果与给定部分的语言表达一致性进行。常用的翻译质量评测方法主要基于BLEU(Bilingual Evaluation Understudy,双语互译质量评估辅助工具)、BERT(Bidirectional Encoder Representations from Transformers,Tansformer的双向编码器表示)模型等进行,上述模型仅可以处理基于源文本进行评测,或基于参考文本进行评测,即仅支持一种输入模式,如输入译文及其原文,或者输入译文及其参考文本,模型应用范围受限、灵活性较差。<br/>
技术实现思路
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种翻译评估模型的训练方法,其特征在于,所述方法包括:获取训练样本集及所述训练样本集中各个训练文本对的标识信息,其中,所述训练文本对包括译文和至少一种类型的参照信息,所述参照信息包括原文和参考译文中的至少一项,标识信息用于指示训练文本对中参照信息的类型;根据训练样本集中各个训练文本对及其标识信息,对翻译评估模型进行训练,得到训练后的翻译评估模型。2.根据权利要求1所述的方法,其特征在于,所述训练样本集中的训练文本对分为伪训练文本对和人工训练文本对,所述人工训练文本对中的评分标签由人工标注,各个人工训练文本对组成人工训练样本集,各个所述伪训练文本对组成伪训练样本集;所述方法还包括:针对每个翻译评估算子,基于所述翻译评估算子,生成所述伪训练样本集中各个译文的翻译得分;针对每个翻译评估算子,基于所述翻译评估算子对应的翻译得分,对所述伪训练样本集中各个译文进行排序,得到所述翻译评估算子对应的排序结果;针对所述伪训练样本集中各个所述译文,根据所述译文在各个所述翻译评估算子对应的排序结果中的排名,确定所述译文的评分标签。3.根据权利要求1或2所述的方法,其特征在于,根据训练样本集中各个训练文本对及其标识信息,对翻译评估模型进行训练,得到训练后的翻译评估模型,包括:根据所述标识信息,确定所述训练文本对中的各个文本的位置;根据各个文本的位置,对所述训练文本对中的各个文本进行拼接,得到预处理后的待训练文本对;根据预处理后的各个训练文本对,对所述翻译评估模型进行训练,得到训练后的翻译评估模型;其中,所述训练文本对中的各个文本包括译文,以及包括所述译文的原文和参考译文中的至少一项。4.根据权利要求1或2所述的方法,其特征在于,根据所述训练样本集及其中各个训练文本对的标识信息,对翻译评估模型进行训练,得到训练后的翻译评估模型,包括:根据所述训练样本集中的训练样本对,对所述翻译评估模型进行循环迭代训练,并在训练完毕时,输出训练后的翻译评估模型;其中,在一次迭代训练过程中执行以下步骤:将当前迭代对应的训练文本对依次输入所述翻译评估模型;针对当前迭代对应的每个训练文本对,经由所述翻译评估模型,基于注意力机制以及所述训练文本对的标识信息,生成所述训练文本对的注意力矩阵,并根据所述训练文本对的注意力矩阵,确定所述训练文本对对应的预测评分;根据各个所述预测评分以及各个预测评分对应的评分标签,计算当前迭代对应的预测误差;基于当前迭代对应的预测...

【专利技术属性】
技术研发人员:万宇刘大一恒杨宝嵩张海波陈博兴谢军
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1