译文质量分类方法及装置制造方法及图纸

技术编号:39730917 阅读:9 留言:0更新日期:2023-12-17 23:34
本申请实施例提供一种译文质量分类方法及装置,所述方法包括:获取原文和机器译文;将所述原文和所述机器译文输入至译文质量分类模型中,获取所述译文质量分类模型输出的分类结果;所述译文质量分类模型是根据第一编辑距离分数优化得到的,所述第一编辑距离分数是基于所述机器译文和审校译文得到的,所述审校译文为所述机器译文经过审校后的译文

【技术实现步骤摘要】
译文质量分类方法及装置


[0001]本申请涉及自然语言处理领域,尤其涉及一种译文质量分类方法及装置


技术介绍

[0002]当前机器翻译引擎作为人工翻译的助手,在翻译活动中被广泛应用

然而机器翻译引擎的翻译结果质量良莠不齐,经常出现错译,漏译,增译的现象,影响了翻译结果的使用质量

如果每句译文由人工再次评估一遍是否需要修改的话,则相比纯人工翻译,更加降低了整体翻译流程的效率和提高了人工的成本

[0003]现有的译文质量分类方法通过学习译员打标的质量标签结果对译文质量进行分类,然而准确率较低,且因为获取译员质量打标数据的耗时长,判断难度较大,人工判断不一致等因素,从而无法提高分类准确率,扩大译文质量分类方法的使用范围


技术实现思路

[0004]本申请实施例提供一种译文质量分类方法及装置,用以解决相关技术中译文质量分类的准确率低的技术问题

[0005]第一方面,本申请实施例提供一种译文质量分类方法,包括:
[0006]获取原文和机器译文;
[0007]将所述原文和所述机器译文输入至译文质量分类模型中,获取所述译文质量分类模型输出的分类结果;所述译文质量分类模型是根据第一编辑距离分数优化得到的,所述第一编辑距离分数是基于所述机器译文和审校译文得到的,所述审校译文为所述机器译文经过审校后的译文

[0008]在一些实施例中,所述译文质量分类模型的训练步骤包括:
[0009]基于所述第一编辑距离分数和第二编辑距离分数优化预训练语言模型;所述第二编辑距离分数是基于所述原文和所述机器译文得到的;
[0010]将所述原文和所述机器译文输入至优化后的预训练语言模型中,获取分类结果;
[0011]基于质量分类标签和所述分类结果,训练所述优化后的预训练语言模型,得到所述译文质量分类模型

[0012]在一些实施例中,所述基于所述第一编辑距离分数和第二编辑距离分数优化预训练语言模型,还包括:
[0013]对所述机器译文和所述审校译文进行分词处理,确定第一编辑距离分数;
[0014]将所述原文和所述机器译文输入至预训练语言模型中,获取所述预训练语言模型输出的第二编辑距离分数

[0015]在一些实施例中,所述将所述原文和所述机器译文输入至预训练语言模型中,获取所述预训练语言模型输出的第二编辑距离分数,包括:
[0016]拼接所述原文

所述机器译文和编辑距离字符,并输入至所述预训练语言模型;
[0017]基于所述编辑距离字符,得到编辑距离表征向量;
[0018]基于所述编辑距离表征向量,确定所述第二编辑距离分数

[0019]在一些实施例中,所述基于所述编辑距离字符,得到编辑距离表征向量,包括:
[0020]基于所述编辑距离字符,获取每一编辑距离字符对应的隐藏层向量;
[0021]将多个隐藏层向量加权求和,得到编辑距离表征向量

[0022]在一些实施例中,所述基于所述第一编辑距离分数和第二编辑距离分数优化预训练语言模型,包括:
[0023]基于所述第一编辑距离分数和所述第二编辑距离分数,计算得到均方误差损失结果;
[0024]基于所述均方误差损失结果,以梯度下降算法优化所述预训练语言模型

[0025]在一些实施例中,所述基于质量分类标签和所述分类结果,训练所述优化后的预训练语言模型,得到所述译文质量分类模型,包括:
[0026]基于所述质量分类标签和所述分类结果,计算得到交叉熵损失结果;
[0027]基于所述交叉熵损失结果,训练所述优化后的预训练语言模型,得到所述译文质量分类模型

[0028]第二方面,本申请实施例还提供一种译文质量分类装置,包括:
[0029]第一获取模块,用于获取原文和机器译文;
[0030]第二获取模块,用于将所述原文和所述机器译文输入至译文质量分类模型中,获取所述译文质量分类模型输出的分类结果;所述译文质量分类模型是根据第一编辑距离分数优化得到的,所述第一编辑距离分数是基于所述机器译文和审校译文得到的,所述审校译文为所述机器译文经过审校后的译文

[0031]在一些实施例中,所述译文质量分类模型的训练步骤包括:
[0032]基于所述第一编辑距离分数和第二编辑距离分数优化预训练语言模型;所述第二编辑距离分数是基于所述原文和所述机器译文得到的;
[0033]将所述原文和所述机器译文输入至优化后的预训练语言模型中,获取分类结果;
[0034]基于质量分类标签和所述分类结果,训练所述优化后的预训练语言模型,得到所述译文质量分类模型

[0035]在一些实施例中,所述基于所述第一编辑距离分数和第二编辑距离分数优化预训练语言模型,还包括:
[0036]对所述机器译文和所述审校译文进行分词处理,确定第一编辑距离分数;
[0037]将所述原文和所述机器译文输入至预训练语言模型中,获取所述预训练语言模型输出的第二编辑距离分数

[0038]在一些实施例中,所述将所述原文和所述机器译文输入至预训练语言模型中,获取所述预训练语言模型输出的第二编辑距离分数,包括:
[0039]拼接所述原文

所述机器译文和编辑距离字符,并输入至所述预训练语言模型;
[0040]基于所述编辑距离字符,得到编辑距离表征向量;
[0041]基于所述编辑距离表征向量,确定所述第二编辑距离分数

[0042]在一些实施例中,所述基于所述编辑距离字符,得到编辑距离表征向量,包括:
[0043]基于所述编辑距离字符,获取每一编辑距离字符对应的隐藏层向量;
[0044]将多个隐藏层向量加权求和,得到编辑距离表征向量

[0045]在一些实施例中,所述基于所述第一编辑距离分数和第二编辑距离分数优化预训练语言模型,包括:
[0046]基于所述第一编辑距离分数和所述第二编辑距离分数,计算得到均方误差损失结果;
[0047]基于所述均方误差损失结果,以梯度下降算法优化所述预训练语言模型

[0048]在一些实施例中,所述基于质量分类标签和所述分类结果,训练所述优化后的预训练语言模型,得到所述译文质量分类模型,包括:
[0049]基于所述质量分类标签和所述分类结果,计算得到交叉熵损失结果;
[0050]基于所述交叉熵损失结果,训练所述优化后的预训练语言模型,得到所述译文质量分类模型

[0051]第三方面,本申请实施例还提供一种电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种译文质量分类方法,其特征在于,包括:获取原文和机器译文;将所述原文和所述机器译文输入至译文质量分类模型中,获取所述译文质量分类模型输出的分类结果;所述译文质量分类模型是根据第一编辑距离分数优化得到的,所述第一编辑距离分数是基于所述机器译文和审校译文得到的,所述审校译文为所述机器译文经过审校后的译文
。2.
根据权利要求1所述的译文质量分类方法,其特征在于,所述译文质量分类模型的训练步骤包括:基于所述第一编辑距离分数和第二编辑距离分数优化预训练语言模型;所述第二编辑距离分数是基于所述原文和所述机器译文得到的;将所述原文和所述机器译文输入至优化后的预训练语言模型中,获取分类结果;基于质量分类标签和所述分类结果,训练所述优化后的预训练语言模型,得到所述译文质量分类模型
。3.
根据权利要求2所述的译文质量分类方法,其特征在于,所述基于所述第一编辑距离分数和第二编辑距离分数优化预训练语言模型,还包括:对所述机器译文和所述审校译文进行分词处理,确定第一编辑距离分数;将所述原文和所述机器译文输入至预训练语言模型中,获取所述预训练语言模型输出的第二编辑距离分数
。4.
根据权利要求3所述的译文质量分类方法,其特征在于,所述将所述原文和所述机器译文输入至预训练语言模型中,获取所述预训练语言模型输出的第二编辑距离分数,包括:拼接所述原文

所述机器译文和编辑距离字符,并输入至所述预训练语言模型;基于所述编辑距离字符,得到编辑距离表征向量;基于所述编辑距离表征向量,获取所述第二编辑距离分数
。5.
根据权利要求4所述的译文质量分类方法,其特征在于,所述基于所述编辑距离字符,得到编辑距离表征向量,包括...

【专利技术属性】
技术研发人员:闫泽禹
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1