一种机器翻译结果的评估方法、装置、设备及存储介质制造方法及图纸

技术编号:30096001 阅读:13 留言:0更新日期:2021-09-18 08:59
本申请提供一种机器翻译结果的评估方法、装置、设备及存储介质,涉及自然语言技术领域。该方法包括:获取多个机器系统对同一个源语言语料分别进行翻译后得到的目标语言语料;根据各机器系统的目标语言语料以及参考语言语料,确定各机器系统的实际匹配分数;根据各机器系统的实际匹配分数,确定该参考语言语料中各语义单元的第一困难权重;根据目标机器系统的目标语言语料中各语义单元是否存在于该参考语言语料中,得到该目标机器系统的目标语言语料中各语义单元的第二困难权重;根据第一困难权重以及第二困难权重,确定该目标机器系统的翻译结果的评估分数。应用本申请实施例,可以提高对机器翻译结果进行评估的准确性。高对机器翻译结果进行评估的准确性。高对机器翻译结果进行评估的准确性。

【技术实现步骤摘要】
一种机器翻译结果的评估方法、装置、设备及存储介质


[0001]本申请涉及自然语言
,具体而言,涉及一种机器翻译结果的评估方法、装置、设备及存储介质。

技术介绍

[0002]机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言或译文)的过程。随着经济全球化以及互联网的飞速发展,机器翻译在经济、文化交流等方面起到越来越重要的作用,基于此,对机器翻译结果的评估具有重要的研究价值。
[0003]目前,将机器翻译结果(目标语言)中的各语义单元(如字词、词组)与参考译文进行匹配,将各语义单元的匹配结果直接进行分数整合可得到对机器翻译结果的评估分数。
[0004]然而,在分数整合阶段,各语义单元被赋予相同的评估策略,也就是说,现有技术并没有区分各语义单元被翻译时的难易程度,这样会降低对机器翻译结果进行评估的准确性。

技术实现思路

[0005]本申请的目的在于,针对上述现有技术中的不足,提供一种机器翻译结果的评估方法、装置、设备及存储介质,可以提高对机器翻译结果进行评估的准确性。
[0006]为实现上述目的,本申请实施例采用的技术方案如下:
[0007]第一方面,本申请实施例提供了一种机器翻译结果的评估方法,所述方法包括:
[0008]获取多个机器系统对同一个源语言语料分别进行翻译后得到的目标语言语料;
[0009]根据各机器系统的目标语言语料以及参考语言语料,确定所述各机器系统的目标语言语料中各语义单元与所述参考语言语料中各语义单元的实际匹配分数;
[0010]根据所述各机器系统的实际匹配分数,确定所述参考语言语料中各语义单元的第一困难权重;
[0011]根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中,得到所述目标机器系统的目标语言语料中各语义单元的第二困难权重,所述目标机器系统为所述多个机器系统中的任意一个机器系统;
[0012]根据所述第一困难权重以及所述第二困难权重,确定所述目标机器系统的翻译结果的评估分数。
[0013]可选地,所述根据所述第一困难权重以及所述第二困难权重,确定所述目标机器系统的翻译结果的评估分数,包括:
[0014]基于所述第一困难权重、所述目标机器系统的实际匹配分数以及所述第二困难权重,确定精确率参数以及召回率参数;
[0015]根据所述精确率参数以及所述召回率参数,确定所述目标机器系统的翻译结果的评估分数。
[0016]可选地,所述根据所述各机器系统的实际匹配分数,确定所述参考语言语料中各语义单元的第一困难权重,包括:
[0017]根据所述各机器系统的实际匹配分数,分别确定出所述各机器系统的目标语言语料中与所述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数,所述目标语义单元为所述参考语言语料中的任意一个语义单元;
[0018]根据与所述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数,确定所述第一困难权重。
[0019]可选地,所述根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中,得到所述目标机器系统的目标语言语料中各语义单元的第二困难权重,包括:
[0020]若所述目标机器系统的目标语言语料中的语义单元存在于所述参考语言语料中,则将所述参考语言语料中所述语义单元的第一困难权重作为所述目标机器系统的目标语言语料中所述语义单元的第二困难权重;
[0021]若所述目标机器系统的目标语言语料中的语义单元不存在于所述参考语言语料中,则将所述参考语言语料中与所述语义单元匹配度最高的语义单元的第一困难权重作为所述目标机器系统的目标语言语料中所述语义单元的第二困难权重。
[0022]可选地,所述基于所述第一困难权重、所述目标机器系统的实际匹配分数以及所述第二困难权重,确定精确率参数以及召回率参数,包括:
[0023]根据所述目标机器系统的实际匹配分数,确定所述目标机器系统的目标语言语料中各语义单元所属的最高匹配分数;
[0024]基于所述目标机器系统的目标语言语料中各语义单元所属的最高匹配分数、所述各语义单元的第二困难权重以及所述目标机器系统的目标语言语料的长度,确定所述精确率参数;
[0025]根据所述目标机器系统的实际匹配分数,确定所述参考语言语料中各语义单元所属的最高匹配分数;
[0026]基于所述参考语言语料中各语义单元所属的最高匹配分数、所述各语义单元的第一困难权重以及所述参考语言语料的长度,确定所述召回率参数。
[0027]可选地,所述根据所述精确率参数以及所述召回率参数,确定所述目标机器系统的翻译结果的评估分数,包括:
[0028]根据预设超参数、所述精确率参数以及所述召回率参数,确定所述目标机器系统的翻译结果的评估分数,其中,所述预设超参数用于指示所述精确率参数与所述召回率参数之间的比重。
[0029]可选地,所述根据各机器系统的目标语言语料以及参考语言语料,确定所述各机器系统的目标语言语料中各语义单元与所述参考语言语料中各语义单元的实际匹配分数,包括:
[0030]将所述各机器系统的目标语言语料以及所述参考语言语料分别输入预先训练的词语向量化模型中,得到所述各机器系统的目标语言语料向量以及参考语言语料向量;
[0031]根据所述各机器系统的目标语言语料向量以及所述参考语言语料向量,确定所述各机器系统的目标语言语料中各语义单元与所述参考语言语料中各语义单元的匹配分数。
[0032]第二方面,本申请实施例还提供了一种机器翻译结果的评估装置,所述装置包括:
[0033]获取模块,用于获取多个机器系统对同一个源语言语料分别进行翻译后得到的目标语言语料;
[0034]第一确定模块,用于根据各机器系统的目标语言语料以及参考语言语料,确定所述各机器系统的目标语言语料中各语义单元与所述参考语言语料中各语义单元的实际匹配分数;
[0035]第二确定模块,用于根据所述各机器系统的实际匹配分数,确定所述参考语言语料中各语义单元的第一困难权重;
[0036]判断模块,用于根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中,得到所述目标机器系统对应的目标语言语料中各语义单元的第二困难权重,所述目标机器系统为所述多个机器系统中的任意一个机器系统;
[0037]第三确定模块,用于根据所述第一困难权重以及所述第二困难权重,确定所述目标机器系统的翻译结果的评估分数。
[0038]可选地,所述第三确定模块,具体用于基于所述第一困难权重、所述目标机器系统的实际匹配分数以及所述第二困难权重,确定精确率参数以及召回率参数;根据所述精确率参数以及所述召回率参数,确定所述目标机器系统的翻译结果的评估分数。
[0039]可选地,所述第二确定模块,具体用于根据所述各机器系统的实际匹配分数,分别确定出所述各机器系统的目标语言语料中与所述参考语言语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器翻译结果的评估方法,其特征在于,所述方法包括:获取多个机器系统对同一个源语言语料分别进行翻译后得到的目标语言语料;根据各机器系统的目标语言语料以及参考语言语料,确定所述各机器系统的目标语言语料中各语义单元与所述参考语言语料中各语义单元的实际匹配分数;根据所述各机器系统的实际匹配分数,确定所述参考语言语料中各语义单元的第一困难权重;根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中,得到所述目标机器系统的目标语言语料中各语义单元的第二困难权重,所述目标机器系统为所述多个机器系统中的任意一个机器系统;根据所述第一困难权重以及所述第二困难权重,确定所述目标机器系统的翻译结果的评估分数。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一困难权重以及所述第二困难权重,确定所述目标机器系统的翻译结果的评估分数,包括:基于所述第一困难权重、所述目标机器系统的实际匹配分数以及所述第二困难权重,确定精确率参数以及召回率参数;根据所述精确率参数以及所述召回率参数,确定所述目标机器系统的翻译结果的评估分数。3.根据权利要求1所述的方法,其特征在于,所述根据所述各机器系统的实际匹配分数,确定所述参考语言语料中各语义单元的第一困难权重,包括:根据所述各机器系统的实际匹配分数,分别确定出所述各机器系统的目标语言语料中与所述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数,所述目标语义单元为所述参考语言语料中的任意一个语义单元;根据与所述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数,确定所述第一困难权重。4.根据权利要求1所述的方法,其特征在于,所述根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中,得到所述目标机器系统的目标语言语料中各语义单元的第二困难权重,包括:若所述目标机器系统的目标语言语料中的语义单元存在于所述参考语言语料中,则将所述参考语言语料中所述语义单元的第一困难权重作为所述目标机器系统的目标语言语料中所述语义单元的第二困难权重;若所述目标机器系统的目标语言语料中的语义单元不存在于所述参考语言语料中,则将所述参考语言语料中与所述语义单元匹配度最高的语义单元的第一困难权重作为所述目标机器系统的目标语言语料中所述语义单元的第二困难权重。5.根据权利要求2所述的方法,其特征在于,所述基于所述第一困难权重、所述目标机器系统的实际匹配分数以及所述第二困难权重,确定精确率参数以及召回率参数,包括:根据所述目标机器系统的实际匹配分数,确定所述目标机器系统的目标语言语料中各语义单元所属的最高匹配分数;基于所述目标机器系统的目标语言语料中各语义单元所属的最高匹配分数、所述各语义单...

【专利技术属性】
技术研发人员:黄辉詹润哲刘学博
申请(专利权)人:珠海澳大科技研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1