一种不依赖参考译文的无监督多语言译文质量评估方法技术

技术编号:35225512 阅读:32 留言:0更新日期:2022-10-15 10:44
本发明专利技术公开了一种不依赖参考译文的无监督多语言译文质量评估方法,涉及翻译质量评估技术领域,包括如下步骤:S1:计算准确度分数;S2:计算流畅度分数;S3:计算翻译质量分数,此不依赖参考译文的无监督多语言译文质量评估方法,区别于现有技术,利用多语言预训练模型计算原文和译文的翻译准确度分数,利用语言模型计算译文的生成概率,映射为译文流畅度分数,相比依赖人工标注和依赖参考译文的两种方法,本方法不依赖人工标注数据和参考译文,适合多语言翻译方向场景,维护成本低,指标可解释性强。释性强。释性强。

【技术实现步骤摘要】
一种不依赖参考译文的无监督多语言译文质量评估方法


[0001]本专利技术涉及翻译质量评估
,具体为一种不依赖参考译文的无监督多语言译文质量评估方法。

技术介绍

[0002]已有的译文质量方法评估主要分为2种:第一种,依赖人工标注,对译文的翻译质量进行打分,利用标注数据训练打分模型,输入原文和译文,输出质量评估分数,该方法的成本高,翻译语言方向越多,对数据规模和质量要求越高,计算成本和维护成本都很高,难以满足多语言翻译场景;第二种,依赖参考译文,使用BLEU、METEOR等指标计算译文和参考译文的差距,该方法不适用实际应用场景,大多数翻译场景没有参考译文,因此BLEU等指标无法计算,为此,我们提出一种不依赖参考译文的无监督多语言译文质量评估方法。

技术实现思路

[0003]本专利技术的目的在于提供一种不依赖参考译文的无监督多语言译文质量评估方法,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种不依赖参考译文的无监督多语言译文质量评估方法,包括如下步骤:
[0005]S1:计算准确度分数;
[0006]S2:计算流畅度分数;
[0007]S3:计算翻译质量分数;
[0008]在步骤S1中,其操作步骤如下:
[0009]S11:输入原文及译文;
[0010]S12:对原文及译文进行分词;
[0011]S13:将分词结果输入至多语言预训练模型中,输出原文词向量和译文词向量;
[0012]S14:将原文词向量及译文词向量集合做SVD分解,得到原文及译文所有词向量的共同成分;
[0013]S15:将原文或者译文所有词向量的共同成分进行剔除和不剔除两种操作;
[0014]S16:不剔除主成分的句向量通过均值池化操作生成,剔除主成分的句向量重复上述池化操作生成;
[0015]S17:计算原文句向量和译文句向量之间的余弦相似度,再将余弦相似度转换为100分制的准确度分数;
[0016]S18:计算得出准确度分数;
[0017]在步骤S2中,其操作步骤如下:
[0018]S21:输入译文;
[0019]S22:对译文进行分词并得到m个译文词组;
[0020]S23:依次将前m

1个译文词组输入到自回归的语言模型,获得第m个译文词组的条
件概率p(w
m
|w1,w2,...,w
m
‑1);
[0021]S24:对m个译文词组条件概率进行累乘,得到译文生成概率 p(tgt);
[0022]S25:将p(tgt)通过sigmoid函数映射到0

1,映射为100分制分数,其中α是超参数,取值为10;
[0023]S26:计算得出流畅度分数。
[0024]在步骤S3中,其操作步骤如下:
[0025]S31:将翻译准确度分数和流畅度分数进行加权求和;
[0026]S32:计算得出翻译质量分数。
[0027]作为优选,所述步骤S14的分解公式和步骤S15的剔除公式表示如下:
[0028][0029][0030]其中,A
m*n
是原文或者译文所有词组的向量集合,m是原文或者译文的词组数量,由分词后词组数量决定,n是词向量维度,一般取值为768,U
m*k
是m行k列的左奇异矩阵,∑
k*k
是k行k列的奇异值矩阵,V
k*n
是k行n列的右奇异矩阵,代表前k个所有n维词向量的共同成分,k是成分个数,本项目取值为1,的计算结果是A
m*n
中的共同成分矩阵,该矩阵与矩阵A
m*n
都是m行n列,因此矩阵A
m*n
与该共同成分矩阵进行矩阵减法,最终得到新矩阵A'
m*n
, A'
m*n
是剔除k个主成分后更新的原文或者译文词向量集合。
[0031]作为优选,所述步骤S16的计算公式表示如下:
[0032][0033][0034]其中,S表示不剔除主成分的句向量,S'表示剔除主成分的句向量。
[0035]作为优选,所述步骤S17中计算公式表示如下:
[0036][0037][0038]其中,accuracy表示不剔除主成分的原文句向量和译文句向量的准确度分数,S
src
表示不剔除主成分的原文句向量,S
tgt
表示不剔除主成分的译文句向量,||S
src
||表示不剔除主成分的原文句向量的模, ||S
tgt
||表示不剔除主成分的译文句向量的模。accuracy'表示剔除主成分的原文句向量和译文句向量的准确度分数,S'
src
表示剔除主成分的原文句向量,S'
tgt
表示剔除主成分的译文句向量,||S'
src
||表示剔除主成分的原文句向量的模,||S'
tgt
||表示剔除主成分的译文句向量的模。
[0039]作为优选,所述步骤S23中译文生成概率p(tgt)的计算公式表示如下:
[0040]p(tgt)=p(w1)p(w2|w1)p(w3|w1,w2)...p(w
m
|w1,w2,

,w
m
‑1)。
[0041]作为优选,所述步骤S26流畅度分数的计算公式表示如下:
[0042]fluency=sigmoid(

m/log(p(tgt))*α)*100。
[0043]作为优选,所述步骤S32翻译质量分数的计算公式表示如下:
[0044]score=0.1*accuracy+0.2*accuracy

+0.7*fluency
[0045]其中,score是指翻译质量分数,accuracy是不剔除主成分的准确度分数,权重为0.1,accuracy'是指剔除主成分的准确度分数,权重为0.2,fluency是流畅度分数,权重为0.7。
[0046]与现有技术相比,本专利技术的有益效果是:
[0047]利用多语言预训练模型计算原文和译文的翻译准确度分数,利用语言模型计算译文的生成概率,映射为译文流畅度分数,相比依赖人工标注和依赖参考译文的两种方法,本方法不依赖人工标注数据和参考译文,适合多语言翻译方向场景,维护成本低,指标可解释性强。
附图说明
[0048]图1为本专利技术翻译质量分数计算的流程图;
[0049]图2为本专利技术准确度分数计算的流程图;
[0050]图3为本专利技术流畅度分数计算的流程图。
具体实施方式
[0051]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不依赖参考译文的无监督多语言译文质量评估方法,其特征在于,包括如下步骤:S1:计算准确度分数;S2:计算流畅度分数;S3:计算翻译质量分数;在步骤S1中,其操作步骤如下:S11:输入原文及译文;S12:对原文及译文进行分词;S13:将分词结果输入至多语言预训练模型中,输出原文词向量和译文词向量;S14:将原文词向量及译文词向量集合做SVD分解,得到原文及译文所有词向量的共同成分;S15:将原文或者译文所有词向量的共同成分进行剔除和不剔除两种操作;S16:不剔除主成分的句向量通过均值池化操作生成,剔除主成分的句向量重复上述池化操作生成;S17:计算原文句向量和译文句向量之间的余弦相似度,再将余弦相似度转换为100分制的准确度分数;S18:计算得出准确度分数;在步骤S2中,其操作步骤如下:S21:输入译文;S22:对译文进行分词并得到m个译文词组;S23:依次将前m

1个译文词组输入到自回归的语言模型,获得第m个译文词组的条件概率p(w
m
|w1,w2,...,w
m
‑1);S24:对m个译文词组条件概率进行累乘,得到译文生成概率p(tgt);S25:将p(tgt)通过sigmoid函数映射到0

1,映射为100分制分数,其中α是超参数,取值为10;S26:计算得出流畅度分数。在步骤S3中,其操作步骤如下:S31:将翻译准确度分数和流畅度分数进行加权求和;S32:计算得出翻译质量分数。2.根据权利要求1所述的一种不依赖参考译文的无监督多语言译文质量评估方法,其特征在于,所述步骤S14的分解公式和步骤S15的剔除公式表示如下:所述步骤S14的分解公式和步骤S15的剔除公式表示如下:其中,A
m*n
是原文或者译文所有词组的向量集合,m是原文或者译文的词组数量,由分词后词组数量决定,n是词向量维度,一般取值为768,U
m*k
是m行k列的左奇异矩阵,∑
k*k
是k行k列的奇异值矩阵,V
k*n
是k行n列的右奇异矩阵,代表前k个所有n维词向量的共同成分,k是成分个数,本项目取值为1,的计算结果是A
m*n
中的共同成分矩阵,该矩阵与矩
阵A
m*n
都是m行n列,因此矩阵A
m*n
与该共同成分矩阵进行矩阵减法,最终得到新矩阵A

m*n
,A

m*n
是剔除k个主成分后更新的...

【专利技术属性】
技术研发人员:陈件潘丽婷张井
申请(专利权)人:上海一者信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1