【技术实现步骤摘要】
一种不依赖参考译文的无监督多语言译文质量评估方法
[0001]本专利技术涉及翻译质量评估
,具体为一种不依赖参考译文的无监督多语言译文质量评估方法。
技术介绍
[0002]已有的译文质量方法评估主要分为2种:第一种,依赖人工标注,对译文的翻译质量进行打分,利用标注数据训练打分模型,输入原文和译文,输出质量评估分数,该方法的成本高,翻译语言方向越多,对数据规模和质量要求越高,计算成本和维护成本都很高,难以满足多语言翻译场景;第二种,依赖参考译文,使用BLEU、METEOR等指标计算译文和参考译文的差距,该方法不适用实际应用场景,大多数翻译场景没有参考译文,因此BLEU等指标无法计算,为此,我们提出一种不依赖参考译文的无监督多语言译文质量评估方法。
技术实现思路
[0003]本专利技术的目的在于提供一种不依赖参考译文的无监督多语言译文质量评估方法,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种不依赖参考译文的无监督多语言译文质量评估方法,包括如下步骤:
[0005]S1:计算准确度分数;
[0006]S2:计算流畅度分数;
[0007]S3:计算翻译质量分数;
[0008]在步骤S1中,其操作步骤如下:
[0009]S11:输入原文及译文;
[0010]S12:对原文及译文进行分词;
[0011]S13:将分词结果输入至多语言预训练模型中,输出原文词向量和译文词向量;
[0012] ...
【技术保护点】
【技术特征摘要】
1.一种不依赖参考译文的无监督多语言译文质量评估方法,其特征在于,包括如下步骤:S1:计算准确度分数;S2:计算流畅度分数;S3:计算翻译质量分数;在步骤S1中,其操作步骤如下:S11:输入原文及译文;S12:对原文及译文进行分词;S13:将分词结果输入至多语言预训练模型中,输出原文词向量和译文词向量;S14:将原文词向量及译文词向量集合做SVD分解,得到原文及译文所有词向量的共同成分;S15:将原文或者译文所有词向量的共同成分进行剔除和不剔除两种操作;S16:不剔除主成分的句向量通过均值池化操作生成,剔除主成分的句向量重复上述池化操作生成;S17:计算原文句向量和译文句向量之间的余弦相似度,再将余弦相似度转换为100分制的准确度分数;S18:计算得出准确度分数;在步骤S2中,其操作步骤如下:S21:输入译文;S22:对译文进行分词并得到m个译文词组;S23:依次将前m
‑
1个译文词组输入到自回归的语言模型,获得第m个译文词组的条件概率p(w
m
|w1,w2,...,w
m
‑1);S24:对m个译文词组条件概率进行累乘,得到译文生成概率p(tgt);S25:将p(tgt)通过sigmoid函数映射到0
‑
1,映射为100分制分数,其中α是超参数,取值为10;S26:计算得出流畅度分数。在步骤S3中,其操作步骤如下:S31:将翻译准确度分数和流畅度分数进行加权求和;S32:计算得出翻译质量分数。2.根据权利要求1所述的一种不依赖参考译文的无监督多语言译文质量评估方法,其特征在于,所述步骤S14的分解公式和步骤S15的剔除公式表示如下:所述步骤S14的分解公式和步骤S15的剔除公式表示如下:其中,A
m*n
是原文或者译文所有词组的向量集合,m是原文或者译文的词组数量,由分词后词组数量决定,n是词向量维度,一般取值为768,U
m*k
是m行k列的左奇异矩阵,∑
k*k
是k行k列的奇异值矩阵,V
k*n
是k行n列的右奇异矩阵,代表前k个所有n维词向量的共同成分,k是成分个数,本项目取值为1,的计算结果是A
m*n
中的共同成分矩阵,该矩阵与矩
阵A
m*n
都是m行n列,因此矩阵A
m*n
与该共同成分矩阵进行矩阵减法,最终得到新矩阵A
′
m*n
,A
′
m*n
是剔除k个主成分后更新的...
【专利技术属性】
技术研发人员:陈件,潘丽婷,张井,
申请(专利权)人:上海一者信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。