System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于上下文期望的无监督词汇级翻译质量评估方法和系统技术方案_技高网

一种基于上下文期望的无监督词汇级翻译质量评估方法和系统技术方案

技术编号:40416680 阅读:8 留言:0更新日期:2024-02-20 22:34
一种基于上下文期望的无监督词汇级翻译质量评估方法和系统,涉及无监督词汇级翻译质量评估领域。解决现有词汇级别QE需要依赖大规模的标注数据,且机器翻译质量评估不准确的问题。所述方法包括:将待评估语句输入至多语言模型中,对所述多语言模型译文端的某一词汇进行遮盖;将所述待评估语句的上下文信息和被遮掩的译文输入至多语言模型,根据所述多语言模型预测被遮掩的词;利用条件概率处理被遮掩词中每个子词间的关系,获取每个子词的生成概率;根据所述生成概率作为评分进行词汇级机器翻译质量评估。本发明专利技术应用于机器翻译领域。

【技术实现步骤摘要】

本专利技术涉及无监督词汇级翻译质量评估领域,尤其涉及一种基于上下文期望的无监督词汇级翻译质量评估方法。


技术介绍

1、词汇级别qe指的是在不依赖参考译文的前提下,对机器翻译系统的输出进行自动评估,发现翻译错误和不准确的词汇,从而指导翻译系统的改进和调优,为机器翻译系统的开发者提供了一种有效的反馈机制,有助于提高结果的翻译质量。但是,由于训练数据稀缺,有监督的词汇级qe应用受限,难以在机器翻译的研究和应用中发挥广泛的作用。以往的词汇级别qe通常使用循环神经网络或者预训练模型为基座,需要在成千上万的标注语料上进行训练。但是,由于翻译的主观性和领域的多样性,使得qe数据标注困难,难以在新的语言对和领域上开展。

2、为了解决词汇级别qe对于标注数据的依赖,以往有很多研究致力于探索基于迁移学习和数据增强的方法。这些方法旨在利用领域外的标注数据或者大规模的未标注数据和自动生成的标签来训练模型,从而减少对标注数据的需求,提高模型在词汇级别qe任务上的泛化性。现有技术2021年公开的论文“an exploratory analysis of multilingualword-level quality estimation with cross-lingual transformers”(基于跨语言transformers的多语言词水平质量评价的探索性分析)(ranasinghe t,orasan c,mitkovr.an exploratory analysis of multilingual word-level quality estimation withcross-lingual transformers[j].arxiv preprint arxiv:2106.00143,2021.)ranasinghe等人尝试将独立语料对训练的词汇级别qe模型泛化到其他语言对,用于在没有标注数据的场景下完成词汇级qe。但是,当待评估的语言和领域分布差异较大时,该方法性能就会急剧下降。现有技术2021年公开的论文“quality estimation without human-labeled data”(无人为标记数据的质量估计)(tuan y l,el-kishky a,renduchintala a,et al.quality estimation without human-labeled data[j].arxiv preprint arxiv:2102.04020,2021.8)tuan等人则是在qe任务上使用了自动生成的伪数据和标签进行训练,仅依靠无标注语料完成qe任务。但是,他们的方法仍然需要自动构建有监督数据,模型性能受到伪数据质量的影响,特别的,如果待评估的语言对不具备大规模的无标注数据,该方法就无法进行训练。


技术实现思路

1、本专利技术针对现有词汇级别qe需要依赖大规模的标注数据,且机器翻译质量评估不准确的问题,提出一种基于上下文期望的无监督词汇级翻译质量评估方法,所述方案具体为:

2、一种基于上下文期望的无监督词汇级翻译质量评估方法,所述方法包括:

3、将待评估语句输入至多语言模型中,对所述多语言模型译文端的某一词汇进行遮盖;

4、将所述待评估语句的上下文信息和被遮掩的译文输入至多语言模型,根据所述多语言模型预测被遮掩的词;

5、利用条件概率处理被遮掩词中每个子词间的关系,获取每个子词的生成概率;

6、根据所述生成概率作为评分进行词汇级机器翻译质量评估。

7、进一步的,还提供一种优选方式,所述方法还包括:多语言模型使用sentence-piece的分词法将所述遮掩词汇进行拆解,获取被遮掩词汇的若干子词。

8、进一步的,还提供一种优选方式,所述对所述多语言模型译文端的某一词汇进行遮盖具体为:将所述子词替换为[mask]标记。

9、进一步的,还提供一种优选方式,所述利用条件概率处理被遮掩词中每个子词间的关系,获取每个单词的生成概率,包括:

10、被遮掩词汇被分为了k个子词,多语言模型正确预测出第i个子词为事件ai,整个词汇被预测正确的概率为:

11、p(a1a2...ak)=p(a1)·p(a2|a1)...·p(ak|a1a2...ak-1),

12、其中,p(a1a2...ak)为整个词汇被预测正确的概率。

13、进一步的,还提供一种优选方式,所述根据所述生成概率作为评分进行词汇级机器翻译质量评估,包括:

14、将生成概率转化为评分:

15、

16、其中,依次表示目标序列中的遮盖的子词所属的词汇在sentence-piece分词方法下的每个子词,表示在初始句中可观测部分增添了曾被遮盖过的子词,x代表原句,θ为多语言模型参数。

17、进一步的,还提供一种优选方式,所述根据所述生成概率作为评分进行词汇级机器翻译质量评估,具体为:使用经验阈值τ,将实值质量分数score映射到质量标签。

18、基于同一专利技术构思,本专利技术还提供一种基于上下文期望的无监督词汇级翻译质量评估系统,所述系统包括:

19、遮掩单元,用于将待评估语句输入至多语言模型中,对所述多语言模型译文端的某一词汇进行遮盖;

20、预测单元,用于将所述待评估语句的上下文信息和被遮掩的译文输入至多语言模型,根据所述多语言模型预测被遮掩的词;

21、条件概率处理单元,用于利用条件概率处理被遮掩词中每个子词间的关系,获取每个子词的生成概率;

22、评估单元,用于根据所述生成概率作为评分进行词汇级机器翻译质量评估。

23、进一步的,还提供一种优选方式,所述系统还包括:多语言模型使用sentence-piece的分词法将所述遮掩词汇进行拆解,获取被遮掩词汇的若干子词。

24、基于同一专利技术构思,本专利技术还提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据上述中任一项所述的一种基于上下文期望的无监督词汇级翻译质量评估方法。

25、基于同一专利技术构思,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质用于储存计算机程序,所述计算机程序执行上述中任一项所述的一种基于上下文期望的无监督词汇级翻译质量评估方法。

26、本专利技术的有益之处在于:

27、本专利技术所提供的一种基于上下文期望的无监督词汇级翻译质量评估方法,采用了无监督的方式进行训练,而不需要大规模的标注数据。传统的词汇级别qe方法通常需要大量的人工标注,这会耗费大量的时间和资源。相比之下,上述方法依赖于多语言模型的预训练,这些模型已经在大规模的文本数据上进行了预训练,因此不需要额外的标注数据。进一步的,该方法通过遮盖待评估词汇并结合上下文信息进行评估,更好地模拟了实际翻译场景。传统的词汇级别qe方法通常独立地评估本文档来自技高网...

【技术保护点】

1.一种基于上下文期望的无监督词汇级翻译质量评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质量评估方法,其特征在于,所述方法还包括:多语言模型使用sentence-piece的分词法将所述遮掩词汇进行拆解,获取被遮掩词汇的若干子词。

3.根据权利要求2所述的一种基于上下文期望的无监督词汇级翻译质量评估方法,其特征在于,所述对所述多语言模型译文端的某一词汇进行遮盖具体为:将所述子词替换为[MASK]标记。

4.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质量评估方法,其特征在于,所述利用条件概率处理被遮掩词中每个子词间的关系,获取每个单词的生成概率,包括:

5.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质量评估方法,其特征在于,所述根据所述生成概率作为评分进行词汇级机器翻译质量评估,包括:

6.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质量评估方法,其特征在于,所述根据所述生成概率作为评分进行词汇级机器翻译质量评估,具体为:使用经验阈值τ,将实值质量分数score映射到质量标签。

7.一种基于上下文期望的无监督词汇级翻译质量评估系统,其特征在于,所述系统包括:

8.根据权利要求7所述的一种基于上下文期望的无监督词汇级翻译质量评估系统,其特征在于,所述系统还包括:多语言模型使用sentence-piece的分词法将所述遮掩词汇进行拆解,获取被遮掩词汇的若干子词。

9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据权利要求1-6中任一项所述的一种基于上下文期望的无监督词汇级翻译质量评估方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于储存计算机程序,所述计算机程序执行权利要求1-6中任一项所述的一种基于上下文期望的无监督词汇级翻译质量评估方法。

...

【技术特征摘要】

1.一种基于上下文期望的无监督词汇级翻译质量评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质量评估方法,其特征在于,所述方法还包括:多语言模型使用sentence-piece的分词法将所述遮掩词汇进行拆解,获取被遮掩词汇的若干子词。

3.根据权利要求2所述的一种基于上下文期望的无监督词汇级翻译质量评估方法,其特征在于,所述对所述多语言模型译文端的某一词汇进行遮盖具体为:将所述子词替换为[mask]标记。

4.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质量评估方法,其特征在于,所述利用条件概率处理被遮掩词中每个子词间的关系,获取每个单词的生成概率,包括:

5.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质量评估方法,其特征在于,所述根据所述生成概率作为评分进行词汇级机器翻译质量评估,包括:

6.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质...

【专利技术属性】
技术研发人员:杨沐昀黄辉宋福海曹海龙朱聪慧徐冰赵铁军
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1