一种融合句法信息的翻译质量自动评估方法技术

技术编号：30410647 阅读：29 留言：0更新日期：2021-10-20 11:40

一种融合句法信息的翻译质量自动评估方法，涉及翻译技术领域。包括以下步骤：获取输入文本的双语文本表示向；将双语输入的文本分别构建句法依赖树，形成句法图；利用图神经网络编码相关节点关系特征后拼接，上层接一个简单的sigmoid层输出质量分数；模型的输出和数据标签的均方根误差误差作为损失，通过反向传播算法更新质量预测模型参数。利用图神经网络巧妙地解决了在翻译质量自动评估中缺乏句法信息的引入问题，在翻译质量自动评估领域，尚未看到此类方法。在预训练模型的基础上，加入图神经网络编码句法信息，使得模型能够同时表达语义和句法信息，比单独使用预训练模型能够在皮尔逊相关系数上普遍提升约19％的效果。皮尔逊相关系数上普遍提升约19％的效果。皮尔逊相关系数上普遍提升约19％的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合句法信息的翻译质量自动评估方法

[0001]本专利技术涉及翻译
，尤其是涉及一种融合句法信息的翻译质量自动评估方法。

技术介绍

[0002]随着神经机器翻译和自然语言技术的发展，如何自动地对翻译质量进行量化评估(翻译质量估计，quality estimation，QE)引起企业界和学术界的广泛关注。基于大数据驱动的翻译自动评估无需参考译文即可对翻译质量进行估计。目前，QE的方法主要可以归为三类：
①
基于特征工程；
②
基于神经网络；
③
基于预训练模型；方法
①
需要手动构建特征后输入传统的机器学习算法，此类方法以QuEst和QuEst++为代表，缺点是性能有限并且难以处理新的语言现象；方法
②
通常是两段式，在大量平行语料的基础上训练一个双语模型获得词表达，然后输入上层神经网络(如LSTM)，此类方法以Predictor
‑
Estimator为代表，缺点是需要大量的平行语料并且训练时间较长；方法
③r/>这一两年比较常本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合句法信息的翻译质量自动评估方法，其特征在于包括以下步骤：1)获取输入文本的双语文本表示向；2)将双语输入的文本分别构建句法依赖树，形成句法图；3)利用图神经网络编码相关节点关系特征后拼接，上层接一个简单的sigmoid层输出质量分数；4)模型的输出和数据标签的均方根误差误差作为损失，通过反向传播算法更新质量预测模型参数。2.如权利要求1所述一种融合句法信息的翻译质量自动评估方法，其特征在于在步骤1)中，所述获取输入文本的双语文本表示向的具体方法为以下之一：(1)采用双语预训练模型来获取输入文本的双语文本表示向；所述双语预训练模型包括XLM
‑
R或mBERT；在模型训练过程中可进行参数微调；(2)使用Word2Vec的方法；(3)使用用开源工具包Transformers获得已训练好的模型来搭建字向量表示层。3.如权利要求1所述一种融合句法信息的翻译质量自动评估方法，其特征在于在步骤2)中，所述将双语输入的文本分别构建句法依赖树，形成句法图的具体方法为：利用自建的句法依赖算法或者开源工具包，抽取双语输入的句法依赖关系；句子成分间的依赖关系使用有向图来表示；依赖关系图包含节点和节点之间的关系种类，用三元组表示，如：节点A，关系r，节点B；如此便将整个句子的句法依赖关系编码成三元组列表，[三元组1，三元组2，三元组3，
…

【专利技术属性】
技术研发人员：陆晓蕾，倪斌，韩潮，张培欣，管新潮，李力，陈晨，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人