当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于BERT的中法互译质量测评方法技术

技术编号:39411135 阅读:44 留言:0更新日期:2023-11-19 16:02
本发明专利技术提供一种基于BERT的中法互译质量测评方法,属于自然语言处理技术领域,包括:采用BERT在中文和法文的语义表征能力,并结合翻译场景下的跨语言的情况,构建中法语言转换深度神经网络结构;采用语句翻译的词汇级别准确度打分方法,不依赖翻译词典,根据预先训练的词汇相关度模型进行词汇准确度打分,具有词汇准确度打分准确并且任意两个词汇之间皆可打分特点,并通过门控网络把两种得分融合;采用门控网络和句子语义表达BERT Fine

【技术实现步骤摘要】
一种基于BERT的中法互译质量测评方法


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于BERT的中法互译质量测评方法。

技术介绍

[0002]随着中法以及中非的社会交流日益密切,法语的学习者和从业者也越来越多,中法语言互译也成为他们学习和工作中经常面临的重要任务。但是不同人群的语言能力各不相同,也就导致了翻译质量的参差不齐,这就给后期的校对和勘正提出了很大的挑战。亟须一个中法互译质量的评估方法,来帮助从业者评价翻译的质量和提升翻译的水平。
[0003]现有的翻译质量评价系统,例如BLEU、COMET、HLEPOR等都是基于参考译文和机器译文的差异,用于评价机器翻译水平的,对于没有参考译文的人工翻译,目前还没有一种有效的评价工具。随着机器学习中自然语言模型的不断发展,新的大语言模型不断提出,模型的表征能力也越来越强,BERT就是预训练语言表征模型中的佼佼者,甫一提出就刷新了11个NLP任务的最好成绩。BERT采用MLM对双向自注意机制transforms神经网络结构进行预训练,使得其能够很好的融合上下文信息,理解词汇和句本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于BERT的中法互译质量测评方法,其特征在于,包括:构建中法词汇对训练集合,利用变换器语言模型BERT生成中法词汇向量表示;由所述中法词汇向量表示构成交叉特征,将所述交叉特征输入至深度学习网络DNN中,得到词汇相似度预测模型;对源语句和翻译语句进行切词得到中文词汇和法文词汇,基于所述词汇相似度预测模型处理所述中文词汇和所述法文词汇,得到中法词汇之间的词汇相似度预测得分;获取平均词汇相似度预测得分最高的词汇对应关系序列,确定所述词汇对应关系序列的得分作为语句翻译的词汇准确度得分;对中法BERT模型进行微调,输出语言语义对应关系,将所述语言语义对应关系作为句子翻译语义表达得分;构建门控网络,将所述词汇相似度预测得分最大的词汇对应关系序列进行位置偏移、中文BERT语义输出层以及法文BERT语义输出层输入所述门控网络,得到最终翻译质量评分。2.根据权利要求1所述的基于BERT的中法互译质量测评方法,其特征在于,构建中法词汇对训练集合,利用变换器语言模型BERT生成中法词汇向量表示,包括:基于预设法汉词典获取中文词汇翻译样本和法文词汇翻译样本;确定所述法文词汇翻译样本以及对应的中文翻译为正样本;在所述中文词汇翻译样本和所述法文词汇翻译样本中采用batch内随机负采样确定负样本;基于所述正样本和所述负样本确定词汇对正负样本比例,得到所述中法词汇对训练集合;将所述中法词汇对训练集合分别输入谷歌中文BERT模型以及根据法语语料库训练出来的FlauBERT模型,得到所述中法词汇向量表示。3.根据权利要求1所述的基于BERT的中法互译质量测评方法,其特征在于,由所述中法词汇向量表示构成交叉特征,将所述交叉特征输入至深度学习网络DNN中,得到词汇相似度预测模型,包括:基于负样本规则,将一个batch内的法语词汇向量和中文词汇向量进行拼接,构成正样本对和负样本对;将所述正样本对和所述负样本对输入DNN网络,所述DNN网络包括四层中间层、一层输出层、激活函数sigmoid和损失函数softmax,得到所述词汇相似度预测模型。4.根据权利要求1所述的基于BERT的中法互译质量测评方法,其特征在于,对源语句和翻译语句进行切词得到中文词汇和法文词汇,基于所述词汇相似度预测模型处理所述中文词汇和所述法文词汇,得到中法词汇之间的词汇相似度预测得分,包括:分别对所述源语句和所述翻译语句进行切词,得到中文句子和法文句子的词汇序列和词汇在句子中的位置信息;利用所述词汇相似度预测模型计算所述词汇序列和所述词汇在句子中的位置信息,得到中法词汇...

【专利技术属性】
技术研发人员:刘婧玥吴泓缈胡继承林捷
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1