当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于预训练模型和数据增强技术的“中-英”条件时态机器翻译方法技术

技术编号:43466095 阅读:15 留言:0更新日期:2024-11-27 13:02
本发明专利技术提出了一种基于预训练模型和数据增强技术的“中‑英”条件时态机器翻译方法,用于增强“中‑英”机器翻译时条件时态的翻译效果,进而提高翻译系统总体的翻译表达能力,提高用户满意度。本发明专利技术主要分为四个主要环节:利用自注意力机制对英文的上下文时态信息进行编码、利用预训练模型Chinese‑BERT构建一个条件时态分类器、设计了一个条件时态数据增强算法以及基于篇章级机器翻译模型HAN‑NMT构建的条件时态翻译器和非条件时态翻译器。这一方法为“中‑英”机器翻译中条件时态翻译效果问题提供了一个最前沿的基于预训练模型和数据增强算法的优化方案,同时也为“中‑英”翻译和其他语种翻译中时态的优化问题提供了可以借鉴的思路。

【技术实现步骤摘要】

本专利技术属于计算机技术中的人工智能领域,尤其是人工智能中的自然语言处理和机器翻译领域,采用预训练模型chinese-bert和数据增强算法,构建了一个“中-英”机器翻译系统,该系统通过自注意力机制捕捉上下文的时态信息,能够有效的提升机器翻译模型在“中-英”翻译时条件时态的翻译效果。


技术介绍

1、翻译,是一种将一个事物转化为另一个事物的过程,通常情况下是针对序列到序列的转化。自然语言处理(natural language processing,nlp)领域主要关注的翻译问题是自然语言之间的翻译。翻译软件可以将用户输入的一段汉语自动转化为对应的英语表达,像这样的利用计算机进行自然语言翻译的技术被称作是机器翻译(machinetranslation,mt),其中待翻译的语言被称为源语言,翻译结果所对应的语言被称为目标语言。在没有特别标注的情况下,本说明书下来的内容中提到的“翻译”均指自然语言之间的翻译。

2、时态信息是自然语言中的重要组成部分。在语法中,时态(tense)用于表示事情发生的时间,通常借由动词的各种形式来反映。</p>

3、英文本文档来自技高网...

【技术保护点】

1.一种基于预训练模型和数据增强技术的“中-英”条件时态机器翻译方法,其特征在于利用预训练模型Chinese-BERT和条件时态数据增强算法将传统的“中-英”机器翻译方法细分为“分类-翻译-融合”三大过程,并且额外引入了基于自注意力机制的上下文时态信息,以提升“中-英”机器翻译中条件时态的翻译效果。

2.根据权利要求1所述方法,其特征在于首先对IWSLT14“中-英”平行语料数据集进行预处理,将XML格式的数据转化为“中-英”句对数据集。然后利用英文自动化时态标注工具TMV-annotator对从2中得到的数据集中的英文进行时态标注,获得每个英文句子中的所有动词短语及其对应的...

【技术特征摘要】

1.一种基于预训练模型和数据增强技术的“中-英”条件时态机器翻译方法,其特征在于利用预训练模型chinese-bert和条件时态数据增强算法将传统的“中-英”机器翻译方法细分为“分类-翻译-融合”三大过程,并且额外引入了基于自注意力机制的上下文时态信息,以提升“中-英”机器翻译中条件时态的翻译效果。

2.根据权利要求1所述方法,其特征在于首先对iwslt14“中-英”平行语料数据集进行预处理,将xml格式的数据转化为“中-英”句对数据集。然后利用英文自动化时态标注工具tmv-annotator对从2中得到的数据集中的英文进行时态标注,获得每个英文句子中的所有动词短语及其对应的时态类别,挑选出那些使用了条件时态的“中-英”句对作为正样本,并挑选同样数量的负样本一起构建一个“中-英”条件时态二分类数据集。

3.利用自注意力机制引入上下文的时态信息。本发明认为英文中的一个使用条件时态的句子,其上下文在时态方面也具有一定的特征,所以本发明的特征在于利用自注意力机制,为一个英文文档构建上下文时态信息的编码,得到每个句子的上下文时态信息特征。

4.使用预训练模型chinese-bert、自注意力机制和一个线性分类神经网络,构建一个条件时态分类器。该分类器在2中得到的条件时态二分类数据集上进行微调训练。本发明利用3中的上下文的时态特征,将其与chinese-bert输出的[cls]向量进行连接处理,一同输入给线性分类神经网络进行标签预测。条件时态分类...

【专利技术属性】
技术研发人员:何铁科郑滔张建榕袁世龙刘云辉杨宇翔赵俊涵
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1