【技术实现步骤摘要】
本专利技术属于计算机技术中的人工智能领域,尤其是人工智能中的自然语言处理和机器翻译领域,采用预训练模型chinese-bert和数据增强算法,构建了一个“中-英”机器翻译系统,该系统通过自注意力机制捕捉上下文的时态信息,能够有效的提升机器翻译模型在“中-英”翻译时条件时态的翻译效果。
技术介绍
1、翻译,是一种将一个事物转化为另一个事物的过程,通常情况下是针对序列到序列的转化。自然语言处理(natural language processing,nlp)领域主要关注的翻译问题是自然语言之间的翻译。翻译软件可以将用户输入的一段汉语自动转化为对应的英语表达,像这样的利用计算机进行自然语言翻译的技术被称作是机器翻译(machinetranslation,mt),其中待翻译的语言被称为源语言,翻译结果所对应的语言被称为目标语言。在没有特别标注的情况下,本说明书下来的内容中提到的“翻译”均指自然语言之间的翻译。
2、时态信息是自然语言中的重要组成部分。在语法中,时态(tense)用于表示事情发生的时间,通常借由动词的各种形式来反映。<
...【技术保护点】
1.一种基于预训练模型和数据增强技术的“中-英”条件时态机器翻译方法,其特征在于利用预训练模型Chinese-BERT和条件时态数据增强算法将传统的“中-英”机器翻译方法细分为“分类-翻译-融合”三大过程,并且额外引入了基于自注意力机制的上下文时态信息,以提升“中-英”机器翻译中条件时态的翻译效果。
2.根据权利要求1所述方法,其特征在于首先对IWSLT14“中-英”平行语料数据集进行预处理,将XML格式的数据转化为“中-英”句对数据集。然后利用英文自动化时态标注工具TMV-annotator对从2中得到的数据集中的英文进行时态标注,获得每个英文句子中的所
...【技术特征摘要】
1.一种基于预训练模型和数据增强技术的“中-英”条件时态机器翻译方法,其特征在于利用预训练模型chinese-bert和条件时态数据增强算法将传统的“中-英”机器翻译方法细分为“分类-翻译-融合”三大过程,并且额外引入了基于自注意力机制的上下文时态信息,以提升“中-英”机器翻译中条件时态的翻译效果。
2.根据权利要求1所述方法,其特征在于首先对iwslt14“中-英”平行语料数据集进行预处理,将xml格式的数据转化为“中-英”句对数据集。然后利用英文自动化时态标注工具tmv-annotator对从2中得到的数据集中的英文进行时态标注,获得每个英文句子中的所有动词短语及其对应的时态类别,挑选出那些使用了条件时态的“中-英”句对作为正样本,并挑选同样数量的负样本一起构建一个“中-英”条件时态二分类数据集。
3.利用自注意力机制引入上下文的时态信息。本发明认为英文中的一个使用条件时态的句子,其上下文在时态方面也具有一定的特征,所以本发明的特征在于利用自注意力机制,为一个英文文档构建上下文时态信息的编码,得到每个句子的上下文时态信息特征。
4.使用预训练模型chinese-bert、自注意力机制和一个线性分类神经网络,构建一个条件时态分类器。该分类器在2中得到的条件时态二分类数据集上进行微调训练。本发明利用3中的上下文的时态特征,将其与chinese-bert输出的[cls]向量进行连接处理,一同输入给线性分类神经网络进行标签预测。条件时态分类...
【专利技术属性】
技术研发人员:何铁科,郑滔,张建榕,袁世龙,刘云辉,杨宇翔,赵俊涵,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。