【技术实现步骤摘要】
机器翻译方法、训练方法、相应的装置及电子设备
本申请涉及自然语言处理
,具体而言,本申请涉及一种机器翻译方法、训练方法、相应的装置及电子设备。
技术介绍
自然语言处理是为实现人与计算机之间用自然语言进行有效通信的技术。自然语言是人类智慧的结晶,对自然语言处理的研究是充满魅力和挑战的。经过近几年来的发展,自然语言处理技术的理论基础日趋成熟,应用范围也越来越广,带动了一大波产业热潮。从20世纪50年代算起,自然语言处理的研究是从机器翻译系统开始的,通过大量的科学实验,公众和科学界看到了利用计算机进行自动翻译的可能性。神经机器翻译是最近几年提出来的一种机器翻译方法,主要是利用神经网络,实现不同语言之间翻译的技术。其中,可以通过多语言神经机器翻译系统实现多种(通常大于两种)不同语言之间多方向的互译。当前的神经机器翻译系统中,将一个完全相同的句子翻译成不同的目标语言的输出句子,需要经过多次完整的翻译过程,由此导致系统需要进行大量计算,时间成本极高。现有技术为了提高神经机器翻译系统的效率,解 ...
【技术保护点】
1.一种机器翻译方法,其特征在于,所述方法包括:/n获取源语言输入文本对应的语义编码;/n基于一种或多种目标语言,分别对所述语义编码进行解码处理,得到所述一种或多种目标语言的输出文本。/n
【技术特征摘要】
1.一种机器翻译方法,其特征在于,所述方法包括:
获取源语言输入文本对应的语义编码;
基于一种或多种目标语言,分别对所述语义编码进行解码处理,得到所述一种或多种目标语言的输出文本。
2.根据权利要求1所述的机器翻译方法,其特征在于,所述获取源语言输入文本对应的语义编码,包括:
通过词向量空间模型获取所述源语言输入文本对应的词向量序列;
通过编码器对所述源语言输入文本对应的词向量序列进行编码,得到所述源语言输入文本对应的语义编码;
所述词向量空间模型中包括多种语言的词向量,所述多种语言的词向量是基于语义对齐的。
3.根据权利要求2所述的机器翻译方法,其特征在于,所述基于一种或多种目标语言,分别对所述语义编码进行解码处理,得到所述一种或多种目标语言的输出文本,包括:
基于一种或多种目标语言,分别通过解码器对所述语义编码进行解码处理,得到所述一种或多种目标语言分别对应的词向量序列;
根据所述一种或多种目标语言分别对应的词向量序列,通过所述词向量空间模型得到所述一种或多种目标语言的输出文本。
4.根据权利要求3所述的机器翻译方法,其特征在于,基于任一目标语言,对所述语义编码进行解码处理,包括以下任一情形:
将所述任一目标语言对应的目标语言标签输入所述解码器,以使得所述解码器根据所述任一目标语言对应的目标语言标签对所述语义编码进行解码;
基于所述任一目标语言,确定解码器的相应参数,并通过解码器基于所述相应参数对所述语义编码进行解码;
基于所述任一目标语言,确定相应的解码器,并通过确定出的解码器对所述语义编码进行解码。
5.根据权利要求2-4任一项所述的机器翻译方法,其特征在于,预训练词向量空间模型的方式,包括:
针对各种语言,分别训练对应的词向量;
将各种语言的词向量基于语义进行对齐,得到所述词向量空间模型。
6.根据权利要求1-5任一项所述的机器翻译方法,其特征在于,训练机器翻译网络的方式,包括:
针对各种语言的语料样本分别执行去噪训练来更新网络参数,直至基于去噪训练得到的去噪前后文本差异性指标达到预定终止条件;
针对各种语言的语料样本分别执行回译训练来更新网络参数。
7.根据权利要求6所述的机器翻译方法,其特征在于,所述针对各种目标语言的语料样本分别执行回译训练来更新网络参数,包括:
针对各种语言的语料样本分别通过预训练的语言模型计算流畅度损失及执行回译训练来更新网络参数。
8.根据权利要求7所述的机器翻译方法,其特征在于,所述针对各种目标语言的语料样本分别通过预训练的语言模型计算流畅度损失及执行回译训练来更新网络参数,包括:
步骤1,在任一种语言的训练语料中选取一个源语言语料样本,并通过所述机器翻译网络依次得到各种目标语言的训练输出文本,并确定所述各个训练输出文本对应的流畅度损失和回译前后文本差异性指标;
步骤2,针对各种语言的训练语料依次执行步骤1;
步骤3,针对各种语言对,依据相应的流畅度损失和回译前后文本差异性指标,计算所述机器翻译网络的总损失,并根据所述总损失来更新网络参数;
其中,任一语言对包括任一源语言语料样本和所述任一源语言语料样本对应的任一目标语言输出文本。
9.根据权利要求8所述的机器翻译方法...
【专利技术属性】
技术研发人员:彭煦潭,袁文博,
申请(专利权)人:北京三星通信技术研究有限公司,三星电子株式会社,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。