基于多策略原型生成的低资源神经机器翻译方法技术

技术编号:33956386 阅读:14 留言:0更新日期:2022-06-29 23:36
本发明专利技术涉及基于多策略原型生成的低资源神经机器翻译方法,属于自然语言处理技术领域。本发明专利技术包括步骤:首先结合利用关键词匹配和分布式表示匹配检索原型序列,如未能获得匹配,则利用伪原型生成方法产生可用的伪原型序列。其次,为有效地利用原型序列,对传统的编码器

【技术实现步骤摘要】
基于多策略原型生成的低资源神经机器翻译方法


[0001]本专利技术涉及基于多策略原型生成的低资源神经机器翻译方法,属于自然语言处理


技术介绍

[0002]近年来,随着端到端翻译模型和注意力机制的提出,神经机器翻译(Neural Machine Translation,NMT)取得了长足的发展,在主流语言对上的翻译性能迅速超过统计机器翻译,逐渐发展为目前主流的机器翻译模式。为提升神经机器翻译性能,研究者们提出了各种方法。其中,基于原型序列融入的原型方法受到很多关注。资源丰富场景下,利用相似性翻译作为目标端原型序列,能够有效提升神经机器翻译的性能。然而在低资源场景下,由于平行语料资源匮乏,导致不能匹配得到原型序列或序列质量不佳。因此,在低资源场景下,探索如何有效利用原型序列来提高神经机器翻译的性能,具有非常重要的研究和应用价值。
[0003]原型序列是存在于翻译记忆库中的目标端句子,内含目标语言端语义信息。原型方法通过在翻译进程中引入原型序列来利用目标端语义信息,使其被隐式地用于指导词对齐和解码约束等过程。目前原型方法领域的研究工作主要集中在原型检索和原型利用两个阶段。原型序列检索方法在资源丰富场景下得到了较好的发展,原因在于资源丰富场景下存在大规模的翻译记忆库。因此原型方法可以通过检索记忆库得到较高质量的原型序列,进而有效地提升翻译性能。然而在低资源场景下,受限于平行语料的规模和质量,传统的原型序列检索方法往往难以检索得到可用的原型。对下一步翻译任务的效果提升有限。除此以外,在对原型序列利用方面,尤其是将原型序列作为编码输入融入翻译模型的方式上,研究者们提出了很多改进方法。例如采用双编码器结构对输入句子和原型序列同时进行编码,同时在解码端引入门控机制来平衡源句和原型序列间的信息比例。然而,以上方法均带来了翻译性能上的提升,但是仍然主要面向资源丰富场景,较少针对低资源场景进行特定的改进。因此,本专利技术提出了基于多策略原型生成的低资源神经机器翻译方法,通过改进的原型获取方法和特定的翻译框架结构,更好地提升低资源神经机器翻译的性能。

技术实现思路

[0004]本专利技术提供了基于多策略原型生成的低资源神经机器翻译方法,通过结合传统检索方法和所提出的伪原型生成方法提升原型序列获取的效率和质量,同时利用神经网络结构改变的方式将检索到的原型融入编解码器框架,在最大化利用原型序列所含语义信息的同时削弱低质量序列带来的影响;能提升低资源神经机器翻译的性能。
[0005]本专利技术的技术方案是:基于多策略原型生成的低资源神经机器翻译方法,所述方法的具体步骤如下:
[0006]Step1、语料预处理:预处理不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;并构建多语言全局替换词典和关键词词典,用于伪原型生
成;
[0007]Step2、原型生成:利用基于多种策略混合的原型生成方法进行原型生成,以保证原型序列的可用性;该步骤的具体思路为:首先结合使用模糊匹配和分布式表示匹配进行原型检索,如未检索到原型,则利用词替换操作对输入句子中的关键词进行替换,得到伪原型序列;
[0008]Step3、融入原型序列的翻译模型构建:改进传统基于注意力机制的神经机器翻译模型的编解码器结构,以更好的融入原型序列,使用步骤Step1,Step2的语料作为模型输入,产生最终译文。
[0009]作为本专利技术的优选方案,所述Step1的具体步骤为:
[0010]Step1.1、使用机器翻译领域的通用数据集IWSLT15进行模型训练,翻译任务为英

越、英

中和英

德;验证和测试方面,选择tst2012作为验证集进行参数优化和模型选择,选择tst2013作为测试集进行测试评估;
[0011]Step1.2、使用PanLex、维基百科、实验室自建的英汉

东南亚语词典以及谷歌翻译接口来构建英





德全局替换词典;
[0012]Step1.3、在Step1.2的基础上,通过标记筛选方式得到关键词典,筛选过程中保留全部实体;为避免替换过于集中于某些热点名词,对名词性词汇于语料中检索并按出现频率进行倒排。
[0013]作为本专利技术的优选方案,所述Step2的具体步骤为:
[0014]Step2.1、结合使用模糊匹配和分布式表示匹配进行原型检索;具体实现如下:翻译记忆库是由L对平行句组成的集合{(s
l
,t
l
):l=1,

,L},其中s
l
为源句,t
l
为目标句;对给定的输入句子x,首先使用关键词匹配于翻译记忆库中进行检索;采用模糊匹配作为关键词匹配方法,其定义为:
[0015][0016]其中ED(x,s
i
)是x,s
i
间的编辑距离,|x|为x的句长;
[0017]与基于关键词的匹配方法不同,分布式表示匹配根据句子向量表征之间的距离进行检索,某种程度上是利用语义信息进行相似性检索的手段,也因此提供了与关键词匹配不同的检索视角;基于余弦相似度的分布式表示匹配定义为:
[0018][0019]其中h
x
和分别为x和s
i
的向量表征,||h
x
||为向量h
x
的度量;为实现快速计算,首先使用多语言预训练模型mBERT得到句子x和s
i
的向量表征,随后依据表征,使用faiss工具进行相似性匹配;
[0020]当模糊匹配能够得到最优匹配源句s
best
时,利用分布式表示匹配得到top

k个匹配结果的集合s

={s1,s2,

,s
k
},如s
best
∈s

,则选取s
best
对应的目标端句子t
best
作为原型序列;当模糊匹配未能检索到匹配源句或时,则通过分布式表示匹配检索出最优匹配源句s
best

[0021]Step2.2、若Step2.1未检索到原型,则对输入的句子进行关键词替换,生成伪原
型,称之为基于词替换的伪原型生成;具体包含以下两种替换策略;
[0022]全局替换:当输入句子未能检索到匹配时,基于最大化原则,利用双语词典对输入句子中的词进行尽力替换,替换后的句子被称为伪原型序列;
[0023]关键词替换:从双语词典中抽取重要名词和实体构建关键词词典;当输入句子未能检索到匹配时,利用该词典对输入句子中的关键词进行替换,生成伪原型序列,替换次数上限小于设定的阈值;期望在共享词表的基础上,该混合了源端和重要目标端词汇的伪原型序列能够为译文的生成提供指导。
[0024]作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多策略原型生成的低资源神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、语料预处理:预处理不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;并构建多语言全局替换词典和关键词词典,用于伪原型生成;Step2、原型生成:利用基于多种策略混合的原型生成方法进行原型生成,以保证原型序列的可用性;该步骤的具体思路为:首先结合使用模糊匹配和分布式表示匹配进行原型检索,如未检索到原型,则利用词替换操作对输入句子中的关键词进行替换,得到伪原型序列;Step3、融入原型序列的翻译模型构建:改进传统基于注意力机制的神经机器翻译模型的编解码器结构,以更好的融入原型序列,使用步骤Step1,Step2的语料作为模型输入,产生最终译文。2.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法,其特征在于:所述Step1的具体步骤为:Step1.1、使用机器翻译领域的通用数据集IWSLT15进行模型训练,翻译任务为英

越、英

中和英

德;验证和测试方面,选择tst2012作为验证集进行参数优化和模型选择,选择tst2013作为测试集进行测试评估;Step1.2、使用PanLex、维基百科、实验室自建的英汉

东南亚语词典以及谷歌翻译接口来构建英





德全局替换词典;Step1.3、在Step1.2的基础上,通过标记筛选方式得到关键词典,筛选过程中保留全部实体;为避免替换过于集中于某些热点名词,对名词性词汇于语料中检索并按出现频率进行倒排。3.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法,其特征在于:所述Step2的具体步骤为:Step2.1、结合使用模糊匹配和分布式表示匹配进行原型检索;具体实现如下:翻译记忆库是由L对平行句组成的集合{(s
l
,t
l
):l=1,...,L},其中s
l
为源句,t
l
为目标句;对给定的输入句子x,首先使用关键词匹配于翻译记忆库中进行检索;采用模糊匹配作为关键词匹配方法,其定义为:其中ED(x,s
i
)是x,s
i
间的编辑距离,|x|为x的句长;与基于关键词的匹配方法不同,分布式表示匹配根据句子向量表征之间的距离进行检索,某种程度上是利用语义信息进行相似性检索的手段,也因此提供了与关键词匹配不同的检索视角;基于余弦相似度的分布式表示匹配定义为:其中h
x
和分别为x和s
i
的向量表征,||h
x
||为向量h
x
的度量;为实现快速计算,首先使用多语言预训练模型mBERT得到句子x和s
i
的向量表征,随后依据表征,使用faiss工具进行相似性匹配;当模糊匹配能够得到最优匹配源句s
best
时,利用分布式表示匹配得到top

k个匹配结果
的集合s

={s1,s2,...,s
k
},如s
best
∈s

,则选取s
best
对应的目标端句子t
best
作为原型序列;当模糊匹配未能检索到匹配源句或时,则通过分布式表示匹配检索出最优匹配源句s
best
;Step2.2、若Step2.1未检索到原型,则对输入的句子进行关键词替换,生成伪原型,称之为基于词替换的伪原型生成;具体包含以下两种替换策略;全局替换:当输入句子未能检索到匹配时,基于最大化原则,利用双语词典对输入句子中的词进行尽力替换,替换后的句子被称为伪原型序列;关键词替换:从双语词典中抽取重要名词和实体构建关键词词典;当输入句子未能检索到匹配时,利用...

【专利技术属性】
技术研发人员:余正涛朱恩昌于志强
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1