当前位置: 首页 > 专利查询>天津大学专利>正文

一种无监督神经机器翻译的语码转换词汇交叠增强方法技术

技术编号:33455244 阅读:67 留言:0更新日期:2022-05-19 00:38
本发明专利技术公开了一种无监督神经机器翻译的语码转换词汇交叠增强方法,包括词典生成、过滤和文本语码转换三个处理阶段,步骤1、词典生成:选取最相似的词汇,生成初始词典V

【技术实现步骤摘要】
一种无监督神经机器翻译的语码转换词汇交叠增强方法


[0001]本专利技术属于自然语言处理
,提出了一种受认知启发的学习自然语言处理任务的分类法框架。

技术介绍

[0002]神经机器翻译(NMT)近年来在机器翻译领域展现出了优异的性能,成为机器翻译的主流方法。但是,神经机器翻译模型的训练需要大规模的平行语料,平行语料的获得是非常困难的,需要昂贵的人工成本,而且对于许多小语种而言,人工标注数据常常是不可行的。这为神经机器翻译模型的普及带来了重大的阻碍。
[0003]无监督神经机器翻译技术只需要利用单语数据,这种数据可以通过网络爬虫轻易地获得,数量远远超过平行语料,获取成本也非常地小。无监督神经机器翻译通过子词技术(如BPE)实现不同语言中形态相同的单词共享词向量权重,通过编码器的参数共享。利用现有的语言模型预训练方法(如MLM),隐式地用同一语义空间表示不同语言中语义相似的单词,并且利用去噪任务(Denoise Task)、反向翻译技术(Back

Translation)实现模型性能的进一步提升。当前无监督翻译技术在相似语言对,如英语

法语和英语

德语上的性能已经和监督翻译模型相去不远。虽然无监督翻译技术在一些语言对上取得了突破性的进展,如英语

法语和英语

德语,但对于远距离语言对,无监督翻译技术的性能非常低下,如英语

汉语。无监督神经机器翻译技术的一大特点就是很好地利用了两种语言之间单词形态上的相似性,天然地进行一些词汇迁移和共享,而这个优势在形态上完全不相似的语言之间是不存在的,远距离语言对之间的无监督翻译模型不能获得充分的词汇共享信息,在训练过程中,不存在持续性的对齐信号,无法隐式地对齐两个语言的语义空间,从而导致了模型翻译性能的匮乏。此外,远距离语言对往往伴随着词汇、语序的不同,这会为多语言语言模型的训练构成很大的困难,导致语言模型的表现更差,训练得到的跨语言嵌入表示的性能不佳。
[0004]无监督跨语言嵌入以嵌入空间同构为假设前提,提出利用一个正交线性映射即以无监督的方式将两个单语嵌入空间映射到一个共享语义空间,为无监督翻译模型、无监督词典生成都提供了可行的研究路线。

技术实现思路

[0005]本专利技术旨在提出一种无监督神经机器翻译的语码转换词汇交叠增强方法,针对不同语言词汇之间最相似的词汇,实现文本语码转换,将源语言端的词完全替换为相对应的目标语言端的词。
[0006]本专利技术采用以下的技术方案来实现:。
[0007]一种无监督神经机器翻译的语码转换词汇交叠增强方法,包括词典生成、过滤和文本语码转换三个处理阶段,该方法具体包括以下步骤:
[0008]步骤1、词典生成:使用Vecmap工具,对基于fastText训练得到的单语词向量进行
映射,将两种语言的向量空间映射到同一空间;接下来,利用CSLS距离度量方法,计算不同语言词汇之间的相似度,选取最相似的词汇,生成初始词典V
init

[0009]步骤2、过滤初始词典V
init
中存在的噪声;
[0010]步骤3、文本语码转换:利用高质量最终词典模型V
filtered
对文本进行语码转换,即将源语言端的词完全替换为最终词典模型V
filtered
中相对应的目标语言端的词,在之后的无监督翻译模型训练,使用这种文本语码转换之后的语料。
[0011]与现有的无监督神经机器翻译技术相比,本专利技术具有以下优点:
[0012]在不对原有算法进行改动的情况下,对训练数据进行预处理,通过相同语义的单词的词语替换,使得无监督翻译模型在训练过程中能够持续地获得两种远距离语言对之间的对齐信号,促使两种语言的语义空间在训练中能够不断靠近,提高两种语言的相似性,从而提高无监督翻译模型的性能。
附图说明
[0013]图1是本专利技术的无监督神经机器翻译的语码转换词汇交叠增强方法流程图。;
[0014]图2是嵌入层参数PCA可视化分析结果示意图;
[0015]图3是语言模型困惑度曲线图;
[0016]图4是Zero

Shot机器翻译结果对比示意图。
具体实施方式
[0017]以下结合附图和具体实施例对本专利技术的技术方案进行详细说明。
[0018]本专利技术的一种无监督神经机器翻译的语码转换词汇交叠增强方法(Code

Switching Lexical Overlap Enhancement,CLOE)。本专利技术的CLOE算法所要解决的是无监督神经机器翻译中远距离语言对相似度低、翻译模型性能差的问题。具体来说,在无监督翻译中,远距离语言对缺少了形态上相似的共享词汇,导致无监督翻译模型难以将两种不相似语言的语义空间映射到同一空间下,大大降低了无监督机器翻译在这种情境下的翻译性能。本专利技术的CLOE算法的提出是为了缓解无监督翻译中,远距离语言对没有共享词汇的缺点,提高两种语言的相似性,从而提高无监督翻译模型的性能。
[0019]如图1所示,是本专利技术的无监督神经机器翻译的语码转换词汇交叠增强方法流程图。本方法整体流程分为三个部分,分别是词典生成、过滤和文本语码转换。以x代替源端语言词汇,以y代替目标端语言词汇,使用基于transformer模型的encoder

decoder架构,输入源端句子表示为{x1,x2,x3,x4,x5},相应的目标端翻译句子表示为{y5,y6,y7,y8,y9},使用Vecmap工具进行词级别的对齐从而获得双语词典,依据阈值过滤和相互匹配原则,提升词典质量,减少错误词对齐数量。之后基于高质量的双语词典进行替换,得到形如{x1,y6,y7,x4,x5}的语句,遍历所有源端句子,获得代码转换语料。基于代码转换语料进行无监督翻译训练,在模型训练过程中同时处理来自不同语言的句子,增强双语相似度,从而提升模型性能,具体步骤如下:
[0020]步骤1、词典生成。由于CLOE是对无监督翻译进行增强,因此不会提供人工生成的双语词典,本方法使用Vecmap工具,对基于fastText训练得到的单语词向量进行映射,将两种语言的向量空间映射到同一空间;接下来,利用CSLS距离度量方法,计算不同语言词汇之
间的相似度,选取最相似的词汇,生成初始词典V
init

[0021]步骤2、过滤。初始词典V
init
中存在大量的噪声;设计了两种过滤原则来过滤该词典:
[0022]步骤2.1、基于超参数τ进行阈值过滤,得到过滤词典模型V
thres
,表示如下:
[0023]V
thres
={(w
s
,w
t
)|CSLS(w
s
,w
t
)>τ,(w
s<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无监督神经机器翻译的语码转换词汇交叠增强方法,其特征在于,包括词典生成、过滤和文本语码转换三个处理阶段,该方法具体包括以下步骤:步骤1、词典生成:使用Vecmap工具,对基于fastText训练得到的单语词向量进行映射,将两种语言的向量空间映射到同一空间;接下来,利用CSLS距离度量方法,计算不同语言词汇之间的相似度,选取最相似的词汇,生成初始词典V
init
;步骤2、过滤初始词典V
init
中存在的噪声;步骤3、文本语码转换:利用高质量最终词典模型V
filtered
对文本进行语码转换,即将源语言端的词完全替换为最终词典模型V
filtered
中相对应的目标语言端的词,在之后的无监督翻译模型训练,使用这种文本语码转换之后的语料。2.如权利要求1所述的基于摄像头和云端实时地图的自动紧急制动系统,其特征在于,超参数τ值越大,词典中符合要求的词对数量越少,同时词典的准确度也越高,优选将τ设为0.3。3.如权利要求1所述的一种基于摄像头和云...

【专利技术属性】
技术研发人员:熊德意李上杰
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1