一种半监督式通用神经机器翻译模型的构建方法技术

技术编号:23191362 阅读:18 留言:0更新日期:2020-01-24 16:25
本发明专利技术提供了一种半监督式通用神经机器翻译模型的构建方法,该半监督式通用神经机器翻译模型的构建方法包括如下步骤:步骤(1),确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据;步骤(2),构建关于encoder模块与分类器模块的第一网络结构,同时采用该若干单语源语料训练该第一网络结构;步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用该若干单语目标语料训练该第二网络结构;步骤(4),根据经过训练的该第一网络结构和该第二网络结构,重新构建新encoder‑decoder框架,同时采用该若干平行双语语料训练该新encoder‑decoder框架,以此构建得到通用神经机器翻译模型。

A semi supervised general neural machine translation model

【技术实现步骤摘要】
一种半监督式通用神经机器翻译模型的构建方法
本专利技术涉及神经网络的
,特别涉及一种半监督式通用神经机器翻译模型的构建方法。
技术介绍
目前,神经网络广泛应用于机器翻译领域,而现有的通用神经机器翻译系统都是从端到段的encoder-decoder框架结构,在一般情况下基于监督方式来利用大量平行双语语料进行机器翻译模型的训练,而对于单语语料而言,则是通过数据增强的方式先伪造形成平行双语语料,再将其加入到训练数据中进行训练。在实际操作过程中,通用神经机器翻译系统需要大量平行双语语料进行训练,而平行双语语料则需要涉及大量的人工标注处理,该通用神经机器翻译系统在训练过程中并没有有效利用单语语料,并且单语语料在不需要人工标注处理的情况下就可容易获得,还有,通过数据增强的方式伪造得到的平行双语语料通常存在噪声,其会影响机器翻译的效果。可见,现有技术急需一种能够充分利用单语语料对神经机器翻译模型进行训练的模型构建方法。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种半监督式通用神经机器翻译模型的构建方法,该半监督式通用神经机器翻译模型的构建方法包括如下步骤:步骤(1),确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据;步骤(2),构建关于encoder模块与分类器模块的第一网络结构,同时采用该若干单语源语料训练该第一网络结构;步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用该若干单语目标语料训练该第二网络结构;步骤(4),根据经过训练的所述第一网络结构和该第二网络结构,重新构建新encoder-decoder框架,同时采用该若干平行双语语料训练所述新encoder-decoder框架,以此构建得到通用神经机器翻译模型。可见,该半监督式通用神经机器翻译模型的构建方法有别于现有技术的只采用平行双语语料或者伪造的平行双语语料对神经机器翻译模型进行训练,其能够直接采用大量单语语料对神经机器翻译模型进行训练以及采用少量平行双语语料对神经机器翻译模型进行精调,这样能够在避免使用大量平行双语语料作为训练数据时涉及大量繁复的人工标注处理,以及在采用少量平行双语语料的情况下也能够达到与使用大量平行双语语料进行训练相当的水平,从而有效地降低神经机器翻译模型训练的前期工作量和提高神经机器翻译模型的翻译准确性;此外,由于小语种很难获得平行双语语料、反而较为容易地收集到单语语料,因此该构建方法还特别适用于小语种翻译。本专利技术提供一种半监督式通用神经机器翻译模型的构建方法,其特征在于,所述半监督式通用神经机器翻译模型的构建方法包括如下步骤:步骤(1),确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据;步骤(2),构建关于encoder模块与分类器模块的第一网络结构,同时采用所述若干单语源语料训练所述第一网络结构;步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用所述若干单语目标语料训练所述第二网络结构;步骤(4),根据经过训练的所述第一网络结构和所述第二网络结构,重新构建新encoder-decoder框架,同时采用所述若干平行双语语料训练所述新encoder-decoder框架,以此构建得到通用神经机器翻译模型;进一步,在所述步骤(2)中,构建关于encoder模块与分类器模块的第一网络结构,同时采用所述若干单语源语料训练所述第一网络结构具体包括,步骤(201),从原始encoder-decoder框架中提取得到所述encoder模块,并结合所述分类器模块构建得到所述第一网络结构;步骤(202),利用sub-wordBPE技术对所述单语语料进行处理,将所述若干单语源语料变换为新的单语源语料;步骤(203),利用所述新的单语源语料对所述第一网络结构进行关于字词的训练;进一步,在所述步骤(201)中,从原始encoder-decoder框架中提取得到所述encoder模块,并结合所述分类器模块构建得到所述第一网络结构具体包括,步骤(2011),确定所述encoder模块与所述原始encoder-decoder框架中的可分离属性;步骤(2012),若所述可分离属性指示所述encoder模块具有可分离特性,则直接从所述原始encoder-decoder框架中提取得到所述encoder模块,若所述可分离属性指示所述encoder模块不具有可分离特性,则对所述原始encoder-decoder框架进行功能模块分割处理后,再从所述原始encoder-decoder框架中提取得到所述encoder模块;步骤(2013),将提取得到的所述encoder模块的输出端与所述分类器模块的输入端连接,以此构建得到所述第一网络结构;进一步,在所述步骤(202)中,将所述若干单语源语料变换为新的单语源语料具体包括,步骤(2021),对所述若干单语源语料利用随机mask语料10%-15%的token以及随机mask语料40%-50%的连续tokens的方式来进行第一随机掩模处理,以此获得若干具有掩模态的单语源语料;步骤(2022),对所述若干具有掩模态的单语源语料中的所有单词和/或词组进行第一记录定位处理,以此确定所述若干具有掩模态的单语源语料对应的语段位置信息;步骤(2023),判断所述语段位置信息的有效性,以此将具有有效语段位置信息对应的掩模态的单语源语料作为所述新的单语源语料;进一步,在所述步骤(203)中,利用所述新的单语源语料对所述第一网络结构进行关于字词的训练具体包括,步骤(2031),利用所述新的单语源语料中的所有掩模态的单语源语料对所述第一网络结构进行第一循环训练,以此实现对具有掩模态的单词和/或词组的第一预测处理;步骤(2032),从所述第一预测处理中提取至少一个第一预测结果,并对所述至少一个第一预测结果进行第一词匹配性判断;步骤(2033),若所述第一词匹配性判断的结果指示所述至少一个第一预测结果与之前被随机掩模处理的单语源语料两者相匹配,则完成所述第一循环训练,否则,继续进行所述第一循环训练,直到两者相匹配为止;进一步,在所述步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用所述若干单语目标语料训练所述第二网络结构具体包括,步骤(301),从原始encoder-decoder框架中提取得到所述decoder模块,并结合所述分类器模块构建得到所述第二网络结构;步骤(302),将所述若干单语目标语料变换为新的单语目标语料;步骤(303),利用所述新的单语目标语料对所述第二网络结构进行关于字词的训练;进一步,在所述步骤(301)中,从原始encoder-decoder框架中提取得到所述decoder模块,并结合所述分类器模块构建得到所述第二网络结构具体包括,步骤(3011),确定所述decoder模块与所述原始encoder-decoder框架中的可分离属性本文档来自技高网...

【技术保护点】
1.一种半监督式通用神经机器翻译模型的构建方法,其特征在于,所述半监督式通用神经机器翻译模型的构建方法包括如下步骤:/n步骤(1),确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据;/n步骤(2),构建关于encoder模块与分类器模块的第一网络结构,同时采用所述若干单语源语料训练所述第一网络结构;/n步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用所述若干单语目标语料训练所述第二网络结构;/n步骤(4),根据经过训练的所述第一网络结构和所述第二网络结构,重新构建新encoder-decoder框架,同时采用所述若干平行双语语料训练所述新encoder-decoder框架,以此构建得到通用神经机器翻译模型。/n

【技术特征摘要】
1.一种半监督式通用神经机器翻译模型的构建方法,其特征在于,所述半监督式通用神经机器翻译模型的构建方法包括如下步骤:
步骤(1),确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据;
步骤(2),构建关于encoder模块与分类器模块的第一网络结构,同时采用所述若干单语源语料训练所述第一网络结构;
步骤(3),构建关于decoder模块与分类器模块的第二网络结构,同时采用所述若干单语目标语料训练所述第二网络结构;
步骤(4),根据经过训练的所述第一网络结构和所述第二网络结构,重新构建新encoder-decoder框架,同时采用所述若干平行双语语料训练所述新encoder-decoder框架,以此构建得到通用神经机器翻译模型。


2.如权利要求1所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(2)中,构建关于encoder模块与分类器模块的第一网络结构,同时采用所述若干单语源语料训练所述第一网络结构具体包括,步骤(201),从原始encoder-decoder框架中提取得到所述encoder模块,并结合所述分类器模块构建得到所述第一网络结构;
步骤(202),利用sub-wordBPE技术对所述单语语料进行处理,将所述若干单语源语料变换为新的单语源语料;
步骤(203),利用所述新的单语源语料对所述第一网络结构进行关于字词的训练。


3.如权利要求2所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(201)中,从原始encoder-decoder框架中提取得到所述encoder模块,并结合所述分类器模块构建得到所述第一网络结构具体包括,
步骤(2011),确定所述encoder模块与所述原始encoder-decoder框架中的可分离属性;
步骤(2012),若所述可分离属性指示所述encoder模块具有可分离特性,则直接从所述原始encoder-decoder框架中提取得到所述encoder模块,若所述可分离属性指示所述encoder模块不具有可分离特性,则对所述原始encoder-decoder框架进行功能模块分割处理后,再从所述原始encoder-decoder框架中提取得到所述encoder模块;
步骤(2013),将提取得到的所述encoder模块的输出端与所述分类器模块的输入端连接,以此构建得到所述第一网络结构。


4.如权利要求2所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(202)中,将所述若干单语源语料变换为新的单语源语料具体包括,
步骤(2021),对所述若干单语源语料利用随机mask语料10%-15%的token以及随机mask语料40%-50%的连续tokens的方式来进行第一随机掩模处理,以此获得若干具有掩模态的单语源语料;
步骤(2022),对所述若干具有掩模态的单语源语料中的所有单词和/或词组进行第一记录定位处理,以此确定所述若干具有掩模态的单语源语料对应的语段位置信息;
步骤(2023),判断所述语段位置信息的有效性,以此将具有有效语段位置信息对应的掩模态的单语源语料作为所述新的单语源语料。


5.如权利要求2所述的半监督式通用神经机器翻译模型的构建方法,其特征在于:
在所述步骤(203)中,利用所述新的单语源语料对所述第一网络结构进行关于字词的训练具体包括,
步骤(2031),利用所述新的单语源语料中的所有掩模态的单语源语料对所述第一网络结构进行第一循环训练,以此实现对具有掩模态的单词和/或词组的第一预测处理;
步骤(2032),从所述第一预测处理中提取至少一个第一预测结果,并对所述至少一个第一预测结果进行第一词匹配性判断;
步骤(2033),若所述第一词匹配性判断的结果指示所述至少一个第一预测结果与之前被随机掩模处理的单语源语料两者相匹配,则完成所述第一循环训练,否则,继续进行所述第一循环训练,直到两者相匹配为止。


6.如权利要求1所...

【专利技术属性】
技术研发人员:陈巍华
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1