一种翻译模型训练方法及装置制造方法及图纸

技术编号:20221905 阅读:47 留言:0更新日期:2019-01-28 20:22
本发明专利技术实施例提供一种翻译模型训练方法及装置,通过大规模源语言端单语语料和目标语言端单语语料对翻译模型进行训练,通过上述训练后的翻译模型可以同时进行从源语言端到目标语言端和从目标语言端到源语言端的双向翻译,且具有如下优势:能够在无平行语料的情况下获得较高的翻译性能。因此,该方法可以大大减小神经翻译模型对平行语料的依赖,大大降低了人工标注语料的成本和时间。

【技术实现步骤摘要】
一种翻译模型训练方法及装置
本专利技术实施例涉及自然语言处理
,具体涉及一种翻译模型训练方法及装置。
技术介绍
随着全球化的发展,国际交流及信息传递呈现爆发式增长。传统的依赖于人工翻译的方法已经无法满足人们日常跨语言交流的需求。而机器翻译作为一种能自动提供准确翻译结果的技术,逐渐得到广泛的关注和研究。从传统的基于规则的翻译方法到统计机器翻译方法,再到现在主流的神经机器翻译方法,机器翻译的性能已经取得了巨大的进展。目前主流的神经机器翻译方法严重依赖于大规模的高质量的平行语料。在平行语料数量不足或者没有平行语料的情况下,目前的神经机器翻译方法很难取得令人满意的翻译性能。在实际应用场景中,一般很难获得较大规模的平行语料;虽然人工标注是一个获得平行语料的可行途径,然而,人工标注的成本十分昂贵且极度费时,严重限制了人工标准的大规模展开。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本专利技术实施例提供了一种翻译模型训练方法及装置。有鉴于此,第一方面,本专利技术实施例提供一种翻译模型训练方法,包括:获取大规模的源语言端单语语料和目标语言端单语语料;训练所述源语言端单语语料本文档来自技高网...

【技术保护点】
1.一种翻译模型训练方法,其特征在于,包括:获取大规模的源语言端单语语料和目标语言端单语语料;训练所述源语言端单语语料和目标语言端单语语料,得到源语言端词向量和目标语言端词向量;将所述源语言端词向量和目标语言端词向量映射到同一个向量空间,得到对齐的源语言端词向量和目标语言端词向量;利用对齐的源语言端词向量和目标语言端词向量初始化预先构建的翻译模型;在所述源语言端单语语料和目标语言端单语语料中加入可控的随机噪声;利用带噪声的所述源语言端单语语料和目标语言端单语语料,对初始化后的翻译模型进行迭代训练。

【技术特征摘要】
1.一种翻译模型训练方法,其特征在于,包括:获取大规模的源语言端单语语料和目标语言端单语语料;训练所述源语言端单语语料和目标语言端单语语料,得到源语言端词向量和目标语言端词向量;将所述源语言端词向量和目标语言端词向量映射到同一个向量空间,得到对齐的源语言端词向量和目标语言端词向量;利用对齐的源语言端词向量和目标语言端词向量初始化预先构建的翻译模型;在所述源语言端单语语料和目标语言端单语语料中加入可控的随机噪声;利用带噪声的所述源语言端单语语料和目标语言端单语语料,对初始化后的翻译模型进行迭代训练。2.根据权利要求1所述的方法,其特征在于,训练所述源语言端单语语料和目标语言端单语语料,得到源语言端词向量和目标语言端词向量,包括:分别对所述源语言端单语语料和目标语言端单语语料进行分词处理,得到分词后的词语;对所述分词后的词语进行分割,得到粒度更小的子词;对所述子词进行向量化处理,得到源语言端词向量和目标语言端词向量。3.根据权利要求1所述的方法,其特征在于,将所述源语言端词向量和目标语言端词向量映射到同一个向量空间,得到对齐的源语言端词向量和目标语言端词向量,包括:在源语言端单语语料和目标语言端单语语料中找出共有的词语;根据所述共有的词语构建源语言端词向量和目标语言端词向量的映射关系;根据所述映射关系将源语言端词向量和目标语言端词向量映射到同一个向量空间,得到对齐的源语言端词向量和目标语言端词向量。4.根据权利要求1所述的方法,其特征在于,利用对齐的源语言端词向量和目标语言端词向量初始化预先构建的翻译模型,包括:利用所述对齐的源语言端词向量和目标语言端词向量初始化所述翻译模型的网络结构中预先定义好的词向量表。5.根据权利要求1所述的方法,其特征在于,在所述源语言端单语语料和目标语言端单语语料中加入可控的随机噪声,包括:随机打乱所述源语言端单语语料和目标语言端单语语料中连续出现的多个词语的顺序,在所述源语言端单语语料和目标语言端单语语料中加入乱序噪声。6.根据权利要求1所述的方法,其特征在于,所述翻译模型的网络结构包括源语言编码器、目标语言编码器、源语言解码器和目标语言解码器,利用带噪声的所述源语言端单语语料和目标语言端单语语料,对初始化后的翻译模型进行训练,包括:单语言自编码训练;所述单语言自编码训练包括:源语言编码器和源语言解码器作为一个源语言自编码器;将所述带噪声的源语言端单语语料输入所述源语言自编码器,对所述源语言自编码器中的源语言编码器和源语言解码器进行训练;和/或目标语言编码器和目标语言解码器作为一个目标语言自编码器;将所述带噪声的目标语言端单语语料输入所述目标语言自编码器,对所述目标语言自编码器中的目标语言编码器和目标语言解码器进行训练。7.根据权利要求1所述的方法,其特征在于,所述翻译模型的网络结构包括源语言编码器、目标语言编码器、源语言解码器和目标语言解码器,利用带噪声的所述源语言端单语语料和目标语言端单语语料,对初始化后的翻译模型进行训练,包括:跨语言机器翻译训练;所述跨语言机器翻译训练包括:源语言编码器和目标语言解码器作为源语言到目标语言翻译器;目标语言编码器和源语言解码器作为目标语言到源语言翻译器;将所述源语言端单语语料输入所述源语言到目标语言翻译器得到第一伪双语语料;将所述目标语言端单语语料输入所述目标语言到源语言翻译器得到第二伪双语语料;将所述第一伪双语语料输入所述目标语言到源语言翻译器对所述目标语言到源语言翻译器中的目标语言编码器和源语言解码器进行训练;将所述第二伪双语语料输入所述源语言到目标语言翻译器对所述源语言到目标语言翻译器中的源语言编码器和目标语言解码器...

【专利技术属性】
技术研发人员:王峰
申请(专利权)人:北京紫冬认知科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1