一种基于迁移学习策略的蒙汉神经机器翻译方法技术

技术编号：19479963 阅读：19 留言：0更新日期：2018-11-17 10:31

本发明专利技术是为解决目前蒙汉机器翻译译文质量低、翻译效果差问题提出的。蒙古语属于低资源语言，收集大量的蒙汉平行双语语料库极为困难，本发明专利技术中迁移学习策略可以有效的解决这一难题。迁移学习策略是运用已有的知识对不同但是相关领域问题进行求解的方法。首先，利用大规模的英‑汉平行语料基于神经机器翻译框架进行训练；其次，将大规模的英‑汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中，利用现有的蒙‑汉平行语料训练神经机器翻译模型；最后，将基于迁移学习策略的神经机器翻译译文和统计机器翻译译文就BLEU值和译文流利度进行对比和评价。通过运用控制变量法，得出迁移学习策略有效提高了蒙汉机器翻译性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于迁移学习策略的蒙汉神经机器翻译方法
本专利技术属于神经机器翻译
，特别涉及一种基于迁移学习策略的蒙汉神经机器翻译方法。
技术介绍
机器翻译指使用机器(计算机)自动地将一种自然语言转化为具有完全相同含义的另一种自然语言的过程。近几年随着国际间交流的日趋频繁，机器翻译作为突破语言障碍的重要手段，在人们的生产、生活中发挥着越来越大的作用。神经机器翻译作为数据驱动方法的机器翻译中的一种，高度依赖平行语料数据结构的规模、质量。由于神经网络参数规模庞大，只有当训练语料库具有一定的规模后，神经机器翻译才会显著超过统计机器翻译译文质量。然而，目前可用于实验的蒙汉平行语料资源十分有限，收集大量蒙汉双语平行语料库需要耗费大量的人力、物力极为困难。蒙古语机器翻译研究起步较晚以及蒙古语语法本身复杂性使得蒙汉机器翻译研究进展相对缓慢，其中，蒙汉平行语料数据集匮乏是阻碍蒙汉机器翻译研究的一个不容忽视的大问题。而迁移学习的核心思想是把训练源任务获取的知识存储下来，应用于新的(不同，但相近任务)任务中。迁移学习策略允许借用大量已有的标记数据来训练网络将其知识迁移到标记数据较少的模型中。目前，已有一些神经机器翻译技术针对低资源语言存在平行语料库匮乏问题被提出。由于蒙-汉平行语料匮乏以及蒙古语语法本身复杂性使得翻译译文质量并不理想，翻译过程仍存在严重的数据稀疏现象。迁移学习策略将已学习到的知识应用到相近任务上，减少应用任务的训练数据量，为达到通用人工智能提供了可能性。相比从头训练神经网络迁移学习策略可以实现将已经训练好的网络结构的参数权重作为预训练，从而加快翻译模型训练进展以及...

【技术保护点】
1.一种基于迁移学习策略的蒙汉神经机器翻译方法，其特征在于，首先，利用大规模的英汉平行语料进行英汉神经机器翻译模型训练；其次，将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型中；然后，利用现有蒙汉平行语料进行蒙汉神经机器翻译模型训练，得到基于迁移学习策略的蒙汉神经机器翻译模型；最后，利用训练得到的蒙汉神经机器翻译模型实现蒙汉神经机器翻译。

【技术特征摘要】
1.一种基于迁移学习策略的蒙汉神经机器翻译方法，其特征在于，首先，利用大规模的英汉平行语料进行英汉神经机器翻译模型训练；其次，将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型中；然后，利用现有蒙汉平行语料进行蒙汉神经机器翻译模型训练，得到基于迁移学习策略的蒙汉神经机器翻译模型；最后，利用训练得到的蒙汉神经机器翻译模型实现蒙汉神经机器翻译。2.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法，其特征在于，在进行模型训练前，对英汉平行语料和蒙汉平行语料库资源进行数据预处理。3.根据权利要求2所述基于迁移学习策略的蒙汉神经机器翻译方法，其特征在于，所述数据预处理以斯坦福大学自然语言实验室开源软件为工具，包括：1)利用分词工具stanford-segmenter对中文语料进行分词操作；2)利用英文预处理工具stanford-ner对英文语料进行预处理操作英语语料进行预处理操作以及汉语语料分词处理；所述预处理基于条件随机场(CRF)模型，CRF模型定义为G＝(V,E)，是一个无向图，V是节点集合，是随机变量Y的集合，Y＝{Yi|1≤i≤m}，E为无向边集合，对于输入一个句子的m个需要标记单元，E＝{Yi-1,Yi|1≤i≤m}，是m-1个边构成的线性链；给定一个需要标记的序列a，其对应的标记序列b的条件概率公式为：其中，ii是序列的下标，Z(a)为归一化函数，λk和λιk是模型的参数，k的含义是每条边和相应结点的特征数量，fk和fιk是一个二值特征函数。4.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法，其特征在于，所述神经机器翻译模型公式为：其中，是模型的参数，是非线性函数，yn是当前目标语言词，x是源语言句子，y<n是已经生成的目标语言句子，Vy是目标语言词向量，D是目标语言词汇表，Cs是源语言上下文向量，Ct目标语言上下文向量。5.根据权利要求1所述基于迁移学习策略的蒙汉神经机器翻译方法，其特征在于，所述神经机器翻译模型的网络类型是RNN循环神经网络，RNN循环...

【专利技术属性】
技术研发人员：苏依拉，赵亚平，牛向华，
申请(专利权)人：内蒙古工业大学，
类型：发明
国别省市：内蒙古,15

全部详细技术资料下载我是这个专利的主人