融合句法解析树的汉-越神经机器翻译方法技术

技术编号：22387608 阅读：36 留言：0更新日期：2019-10-29 06:35

本发明专利技术涉及融合句法解析树的汉‑越神经机器翻译方法，属于自然语言处理技术领域。本发明专利技术能够实现汉语‑越南语、越南语‑汉语的机器翻译。通过从互联网爬取和人工翻译的方式构建的汉语‑越南语双语平行语料作为训练数据集。为解决目前汉‑越机器翻译中由于训练语料不足导致的翻译错误；本发明专利技术首先对源语言进行分词、词性标记以及句法解析，得到源语言的句法树。然后将句法标签向量化并融合到机器翻译模型训练的编码过程，训练机器翻译模型。所得模型可以有效完成汉语和越南语之间的翻译。实验结果表明，相比未融合句法解析树的基准系统该方法得到的译文更加流畅，并获得了0.6个BLEU值的提升。

Chinese Vietnamese neural machine translation based on parsing tree

全部详细技术资料下载

【技术实现步骤摘要】
融合句法解析树的汉-越神经机器翻译方法
本专利技术涉及融合句法解析树的汉-越神经机器翻译方法，属于自然语言处理

技术介绍
机器翻译是利用计算机自动将一种语言转化成另一种语言的过程，属于自然语言处理领域的热点和难点问题。目前存在的机器翻译技术主要有两种：统计机器翻译和神经机器翻译。统计机器翻译是通过对大量的平行语料进行统计分析，从而构建翻译模型。近年来随着深度学习技术的兴起，采用基于深度学习的神经机器翻译方法得到的机器翻译模型性能显著提高。神经机器翻译是Sutskever等人在2014年提出的一种机器翻译方法，采用编码器-解码器的模型架构。首先利用双语平行语料，分别生成源语言与目标语言的词表，根据双语词表生成双语数据的向量化表示。通过编码器将代表源语言的向量编码成隐藏向量表示，再利用解码器将该隐藏向量信息解码还原成目标语言，通过不断训练神经网络最终得到源语言映射到目标语言的翻译模型。现有的神经机器翻译模型构建过程中需要使用大规模的双语平行语料进行训练，从而使模型充分学习不同语言之间的对齐关系。在语料资源丰富的语言对上，该方法能够取得很好的效果。越南语属于典型的资源稀缺型语言，构建一定规模的汉语-越南语双语平行语料十分困难，目前汉-越机器翻译的效果并不理想。考虑到现有神经机器翻译方法未能有效利用源语言的句法结构信息，得到的译文不符合目标语言的语法规则，本专利技术提出并实现了一种融合句法解析树的汉-越神经机器翻译方法。
技术实现思路
本专利技术提供了融合句法解析树的汉-越神经机器翻译方法，以用于解决双语平行语料不足所导致的汉-越神经机器翻译模型性能不佳的问...

【技术保护点】
1.融合句法解析树的汉‑越神经机器翻译方法，其特征在于：所述方法的具体步骤如下：Step1、收集汉语‑越南语双语平行语料作为训练语料；Step2、训练语料的预处理：对汉语、越南语的训练语料进行去停用词、分词及词性标记；Step3、利用句法解析工具对经过预处理的训练语料进行句法解析，得到汉语、越南语的句法解析树；Step4、对得到的汉语、越南语句法解析树进行深度优先遍历，获得每个单词对应的句法标签序列；Step5、对步骤Step4得到的汉语、越南语进行向量化的表示，采用数字为每种句法标签定义特征编码，然后根据定义的特征编码对每个单词对应的句法标签序列进行向量化表示；Step6、将步骤Step5得到的句法标签向量与源语言词嵌入向量、位置嵌入向量拼接作为编码器的输入，训练汉语‑越南语神经机器翻译模型，并采用BLEU值评估模型的性能；Step7、重复循环步骤Step2‑Step5，对输入文本进行预处理，得到输入的词向量序列、位置嵌入向量与句法标签向量序列；Step8、将步骤Step6得到的汉语‑越南语神经机器翻译模型载入神经机器翻译解码引擎，将步骤Step7得到的输入的词向量、位置嵌入向量与句...

【技术特征摘要】
1.融合句法解析树的汉-越神经机器翻译方法，其特征在于：所述方法的具体步骤如下：Step1、收集汉语-越南语双语平行语料作为训练语料；Step2、训练语料的预处理：对汉语、越南语的训练语料进行去停用词、分词及词性标记；Step3、利用句法解析工具对经过预处理的训练语料进行句法解析，得到汉语、越南语的句法解析树；Step4、对得到的汉语、越南语句法解析树进行深度优先遍历，获得每个单词对应的句法标签序列；Step5、对步骤Step4得到的汉语、越南语进行向量化的表示，采用数字为每种句法标签定义特征编码，然后根据定义的特征编码对每个单词对应的句法标签序列进行向量化表示；Step6、将步骤Step5得到的句法标签向量与源语言词嵌入向量、位置嵌入向量拼接作为编码器的输入，训练汉语-越南语神经机器翻译模型，并采用BLEU值评估模型的性能；Step7、重复循环步骤Step2-Step5，对输入文本进行预处理，得到输入的词向量序列、位置嵌入向量与句法标签向量序列；Step8、将步骤Step6得到的汉语-越南语神经机器翻译模型载入神经机器翻译解码引擎，将步骤Step7得到的输入的词向量、位置嵌入向量与句法标签向量拼接并输入神经机器翻译解码引擎，输出解码得到的译文。2.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法，其特征在于：所述步骤Step2中，对越南语训练语料进行分词及词性标记时采用了基于CRF的越南语分词及词性标记模型对越南语进行分词及词性标记。3.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法，其特征在于：所述步骤Step4中，获取句法标签序列时，通过对句法解析树根节点到叶子节点的深度优先遍历，得到句子中每个单词...

【专利技术属性】
技术研发人员：余正涛，王振晗，高盛祥，何健雅琳，文永华，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人