融合句法解析树的汉-越神经机器翻译方法技术

技术编号:22387608 阅读:36 留言:0更新日期:2019-10-29 06:35
本发明专利技术涉及融合句法解析树的汉‑越神经机器翻译方法,属于自然语言处理技术领域。本发明专利技术能够实现汉语‑越南语、越南语‑汉语的机器翻译。通过从互联网爬取和人工翻译的方式构建的汉语‑越南语双语平行语料作为训练数据集。为解决目前汉‑越机器翻译中由于训练语料不足导致的翻译错误;本发明专利技术首先对源语言进行分词、词性标记以及句法解析,得到源语言的句法树。然后将句法标签向量化并融合到机器翻译模型训练的编码过程,训练机器翻译模型。所得模型可以有效完成汉语和越南语之间的翻译。实验结果表明,相比未融合句法解析树的基准系统该方法得到的译文更加流畅,并获得了0.6个BLEU值的提升。

Chinese Vietnamese neural machine translation based on parsing tree

【技术实现步骤摘要】
融合句法解析树的汉-越神经机器翻译方法
本专利技术涉及融合句法解析树的汉-越神经机器翻译方法,属于自然语言处理

技术介绍
机器翻译是利用计算机自动将一种语言转化成另一种语言的过程,属于自然语言处理领域的热点和难点问题。目前存在的机器翻译技术主要有两种:统计机器翻译和神经机器翻译。统计机器翻译是通过对大量的平行语料进行统计分析,从而构建翻译模型。近年来随着深度学习技术的兴起,采用基于深度学习的神经机器翻译方法得到的机器翻译模型性能显著提高。神经机器翻译是Sutskever等人在2014年提出的一种机器翻译方法,采用编码器-解码器的模型架构。首先利用双语平行语料,分别生成源语言与目标语言的词表,根据双语词表生成双语数据的向量化表示。通过编码器将代表源语言的向量编码成隐藏向量表示,再利用解码器将该隐藏向量信息解码还原成目标语言,通过不断训练神经网络最终得到源语言映射到目标语言的翻译模型。现有的神经机器翻译模型构建过程中需要使用大规模的双语平行语料进行训练,从而使模型充分学习不同语言之间的对齐关系。在语料资源丰富的语言对上,该方法能够取得很好的效果。越南语属于典型的资源稀缺型语言,构建一定规模的汉语-越南语双语平行语料十分困难,目前汉-越机器翻译的效果并不理想。考虑到现有神经机器翻译方法未能有效利用源语言的句法结构信息,得到的译文不符合目标语言的语法规则,本专利技术提出并实现了一种融合句法解析树的汉-越神经机器翻译方法。
技术实现思路
本专利技术提供了融合句法解析树的汉-越神经机器翻译方法,以用于解决双语平行语料不足所导致的汉-越神经机器翻译模型性能不佳的问题。本专利技术的技术方案是:融合句法解析树的汉-越神经机器翻译方法,该方法将传统自然语言处理任务中词法、句法解析方法与深度学习技术相结合。利用网络爬虫和人工标注的方法构建一定规模的汉语-越南语双语平行语料库。然后利用汉语-越南语双语平行语料训练神经机器翻译模型。在神经机器翻译模型构建过程中,首先对源语言进行句法解析,得到源语言的句法解析树,然后利用深度优先遍历,获得源语言句子中每个单词对应的句法标签序列并将句法标签序列转化成向量的表征方式。在神经网络的编码器端,将以上得到的标签序列向量与源语言词嵌入向量及位置嵌入向量拼接,作为训练神经网络的输入。本方法中模型编码器采用了多层卷积神经网络,解码器采用LSTM网络。以上将源语言的词法、句法信息通过向量化表征有效融入到神经机器翻译模型中,使神经机器翻译模型在训练过程中能够学习得到源语言的语法结构信息,得到融合句法解析树的神经机器翻译模型。采用深度学习框架Tensorflow开发神经机器翻译模型的解码引擎。本专利技术所述方法的具体步骤如下:Step1、汉语-越南语双语平行语料主要采用网络爬虫并结合人工标注的方式进行构建,收集汉语-越南语双语平行语料作为训练语料;Step2、训练语料的预处理:对汉语、越南语的训练语料进行去停用词处理以及使用JIEBA中文分词工具对汉语进行分词,使用基于CRF的越南语分词及词性标记模型对越南语进行分词及词性标记,然后使用MOSES对全部训练数据进行tokenization、lowercase以及clean最终保留长度在80个词以内的句对;Step3、生成句法解析树:利用斯坦福的汉语句法解析模型(ChinesePCFG)对汉语进行句法解析,得到了汉语句法解析树。采用李英等人提出的越南语短语句法解析工具对越南语进行句法解析,得到越南语句法解析树;Step4、获取句法标签序列:对得到的汉语、越南语句法解析树进行深度优先遍历,对于每个叶子都存在从根节点到该叶子节点的一条路径,那么通过对句法解析树根节点到叶子节点的深度优先遍历,得到句子中每个单词的句法标签序列;Step5、对步骤Step4得到的汉语、越南语进行向量化的表示,采用数字为每种句法标签定义特征编码,然后根据定义的特征编码对每个单词对应的句法标签序列进行向量化表示;作为本专利技术的进一步方案,所述步骤Step5中,根据句法标签序列生成句法标签向量的具体步骤如下:(1)为每种句法标签定义唯一的数字表示作为标签的特征编码;(2)根据定义的标签特征编码将每个单词对应的句法标签序列表示为向量形式;(3)将所有句法标签序列向量转化为64维的向量表征,采用自左向右的填充方式,空白处用0表示。Step6、将步骤Step5得到的句法标签向量与源语言词嵌入向量、位置嵌入向量拼接作为编码器的输入,训练汉语-越南语神经机器翻译模型,并采用BLEU值评估模型的性能;通过步骤Step5的方法获得每个单词对应的句法标签序列。对于输入序列中各单词对应的句法标签序列s=(s1,s2,…,sm)利用GLU方法进行嵌入,其中si∈Rd,计算方法如公式2所示。在基准模型中,采用向量加法将词向量与位置向量相加作为模型的输入,考虑到不同位置向量与词向量相加之后的结果可能相同会影响模型的性能,因此在编码端将源语言词嵌入向量、位置嵌入向量及句法标签向量进行拼接,然后采用全连接网络对拼接后的向量进行压缩作为编码器的输入,输入向量I表示方法如公式3所示。I=[(e1+p1+s1),…,(em+pm+sm)](3)将以上得到的向量I作为神经机器翻译模型编码器的输入,训练神经机器翻译模型。神经机器翻译模型的编码器与解码器的嵌入维度设置为768维。编码器设置为15层的卷积神经网络,解码器采用LSTM网络。编码器中前9层的隐含单元数为512个,后6层的隐含单元数为1024个,批次大小为64。Step7、重复循环步骤Step2-Step5,对输入文本进行预处理,得到输入的词向量序列与句法标签向量序列;Step8、将步骤Step6得到的汉语-越南语神经机器翻译模型载入神经机器翻译解码引擎,将步骤Step7得到的输入的词向量与句法标签向量拼接并输入神经机器翻译解码引擎,输出解码得到的译文。本专利技术的有益效果是:1、本专利技术将源语言的句法信息融入到神经机器翻译模型中,以常规的神经机器翻译模型为基础,对汉语、越南语进行句法解析,得到句法解析树。然后将句法解析树转换为向量化的表示,并将源语言的词嵌入向量与句法向量拼接作为神经机器翻译模型的输入训练翻译模型。实验结果证明该方法比未融入句法解析树的翻译模型相比获得了0.6个BLEU值的提升,译文在流畅度和准确率方面均得到了改善,充分证明了该方法的有效性。2、本专利技术能够实现汉语-越南语、越南语-汉语的机器翻译,在汉-越机器翻译中具有较高的鲁棒性和泛化能力,对构成相对复杂的句子,能够较为准确地翻译。另外,能够根据需求快速实现模型在不同领域之间的迁移与二次开发。使得该技术能够快速在不同应用场景中实现产品化。附图说明图1为本专利技术中的流程框图;图2为本专利技术的汉语句法解析树示例图;图3为本专利技术的句法标签序列生成图示例图;图4为本专利技术的句法标签向量化示例图。具体实施方式实施例1:如图1-4所示,融合句法解析树的汉-越神经机器翻译方法,所述方法的具体步骤如下:模型构建过程:Step1、通过互联网爬取、人工翻译等方式收集得到的146K平行句对,从中随机抽取144K的平行语料作为训练集和开发集训练翻译模型,2K的平行语料作为测试集,用于评估实验结果;Step2、训练语料的预处理:首先利用本文档来自技高网...

【技术保护点】
1.融合句法解析树的汉‑越神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、收集汉语‑越南语双语平行语料作为训练语料;Step2、训练语料的预处理:对汉语、越南语的训练语料进行去停用词、分词及词性标记;Step3、利用句法解析工具对经过预处理的训练语料进行句法解析,得到汉语、越南语的句法解析树;Step4、对得到的汉语、越南语句法解析树进行深度优先遍历,获得每个单词对应的句法标签序列;Step5、对步骤Step4得到的汉语、越南语进行向量化的表示,采用数字为每种句法标签定义特征编码,然后根据定义的特征编码对每个单词对应的句法标签序列进行向量化表示;Step6、将步骤Step5得到的句法标签向量与源语言词嵌入向量、位置嵌入向量拼接作为编码器的输入,训练汉语‑越南语神经机器翻译模型,并采用BLEU值评估模型的性能;Step7、重复循环步骤Step2‑Step5,对输入文本进行预处理,得到输入的词向量序列、位置嵌入向量与句法标签向量序列;Step8、将步骤Step6得到的汉语‑越南语神经机器翻译模型载入神经机器翻译解码引擎,将步骤Step7得到的输入的词向量、位置嵌入向量与句法标签向量拼接并输入神经机器翻译解码引擎,输出解码得到的译文。...

【技术特征摘要】
1.融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、收集汉语-越南语双语平行语料作为训练语料;Step2、训练语料的预处理:对汉语、越南语的训练语料进行去停用词、分词及词性标记;Step3、利用句法解析工具对经过预处理的训练语料进行句法解析,得到汉语、越南语的句法解析树;Step4、对得到的汉语、越南语句法解析树进行深度优先遍历,获得每个单词对应的句法标签序列;Step5、对步骤Step4得到的汉语、越南语进行向量化的表示,采用数字为每种句法标签定义特征编码,然后根据定义的特征编码对每个单词对应的句法标签序列进行向量化表示;Step6、将步骤Step5得到的句法标签向量与源语言词嵌入向量、位置嵌入向量拼接作为编码器的输入,训练汉语-越南语神经机器翻译模型,并采用BLEU值评估模型的性能;Step7、重复循环步骤Step2-Step5,对输入文本进行预处理,得到输入的词向量序列、位置嵌入向量与句法标签向量序列;Step8、将步骤Step6得到的汉语-越南语神经机器翻译模型载入神经机器翻译解码引擎,将步骤Step7得到的输入的词向量、位置嵌入向量与句法标签向量拼接并输入神经机器翻译解码引擎,输出解码得到的译文。2.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step2中,对越南语训练语料进行分词及词性标记时采用了基于CRF的越南语分词及词性标记模型对越南语进行分词及词性标记。3.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step4中,获取句法标签序列时,通过对句法解析树根节点到叶子节点的深度优先遍历,得到句子中每个单词...

【专利技术属性】
技术研发人员:余正涛王振晗高盛祥何健雅琳文永华
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1