当前位置: 首页 > 专利查询>苏州大学专利>正文

面向神经机器翻译的长句切分方法及装置制造方法及图纸

技术编号:13625211 阅读:267 留言:0更新日期:2016-09-01 18:43
本申请提供了一种面向神经机器翻译的长句切分方法,在使用NMT模型进行语句翻译前,并非直接将源语句输入NMT模型中,而是将语句切分为较短的子句,将各个子句依次输入NMT模型,以使NMT模型分别依次翻译各个切分后的子句,然后,直接将翻译后的子句拼接为完整子句。由于输入NMT模型翻译的子句较短,NMT模型的翻译准确率较高,从而提高了语句翻译的准确率。另外,本申请还提供了一种面向神经机器翻译的长句切分装置,用以保证所述方法在实际中的应用及实现。

【技术实现步骤摘要】

本申请涉及语言翻译
,更具体地,涉及面向神经机器翻译的长句切分技术。
技术介绍
目前,基于深度学习的Neural Machine Translation(神经机器翻译,可简称为NMT)越来越受到人们的关注。在NMT领域中,常见的一种NMT模型为基于encoder-decoder结构的模型。NMT模型主要是将某种语言的语句(以下可称为源语句)翻译为另一种语言的语句(以下可称为目标语句)。以中英翻译为例,基于encoder-decoder结构的模型主要是将源语句经过编码器的编码后,获得编码向量,然后利用解码器对该编码向量进行解码,从而翻译成对应的英语语句。事实上,这种基于encoder-decoder结构的模型的翻译方式运用了深度学习的核心思想,同样的,encoder-decoder结构也体现了NMT技术的基本原理。虽然,基于encoder-decoder结构的NMT模型能够取得很好的翻译效果,但是,当源语句过长时,其翻译效果会有所下降。特别地,随着源语句的长度增加,其翻译效果在一定程度上会越来越差。
技术实现思路
有鉴于此,本申请提供了一种面向神经机器翻译的长句切分方法,用以提高NMT模型的翻译精准度。另外,本申请还提供了一种面向神经机器翻译的长句切分装置,用以保证所述方法在实际中的应用及实现。为实现所述目的,本申请提供的技术方案如下:本申请提供了一种面向神经机器翻译的长句切分方法,包括:在获得待翻译的源语句后,确定所述源语句的长度;在所述长度大于预设长度的情况下,利用预先构建的切分模型对所述源语句进行切分,获得多个源子句;其中,各个所述源子句之间具有先后顺序;将每个所述源子句输入至预先训练好的神经机器翻译NMT模型中进行翻译,获得每个所述源子句所对应的目标子句;按照各个所述源子句的先后顺序,拼接所述源子句所对应的目标子句,获得所述源语句的目标语句。可选地,上述的面向神经机器翻译的长句切分方法中,所述利用预先构建的切分模型对所述源语句进行切分,获得多个源子句,包括:将所述源语句作为待切分源语句;将所述待切分源语句输入至预先构建的切分模型中,获得所述待切分源语句中每个词单元所对应的切分概率;依据所述切分概率,在多个所述词单元中选取目标词单元作为切分点;将所述待切分源语句中所述切分点之后的语句作为新的待切分源语句,返回将所述新的待切分源语句输入至预先构建的切分模型中,直至所述新的待切分源语句的长度小于预设的最小子句长度;所述新的待切分源语句的长度小于预设的最小子句长度时,根据选取的各个所述切分点,在所述源语句中切分出源子句。可选地,上述切分模型包括分割子模型、调序子模型及长度子模型;相应地,将所述待切分源语句输入至预先构建的切分模型中,获得所述待切分源语句中每个词单元所对应的切分概率,包括:将所述待切分源语句中的词单元输入至所述分割子模型,获得所述词单元的可分割概率;将所述待切分源语句中的词单元输入至所述调序子模型,获得所述词单元对应的子句与上一子句的不需要调序概率;其中,所述上一子句为所述待切分源语句的前一源子句;将所述待切分源语句中词单元对应的子句的长度输入至所述长度子模型,获得所述词单元对应的子句的长度满意概率;将所述可分割概率、所述不需要调序概率及所述长度满意概率三者的乘积作为词单元的切分概率。可选地,上述分割子模型的构建步骤包括:使用预设平行语料集中源语料与目标语料的对齐信息,对所述源语料中的词单元进行标记;其中,所述标记用于表示所述源语料在所述词单元处是否可分割;在标记后的所述源语料中,提取所述词单元的分割特征;其中,所述分割特征包含标记为可分割的词单元;使用最大熵训练工具,对所述分割特征进行训练,获得分割子模型。可选地,上述调序子模型的构建步骤包括:根据预设调序算法,在预设平行语料集的源语料中,抽取调序元组;其中,所述调序元组中包含第一源语料子句、第二源语料子句、及所述第一源语料子句翻译后的目标子句与第二源语料子句翻译后的目标子句是否需要调序;在所述调序元组中,抽取调序特征;使用最大熵训练工具,对所述调序特征进行训练,获得调序子模型。可选地,上述长度子模型的构建步骤包括:根据预设的子句长度均值与方差,构建正态概率分布模型。可选地,上述依据所述切分概率,在多个所述词单元中选取目标词单元作为切分点,包括:利用集束搜索beamsearch算法,计算每个所述词单元的切分概率的综合成绩,并在所述词单元中,选取综合成绩在前的多个目标词单元作为切分点;其中,不同的目标词单元作为不同切分序列中的切分点,切分序列包括切分点及从该切分点的新的待切分源语句中选取的切分点;相应地,所述新的待切分源语句的长度小于预设的最小子句长度时,根据选取的各个所述切分点,在所述源语句中切分出源子句,包括:所有切分点的新的待切分源语句的长度小于最小预设子句长度时,依据预设选取规则,在各个所述切分序列中,选取目标切分序列;根据所述目标切分序列中的各个切分点,在所述源语句中切分出源子句。可选地,上述依据所述切分概率,在多个所述词单元中选取目标词单元作为切分点,包括:在多个所述词单元中,选取最高的切分概率所对应的词单元作为切分点。另外,本申请还提供了一种面向神经机器翻译的长句切分装置,包括:源语句长度确定模块,用于在获得待翻译的源语句后,确定所述源语句的长度;源语句切分模块,用于在所述长度大于预设长度的情况下,利用预先构建的切分模型对所述源语句进行切分,获得多个源子句;其中,各个所述源子句之间具有先后顺序;源子句翻译模块,用于将每个所述源子句输入至预先训练好的神经机器翻译NMT模型中进行翻译,获得每个所述源子句所对应的目标子句;翻译子句拼接模块,用于按照各个所述源子句的先后顺序,拼接所述源子句所对应的目标子句,获得所述源语句的目标语句。可选地,上述源语句切分模块包括:待切分源语句获得子模块,用于将所述源语句作为待切分源语句;切分概率获得子模块,用于将所述待切分源语句输入至预先构建的切分模型中,获得所述待切分源语句中每个词单元所对应的切分概率;切分点选取子模块,用于依据所述切分概率,在多个所述词单元中选取目标词单元作为切分点;待切分源语句重新确定子模块,用于将所述待切分源语句中所述切分点之后的语句作为新的待切分源语句,返回将所述新的待切分源语句输入至预先构建的切分模型中,直至所述新的待切分源语句的长度小于预设的最小子句长度;源语句切分子模块,用于所述新的待切分源语句的长度小于预设的最小子句长度时,根据选取的各个所述切分点,在所述源语句中切分出源子句。可选地,上述切分模型包括分割子模型、调序子模型及长度子模型;相应地,所述切分概率获得子模块包括:可分割概率获得单元,用于将所述待切分源语句中的词单元输入至所述分割子模型,获得所述词单元的可分割概率;不需要调序概率获得单元,用于将所述待切分源语句中的词单元输入至所述调序子模型,获得所述词单元对应的子句与上一子句的不需要调序概率;其中,所述上一子句为所述待切分源语句的前一源子句;长度满意概率获得单元,用于将所述待切分源语句中词单元对应的子句的长度输入至所述长度子模型,获得所述词单元对应的子句的长度满意概率;切分概率获得单元,用于将所述可分割概率、所述不需要调序概率及所述长度满意概率本文档来自技高网...

【技术保护点】
一种面向神经机器翻译的长句切分方法,其特征在于,包括:在获得待翻译的源语句后,确定所述源语句的长度;在所述长度大于预设长度的情况下,利用预先构建的切分模型对所述源语句进行切分,获得多个源子句;其中,各个所述源子句之间具有先后顺序;将每个所述源子句输入至预先训练好的神经机器翻译NMT模型中进行翻译,获得每个所述源子句所对应的目标子句;按照各个所述源子句的先后顺序,拼接所述源子句所对应的目标子句,获得所述源语句的目标语句。

【技术特征摘要】
1.一种面向神经机器翻译的长句切分方法,其特征在于,包括:在获得待翻译的源语句后,确定所述源语句的长度;在所述长度大于预设长度的情况下,利用预先构建的切分模型对所述源语句进行切分,获得多个源子句;其中,各个所述源子句之间具有先后顺序;将每个所述源子句输入至预先训练好的神经机器翻译NMT模型中进行翻译,获得每个所述源子句所对应的目标子句;按照各个所述源子句的先后顺序,拼接所述源子句所对应的目标子句,获得所述源语句的目标语句。2.根据权利要求1所述的面向神经机器翻译的长句切分方法,其特征在于,所述利用预先构建的切分模型对所述源语句进行切分,获得多个源子句,包括:将所述源语句作为待切分源语句;将所述待切分源语句输入至预先构建的切分模型中,获得所述待切分源语句中每个词单元所对应的切分概率;依据所述切分概率,在多个所述词单元中选取目标词单元作为切分点;将所述待切分源语句中所述切分点之后的语句作为新的待切分源语句,返回将所述新的待切分源语句输入至预先构建的切分模型中,直至所述新的待切分源语句的长度小于预设的最小子句长度;所述新的待切分源语句的长度小于预设的最小子句长度时,根据选取的各个所述切分点,在所述源语句中切分出源子句。3.根据权利要求2所述的面向神经机器翻译的长句切分方法,其特征在于,所述切分模型包括分割子模型、调序子模型及长度子模型;相应地,将所述待切分源语句输入至预先构建的切分模型中,获得所述待切分源语句中每个词单元所对应的切分概率,包括:将所述待切分源语句中的词单元输入至所述分割子模型,获得所述词单元的可分割概率;将所述待切分源语句中的词单元输入至所述调序子模型,获得所述词单元对应的子句与上一子句的不需要调序概率;其中,所述上一子句为所述待切分源语句的前一源子句;将所述待切分源语句中词单元对应的子句的长度输入至所述长度子模型,获得所述词单元对应的子句的长度满意概率;将所述可分割概率、所述不需要调序概率及所述长度满意概率三者的乘积作为词单元的切分概率。4.根据权利要求3所述的面向神经机器翻译的长句切分方法,其特征在于,所述分割子模型的构建步骤包括:使用预设平行语料集中源语料与目标语料的对齐信息,对所述源语料中的词单元进行标记;其中,所述标记用于表示所述源语料在所述词单元处是否可分割;在标记后的所述源语料中,提取所述词单元的分割特征;其中,所述分割特征包含标记为可分割的词单元;使用最大熵训练工具,对所述分割特征进行训练,获得分割子模型。5.根据权利要求3所述的面向神经机器翻译的长句切分方法,其特征在于,所述调序子模型的构建步骤包括:根据预设调序算法,在预设平行语料集的源语料中,抽取调序元组;其中,所述调序元组中包含第一源语料子句、第二源语料子句、及所述第一源语料子句翻译后的目标子句与第二源语料子句翻译后的目标子句是否需要调序;在所述调序元组中,抽取调序特征;使用最大熵训练工具,对所述调序特征进行训练,获得调序子模型。6.根据权利要求3所述的面向神经机器翻译的长句切分方法,其特征在于,所述长度子模型的构建步骤包括:根据预设的子句长度均值与方差,构建正态概率分布模型。7.根据权利要求2所述的面向神经机器翻译的长句切分方法,其特征在于,所述依据所述切分概率,在多个所述词单元中选取目标词单元作为切分点,包括:利用集束搜索beamsearch算法,计算每个所述词单元的切分概率的综合成绩,并在所述词单元中,选取综合成绩在前的多个目标词单元作为切分点;其中,不同的目标词单元作为不同切分序列中的切分点,切分序列包括切分点及从该切分点的新的待切分源语句中选取的切分点;相应地,所述新的待切分源语句的长度小于预设的最小子句长度时,根据选取的各个所述切分点,在所述源语句中切分出源子句,包括:所有切分点的新的待切分源语句的长度小于最小预设子句长度时,依据预设选取规则,在各个所述切分序列中,选取目标切分序列;根据所述目标切分序列中的各个切分点,在所述源语句中切分出源子句。8.根据权利要求2所述的面向神经机器翻译的长句切分方法,其特征在于,所述依据所述切分概率,在多个所述词单元中选取目标词单元作为切分点,包括:在多个所述词单元中,选取最高的切分概率所对应的词单元作为切分点。9.一种面向神经机器翻译的长句切分装置,其特征在于,包括:源语句长度确定模块,用于在获得待翻译的源语句后,确定所述源语句的长度;源语句切分模块,用于在所述长度大于预设长度的情况下,利用预先构建的切分模型对所述源语句进行切分,获得多个源子句;其中,各个所述源子句之间具有先...

【专利技术属性】
技术研发人员:熊德意邝少辉
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1