当前位置: 首页 > 专利查询>厦门大学专利>正文

基于译文树结构解码路径动态选择的机器翻译方法技术

技术编号:31699384 阅读:27 留言:0更新日期:2022-01-01 11:00
本发明专利技术公开了一种基于译文树结构解码路径动态选择的机器翻译方法和介质,其中方法包括:获取人工标注的机器翻译数据;对目标语言句子进行解析,以得到该目标语言句子对应的目标语言成分句法树,并根据源语言句子和对应的目标语言成分句法树生成训练数据;进行模型的训练,以生成基于译文树结构解码路径动态选择的机器翻译模型;获取待翻译源语言句子,并将待翻译源语言句子输入到基于译文树结构解码路径动态选择的机器翻译模型,以通过基于译文树结构解码路径动态选择的机器翻译模型生成对应的目标语言成分句法树和目标语言句子;能够有效提高机器翻译过程中成分句法树的生成效率,提高机器翻译准确率。提高机器翻译准确率。提高机器翻译准确率。

【技术实现步骤摘要】
基于译文树结构解码路径动态选择的机器翻译方法


[0001]本专利技术涉及机器翻译
,特别涉及一种基于译文树结构解码路径动态选择的机器翻译方法和一种计算机可读存储介质。

技术介绍

[0002]相关技术中,在进行机器翻译的过程中,多采用序列到序列的翻译模型进行;在通过这种翻译性进行机器翻译的过程中,多按照从上到下、从左到右的方式生成成分句法树;而这种方式容易导致生成效率低下,准确率较低。

技术实现思路

[0003]本专利技术旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于译文树结构解码路径动态选择的机器翻译方法,能够有效提高机器翻译过程中成分句法树的生成效率,提高机器翻译准确率。
[0004]本专利技术的第二个目的在于提出一种计算机可读存储介质。
[0005]为达到上述目的,本专利技术第一方面实施例提出了一种基于译文树结构解码路径动态选择的机器翻译方法,包括以下步骤:获取人工标注的机器翻译数据,其中,所述人工标注的机器翻译数据包括源语言句子和对应的目标语言句子,所述源语言句子和对应的目标语言句子形成平行句对;通过目标语言句子对应的解析器对所述目标语言句子进行解析,以得到该目标语言句子对应的目标语言成分句法树,并根据所述源语言句子和对应的目标语言成分句法树生成训练数据;根据所述训练数据进行模型的训练,以生成基于译文树结构解码路径动态选择的机器翻译模型,其中所述基于译文树结构解码路径动态选择的机器翻译模型包括编码器、解码器和分支选择器;获取待翻译源语言句子,并将所述待翻译源语言句子输入到所述基于译文树结构解码路径动态选择的机器翻译模型,以通过所述基于译文树结构解码路径动态选择的机器翻译模型生成对应的目标语言成分句法树和目标语言句子。
[0006]根据本专利技术实施例的基于译文树结构解码路径动态选择的机器翻译方法,首先,获取人工标注的机器翻译数据,其中,所述人工标注的机器翻译数据包括源语言句子和对应的目标语言句子,所述源语言句子和对应的目标语言句子形成平行句对;接着,通过目标语言句子对应的解析器对所述目标语言句子进行解析,以得到该目标语言句子对应的目标语言成分句法树,并根据所述源语言句子和对应的目标语言成分句法树生成训练数据;然后,根据所述训练数据进行模型的训练,以生成基于译文树结构解码路径动态选择的机器翻译模型,其中所述基于译文树结构解码路径动态选择的机器翻译模型包括编码器、解码器和分支选择器;接着,获取待翻译源语言句子,并将所述待翻译源语言句子输入到所述基于译文树结构解码路径动态选择的机器翻译模型,以通过所述基于译文树结构解码路径动态选择的机器翻译模型生成对应的目标语言成分句法树和目标语言句子;从而实现有效提高机器翻译过程中成分句法树的生成效率,提高机器翻译准确率。
[0007]另外,根据本专利技术上述实施例提出的基于译文树结构解码路径动态选择的机器翻译方法还可以具有如下附加的技术特征:
[0008]可选地,在获取人工标注的机器翻译数据之后,还包括:对所述平行句对进行预处理,其中,所述预处理包括符号标准化、大小写统一和分词。
[0009]可选地,根据所述训练数据进行模型的训练,包括:使用随机分支顺序下的序列数据对模型进行预训练;使用强化学习的方式对所述分支选择器进行训练。
[0010]可选地,在使用强化学习的方式对所述分支选择器进行训练的过程中,通过分支选择器预测分支的数量,如果分支的个数为多个,则通过决策网络进行分支的选择。
[0011]可选地,根据以下公式进行分支数量的预测:
[0012]p(number)=softmax(W1[s
t
:h(a
t
):h(f
t
)]))
[0013]其中,p(number)表示分支的数量,s
t
表示当前时刻的隐状态,h(a
t
)表示父节点的隐状态,h(f
t
)表示兄弟节点的隐状态,W1表示矩阵参数。
[0014]可选地,通过决策网络进行分支的选择包括,对每个分支的优先级进行打分;
[0015]其中,根据以下公式进行优先级的打分,:
[0016]Score(f
i
)=W2(tanh(W1[s
t
:h(a
t
):h(f
t
):E(n
i
)]))
[0017]其中,Score(f
i
)表示每个分支的优先级分数,W1和W2表示矩阵参数,s
t
表示当前时刻的隐状态,h(a
t
)表示父节点的隐状态,h(f
t
)表示兄弟节点的隐状态,E(n
i
)表示每个分支所在的位置。
[0018]可选地,在对每个分支的优先级进行打分之后,还包括:计算每个分支被选择的概率,并计算每种分支排序方式被选择的概率;
[0019]其中,每种分支排序方式被选择的概率根据以下公式计算:
[0020][0021]其中,π(o)表示分支排序方式被选择的概率,m表示分支的数量,p
t
表示第i个生成的分支为的概率,表示第i个被生成的分支,表示按照顺序已经生成的前i

1个分支。有效提高机器翻译过程中成分树的生成效率,提高机器翻译准确率。
[0022]可选地,使用强化学习的方式对所述分支选择器进行训练,包括:
[0023]根据以下公式计算梯度对模型参数进行更新:
[0024][0025]其中,L
r
表示模型参数,o表示分支的排序方式,r(o)表示当前分支排序方式的奖励分数,p
θ
表示决策网络输出的选择当前分支排序方式的概率。
[0026]可选地,所述当前分支排序方式的奖励分数根据以下公式计算:
[0027][0028]其中,r(o)表示当前分支排序方式的奖励分数,表示分支选择器按照最大概率选择出的分支排序方式,o表示分支选择器按照概率采样选择出的分支排序方式,表示对应的损失值,L(o)表示o对应的损失值,η表示设置的概率最大值,p(o)表示当前模型预
测的排列顺序为o的概率。
[0029]为达到上述目的,本专利技术第二方面实施例提出了一种计算机可读存储介质,其上存储有基于译文树结构解码路径动态选择的机器翻译程序,该基于译文树结构解码路径动态选择的机器翻译程序被处理器执行时实现如上述的基于译文树结构解码路径动态选择的机器翻译方法。
[0030]根据本专利技术实施例的计算机可读存储介质,通过存储基于译文树结构解码路径动态选择的机器翻译程序,以使得处理器在执行该基于译文树结构解码路径动态选择的机器翻译程序时,实现如上述的基于译文树结构解码路径动态选择的机器翻译方法,从而实现有效提高机器翻译过程中成分句法树的生成效率,提高机器翻译准确率。
附图说明
[0031]图1为根据本专利技术实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于译文树结构解码路径动态选择的机器翻译方法,其特征在于,包括以下步骤:获取人工标注的机器翻译数据,其中,所述人工标注的机器翻译数据包括源语言句子和对应的目标语言句子,所述源语言句子和对应的目标语言句子形成平行句对;通过目标语言句子对应的解析器对所述目标语言句子进行解析,以得到该目标语言句子对应的目标语言成分句法树,并根据所述源语言句子和对应的目标语言成分句法树生成训练数据;根据所述训练数据进行模型的训练,以生成基于译文树结构解码路径动态选择的机器翻译模型,其中所述基于译文树结构解码路径动态选择的机器翻译模型包括编码器、解码器和分支选择器;获取待翻译源语言句子,并将所述待翻译源语言句子输入到所述基于译文树结构解码路径动态选择的机器翻译模型,以通过所述基于译文树结构解码路径动态选择的机器翻译模型生成对应的目标语言成分句法树和目标语言句子。2.如权利要求1所述的基于译文树结构解码路径动态选择的机器翻译方法,其特征在于,在获取人工标注的机器翻译数据之后,还包括:对所述平行句对进行预处理,其中,所述预处理包括符号标准化、大小写统一和分词。3.如权利要求1所述的基于译文树结构解码路径动态选择的机器翻译方法,其特征在于,根据所述训练数据进行模型的训练,包括:使用随机分支顺序下的序列数据对模型进行预训练;使用强化学习的方式对所述分支选择器进行训练。4.如权利要求3所述的基于译文树结构解码路径动态选择的机器翻译方法,其特征在于,在使用强化学习的方式对所述分支选择器进行训练的过程中,通过分支选择器预测分支的数量,如果分支的个数为多个,则通过决策网络进行分支的选择。5.如权利要求4所述的基于译文树结构解码路径动态选择的机器翻译方法,其特征在于,根据以下公式进行分支数量的预测:p(number)=softmax(W1[s
t
:h(a
t
):h(f
t
)]))其中,p(number)表示分支的数量,s
t
表示当前时刻的隐状态,h(a
t
)表示父节点的隐状态,h(f
t
)表示兄弟节点的隐状态,W1表示矩阵参数。6.如权利要求4所述的基于译文树结构解码路径动态选择的机器翻译方法,其特征在于,通过决策网络进行分支的选择包括,对每个分支的优先级进行打分;其中,根据以下公式进行优先级的打分,:Sco...

【专利技术属性】
技术研发人员:苏劲松蒋辉王志豪曾华琳
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1