当前位置: 首页 > 专利查询>清华大学专利>正文

一种用于机器翻译系统的融合方法及装置制造方法及图纸

技术编号:25599879 阅读:64 留言:0更新日期:2020-09-11 23:57
本发明专利技术实施例提供一种用于机器翻译系统的融合方法及装置。该方法包括:获取源语句和若干待融合翻译草稿,建立机器翻译系统融合任务模型;在机器翻译系统融合任务模型中定义编码器,得到源语句编码结果和翻译草稿编码结果,并作为解码器的输入,得到目标翻译概率;基于目标翻译概率,引入投票机制,使若干待融合翻译草稿中的词进行相互投票,得到出现在若干待融合翻译草稿中的高频词;综合所有高频词结果,得到目标翻译结果。本发明专利技术实施例通过将投票机制引入基于深度神经网络的机器翻译系统融合方法中,既能更好地综合各翻译系统的翻译结果,同时使用端到端神经网络方法能降低错误传播,从而改善翻译的最终质量,具有良好的实用性。

【技术实现步骤摘要】
一种用于机器翻译系统的融合方法及装置
本专利技术涉及机器翻译
,尤其涉及一种用于机器翻译系统的融合方法及装置。
技术介绍
随着国际交流的日益深入,人们对语言翻译的需求与日俱增。然而,世界上存在的语言种类繁多、各有特征、形式灵活,使得语言的自动处理以及包括语言之间的机器翻译,成为至关重要的技术。机器翻译是指计算机在不需要人类指导的情况下进行某一特定语言到另一语言的文本翻译。而机器翻译的系统融合旨在将多个机器翻译系统的翻译进行融合,得到更好的翻译结果,如图1所示,不同翻译系统存在各自的缺陷,翻译可能有各种各样的错误,系统融合的目的在于将各个翻译综合,来得到更好的翻译结果。而要将各个翻译综合,直接有效的方法是保留各个翻译中出现得多的片段,抛弃仅有极个别翻译中出现的片段,即“投票”机制。目前的机器翻译系统融合主要有两种做法,一种是基于统计模型的方法,使用投票机制融合多个机器翻译系统的翻译结果;另一种是基于深度神经网络模型的方法,使用端到端序列到序列建模的方法实现系统融合。这两种方法各有其缺点,统计模型的方法未使用端到端建模方法,存本文档来自技高网...

【技术保护点】
1.一种用于机器翻译系统的融合方法,其特征在于,包括:/n获取源语句和若干待融合翻译草稿;/n基于所述源语句和所述若干待融合翻译草稿,建立机器翻译系统融合任务模型;/n在所述机器翻译系统融合任务模型中定义所述源语句和所述若干翻译草稿的编码器,得到源语句编码结果和翻译草稿编码结果;/n以所述源语句编码结果和所述翻译草稿编码结果作为解码器的输入,得到目标翻译概率;/n基于所述目标翻译概率,引入投票机制,使所述若干待融合翻译草稿中的词进行相互投票,得到出现在所述若干待融合翻译草稿中的高频词;/n综合所有高频词结果,得到目标翻译结果。/n

【技术特征摘要】
1.一种用于机器翻译系统的融合方法,其特征在于,包括:
获取源语句和若干待融合翻译草稿;
基于所述源语句和所述若干待融合翻译草稿,建立机器翻译系统融合任务模型;
在所述机器翻译系统融合任务模型中定义所述源语句和所述若干翻译草稿的编码器,得到源语句编码结果和翻译草稿编码结果;
以所述源语句编码结果和所述翻译草稿编码结果作为解码器的输入,得到目标翻译概率;
基于所述目标翻译概率,引入投票机制,使所述若干待融合翻译草稿中的词进行相互投票,得到出现在所述若干待融合翻译草稿中的高频词;
综合所有高频词结果,得到目标翻译结果。


2.根据权利要求1所述的用于机器翻译系统的融合方法,其特征在于,所述基于所述源语句和所述若干待融合翻译草稿,建立机器翻译系统融合任务模型,具体包括:
定义x为源语句,为N个待融合的翻译草稿,为第n个翻译草稿,代表第n个翻译草稿的第j个词,y=y1…yK是含有K个词的目标翻译,则所述机器翻译系统融合任务模型为:



其中,yk是目标翻译的第k个词,y<k=y1…yk-1是目标翻译的前缀,θ是模型可学习参数。


3.根据权利要求2所述的用于机器翻译系统的融合方法,其特征在于,所述在所述机器翻译系统融合任务模型中定义所述源语句和所述若干翻译草稿的编码器,得到源语句编码结果和翻译草稿编码结果,具体包括:
所述机器翻译系统融合任务模型包含N+1个编码器:
Hsrc=Encodersrc(x,θ)



其中,Encodersrc(·)为源语句的编码器,Hsrc为源语句的编码结果,Encoderhyp(·)为翻译草稿的编码器,为第n个翻译草稿编码结果,N个翻译草稿的编码器的可学习参数θ是共享的。


4.根据权利要求3所述的用于机器翻译系统的融合方法,其特征在于,所述以所述源语句编码结果和所述翻译草稿编码结果作为解码器的输入,得到目标翻译概率,具体包括:
以Hsrc和为输入,输出所述目标翻译概率:






其中,Decoder(·)为解码器,为目标翻译的第k个词的向量表示,g(·)为计算生成概率的函数。


5.根据权利要求4所述的用于机器翻译系统的融合方法,其特征在于,基于所述目标翻译概率,引入投票机制,使所述若干待融合翻译草稿中的词进行相互投票,得到出现在所述若干待融合翻译草稿中的高频词,具体包括:
定义所述若干待融合翻译草稿中的词为投票者和候选者;
计算投票者影响力因子和投票者偏好因子,获得所述...

【专利技术属性】
技术研发人员:刘洋孙茂松黄轩成张嘉成谭知行栾焕博
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1