一种机器翻译方法、装置、电子设备及存储介质制造方法及图纸

技术编号:20745642 阅读:31 留言:0更新日期:2019-04-03 10:28
本发明专利技术实施例公开了一种机器翻译方法、装置、电子设备及存储介质。所述方法包括:将源语言的初始待翻译文本翻译为与其对应的目标语言的初始候选译文;获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文;其中,M为大于1的自然数;将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本;其中,N为大于1的自然数;根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文。可以生成较多数量的翻译样本,从而能够有效地改善稀缺语种的机器翻译效果。

【技术实现步骤摘要】
一种机器翻译方法、装置、电子设备及存储介质
本专利技术实施例涉及机器翻译
,尤其涉及一种机器翻译方法、装置、电子设备及存储介质。
技术介绍
机器翻译是利用机器对用户输入的待翻译语句进行翻译得到目标语句的技术。基于神经网络的机器翻译是目前最好的机器翻译方法。该方法通过训练神经网络,让神经网络模型参数自动拟合,从而实现源语言到目标语言的映射。但是在机器翻译的过程中,稀缺语料的翻译一直是个比较大的挑战。尤其是在进行小语种翻译时,基于神经网络的机器翻译方法难以进行参数拟合。例如,单独的中文语料和单独的阿拉伯语语料都很多,但是中阿互译的语料比较少,此时可以通过大量单语语料解决网络难以训练的问题,从而帮助基于神经网络的机器翻译方法应用于小语种翻译。在现有的机器翻译方法中,通常采用回译的方法进行小语种翻译,即采用目标语言到源语言的翻译模型,生成目标语言对应的源语言样本,将这份翻译样本加入到源语言到目标语言的翻译模型中,从而改善稀缺语种的机器翻译效果。但是采用回译的方法生成的翻译样本的数量较少,不能有效地改善稀缺语种的机器翻译效果。
技术实现思路
有鉴于此,本专利技术实施例提供一种机器翻译方法、装置、电子设备及存储介质,可以生成较多数量的翻译样本,从而能够有效地改善稀缺语种的机器翻译效果。第一方面,本专利技术实施例提供了一种机器翻译方法,所述方法包括:将源语言的初始待翻译文本翻译为与其对应的目标语言的初始候选译文;获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文;其中,M为大于1的自然数;将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本;其中,N为大于1的自然数;根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文。在上述实施例中,所述获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文,包括:确定所述目标语言的初始候选译文对应的目标语言的句表示向量;根据所述目标语言的初始候选译文对应的目标语言的句表示向量获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文。在上述实施例中,所述将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本,包括:确定所述目标语言的初始候选译文对应的源语言的句表示向量;根据所述目标语言的初始候选译文对应的源语言的句表示向量将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本。在上述实施例中,所述根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文,包括:根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定出M×N组翻译样本;根据M×N组翻译样本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文。在上述实施例中,所述根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定出M×N组翻译样本,包括:计算各个目标语言的相似候选译文与所述目标语言的初始候选译文的置信度以及各个源语言的相似待翻译文本与所述目标语言的初始候选译文的置信度;根据M个目标语言的相似候选译文、N个源语言的相似待翻译文本、各个目标语言的相似候选译文与所述目标语言的初始候选译文的置信度以及各个源语言的相似待翻译文本与所述目标语言的初始候选译文的置信度确定出M×N组翻译样本。第二方面,本专利技术实施例提供了一种机器翻译装置,所述装置包括:翻译模块、获取模块和确定模块;其中,所述翻译模块,用于将源语言的初始待翻译文本翻译为与其对应的目标语言的初始候选译文;所述获取模块,用于获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文;其中,M为大于1的自然数;所述翻译模块,还用于将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本;其中,N为大于1的自然数;所述确定模块,用于根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文。在上述实施例中,所述获取模块,具体用于用于确定所述目标语言的初始候选译文对应的目标语言的句表示向量;根据所述目标语言的初始候选译文对应的目标语言的句表示向量获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文。在上述实施例中,所述翻译模块,具体用于确定所述目标语言的初始候选译文对应的源语言的句表示向量;根据所述目标语言的初始候选译文对应的源语言的句表示向量将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本。在上述实施例中,所述确定模块,具体用于根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定出M×N组翻译样本;根据M×N组翻译样本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文。在上述实施例中,所述确定模块,具体用于计算各个目标语言的相似候选译文与所述目标语言的初始候选译文的置信度以及各个源语言的相似待翻译文本与所述目标语言的初始候选译文的置信度;根据M个目标语言的相似候选译文、N个源语言的相似待翻译文本、各个目标语言的相似候选译文与所述目标语言的初始候选译文的置信度以及各个源语言的相似待翻译文本与所述目标语言的初始候选译文的置信度确定出M×N组翻译样本。第三方面,本专利技术实施例提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的机器翻译方法。第四方面,本专利技术实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所述的机器翻译方法。本专利技术实施例提出了一种机器翻译方法、装置、电子设备及存储介质,先将源语言的初始待翻译文本翻译为与其对应的目标语言的初始候选译文;然后获取目标语言的初始候选译文对应的M个目标语言的相似候选译文;再将目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本;最后根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定源语言的初始待翻译文本对应的目标语言的目标候选译文。也就是说,在本专利技术的技术方案中,可以根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定源语言的初始待翻译文本对应的目标语言的目标候选译文。而现有的机器翻译方法,采用回译的方法生成的翻译样本的数量较少,不能有效地改善稀缺语种的机器翻译效果。因此,和现有技术相比,本专利技术实施例提出的机器翻译方法、装置、电子设备及存储介质,可以生成较多数量的翻译样本,从而能够有效地改善稀缺语种的机器翻译效果;并且,本专利技术实施例的技术方案实现简单方便、便于普及,适用范围更广。附图说明图1为本专利技术实施例一提供的机器翻译方法的流程示意图;图2为本专利技术实施例二提供的机器翻译方法的流程示意图;图3为本专利技术实施例三提供的机器翻译方法的流程示意图;图4为本专利技术实施例四提供的机器翻译装置的结构示意图;图5为本专利技术实施例五提供的电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是本文档来自技高网...

【技术保护点】
1.一种机器翻译方法,其特征在于,所述方法包括:将源语言的初始待翻译文本翻译为与其对应的目标语言的初始候选译文;获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文;其中,M为大于1的自然数;将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本;其中,N为大于1的自然数;根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文。

【技术特征摘要】
1.一种机器翻译方法,其特征在于,所述方法包括:将源语言的初始待翻译文本翻译为与其对应的目标语言的初始候选译文;获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文;其中,M为大于1的自然数;将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本;其中,N为大于1的自然数;根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文。2.根据权利要求1所述的方法,其特征在于,所述获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文,包括:确定所述目标语言的初始候选译文对应的目标语言的句表示向量;根据所述目标语言的初始候选译文对应的目标语言的句表示向量获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文。3.根据权利要求1所述的方法,其特征在于,所述将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本,包括:确定所述目标语言的初始候选译文对应的源语言的句表示向量;根据所述目标语言的初始候选译文对应的源语言的句表示向量将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本。4.根据权利要求1所述的方法,其特征在于,所述根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文,包括:根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定出M×N组翻译样本;根据M×N组翻译样本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文。5.根据权利要求4所述的方法,其特征在于,所述根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定出M×N组翻译样本,包括:计算各个目标语言的相似候选译文与所述目标语言的初始候选译文的置信度以及各个源语言的相似待翻译文本与所述目标语言的初始候选译文的置信度;根据M个目标语言的相似候选译文、N个源语言的相似待翻译文本、各个目标语言的相似候选译文与所述目标语言的初始候选译文的置信度以及各个源语言的相似待翻译文本与所述目标语言的初始候选译文的置信度确定出M×N组翻译样本。6.一种机器翻译装置,其特征在于,所述装置包括:翻译模块、获取模块和确定模块...

【专利技术属性】
技术研发人员:张睿卿何中军吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1