当前位置: 首页 > 专利查询>鹏城实验室专利>正文

文本翻译方法、装置、设备和存储介质制造方法及图纸

技术编号:38106863 阅读:14 留言:0更新日期:2023-07-06 09:29
本发明专利技术实施例提供文本翻译方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:通过对源语言句子进行编码,得到第一隐藏层向量;然后根据第一隐藏层向量执行迭代翻译过程,在迭代翻译过程中对预测序列的错误进行定位,将错误词语进行掩码后重新预测,直至满足迭代结束条件,将预测序列作为源语言句子的目标语言翻译句子。本申请实施例针对非自回归文本翻译,利用迭代式解码机制提升翻译性能,不同于一次性生成翻译结果的方式,并且其通过迭代翻译过程多次微调中间翻译结果的预测序列,准确判断生成的预测序列中词语的正确性,对其进行错误进行定位,根据定位结果替换需要修改的预测词,能够提升推理速度以及翻译结果。结果。结果。

【技术实现步骤摘要】
文本翻译方法、装置、设备和存储介质


[0001]本专利技术涉及人工智能
,尤其涉及文本翻译方法、装置、设备和存储介质。

技术介绍

[0002]机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。随着技术发展,机器翻译在促进政治、经济、文化交流等方面起到越来越重要的作用。
[0003]相关技术中利用非自回归的神经网络模型进行翻译,非自回归的机器翻译方法假设目标语言翻译结果中词语之间条件独立,从而同时解码生成整个目标语言的翻译结果。但是这种翻译方式基于独立性假设,忽略翻译结果的内在依赖关系,不能准确定位翻译过程中的错误信息,导致非自回归的机器翻译的解码结果会产生较为严重的不一致性,翻译效果较差。

技术实现思路

[0004]本申请实施例的主要目的在于提出文本翻译方法、装置、设备和存储介质,提高文本翻译的准确性。
[0005]为实现上述目的,本申请实施例的第一方面提出了一种文本翻译方法,包括:获取源语言句子,并对所述源语言句子进行编码,得到第一隐藏层向量;根据所述第一隐藏层向量执行迭代翻译过程,所述迭代翻译过程包括:对输入信息进行编码操作,得到第二隐藏层向量,所述输入信息的初始化值为根据所述源语言句子生成的包含文本掩码词的掩码序列;根据掩码位置、所述第一隐藏层向量和所述第二隐藏层向量进行预测,得到预测序列;所述掩码位置的初始化值为所述文本掩码词在所述掩码序列中的位置;根据所述第一隐藏层向量和所述预测序列进行错误定位,得到所述预测序列中每个预测词的定位判断结果,以及当所述定位判断结果为修改时,将所述预测词替换为翻译掩码词;基于所述翻译掩码词、所述预测序列和所述第一隐藏层向量更新所述输入信息,利用所述翻译掩码词在所述预测序列中的位置更新所述掩码位置,重复执行所述迭代翻译过程,直至满足迭代结束条件;将最后一次迭代过程产生的所述预测序列作为所述源语言句子的目标语言翻译句子。
[0006]在一些实施例,根据所述源语言句子生成包含文本掩码词的掩码序列,包括:获取所述源语言句子的序列长度;生成与所述序列长度数量相同的所述文本掩码词;基于所述文本掩码词构建所述掩码序列。
[0007]在一些实施例,所述方法应用于文本翻译模型,所述文本翻译模型包括错误修改
定位模块,所述错误修改定位模块包括:错误修改模块,所述错误修改模块包括第一编码器模块;所述对输入信息进行编码操作,得到第二隐藏层向量,包括:将所述输入信息输入所述第一编码器模块进行编码,生成所述第二隐藏层向量。
[0008]在一些实施例,所述错误修改模块还包括预测模块,所述预测模块包括第二自注意力层和第一多头注意力层;所述根据掩码位置、所述第一隐藏层向量和所述第二隐藏层向量进行预测,得到预测序列,包括:将所述第二隐藏层向量输入所述第二自注意力层得到第一预测信息;将所述第一预测信息和所述第一隐藏层向量输入所述第一多头注意力层得到第二预测信息;根据所述第二预测信息和所述掩码位置生成每个掩码词的所述预测词,并根据所述预测词生成所述预测序列。
[0009]在一些实施例,所述错误修改定位模块还包括:错误定位模块;所述错误定位模块包括:第二编码器模块和定位分类模块;所述根据所述第一隐藏层向量和所述预测序列进行错误定位,得到所述预测序列中每个预测词的定位判断结果,包括:将所述预测序列和所述第一隐藏层向量输入所述第二编码器模块进行编码,得到第三隐藏层向量;将所述第三隐藏层向量和所述第一隐藏层向量输入所述定位分类模块进行分类判断,输出每个所述预测词对应的所述定位判断结果,所述定位判断结果包括:修改和保留。
[0010]在一些实施例,所述基于所述翻译掩码词、所述预测序列和所述第一隐藏层向量生成所述输入信息,包括:根据所述翻译掩码词替换所述预测序列中对应位置的预测词,生成翻译序列;根据所述翻译序列和所述第一隐藏层向量生成所述输入信息。
[0011]在一些实施例,所述迭代结束条件包括:所述预测序列中每个预测词的定位判断结果都是保留,或,在连续的预设迭代次数内,所述预测序列中每个预测词的定位判断结果都相同。
[0012]在一些实施例,所述文本翻译模型通过预先训练得到,训练过程中目标函数表示为:其中,表示所述文本翻译模型的模型参数,表示目标函数,M表示迭代次数为M,X表示训练语句,Y表示训练语句对应的翻译标签,表示第m次迭代过程中所述错误修改模块的目标向量,表示第m次迭代过程中所述错误定位模块的目标向量,表示第m次迭代过程中所述错误修改模块的预测训练序列,表示所述错误修改模块,表示第m次迭代过程中根据所述错误定位模块得到的翻译训练序列,表示所述错误定位
模块,表示在训练语句X和的条件下目标向量为,表示在训练语句X和的条件下翻译标签为Y。
[0013]为实现上述目的,本申请实施例的第二方面提出了一种文本翻译装置,包括:获取并编码模块,用于获取源语言句子,并对所述源语言句子进行编码,得到第一隐藏层向量;迭代翻译模块,用于根据所述第一隐藏层向量执行迭代翻译过程,所述迭代翻译过程包括:对输入信息进行编码操作,得到第二隐藏层向量,所述输入信息的初始化值为根据所述源语言句子生成的包含文本掩码词的掩码序列;根据掩码位置、所述第一隐藏层向量和所述第二隐藏层向量进行预测,得到预测序列;所述掩码位置的初始化值为所述文本掩码词在所述掩码序列中的位置;根据所述第一隐藏层向量和所述预测序列进行错误定位,得到所述预测序列中每个预测词的定位判断结果,以及当所述定位判断结果为修改时,将所述预测词替换为翻译掩码词;基于所述翻译掩码词、所述预测序列和所述第一隐藏层向量更新所述输入信息,利用所述翻译掩码词在所述预测序列中的位置更新所述掩码位置,重复执行所述迭代翻译过程,直至满足迭代结束条件;翻译结果获取模块,用于将最后一次迭代过程产生的所述预测序列作为所述源语言句子的目标语言翻译句子。
[0014]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
[0015]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
[0016]本申请实施例提出的文本翻译方法、装置、设备和存储介质,通过对源语言句子进行编码,得到第一隐藏层向量;然后根据第一隐藏层向量执行迭代翻译过程,具体的迭代翻译过程包括:对输入信息进行编码操作,得到第二隐藏层向量,再根据掩码位置、第一隐藏层向量和第二隐藏层向量进行预测,得到预测序列;根据第一隐藏层向量和预测序列进行错误定位,得到预测序列中每个预测词的定位判断结果,当定位判断结果为修改时将预测词替换为翻译掩码词,最后基于翻译掩码词、预测序列和第一隐藏层向量生成输入信息,利用翻译掩码词在预测序列中的掩码位置和输入信息重复执行迭代翻译过程,直至满足迭代结束条件,将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本翻译方法,其特征在于,所述方法包括:获取源语言句子,并对所述源语言句子进行编码,得到第一隐藏层向量;根据所述第一隐藏层向量执行迭代翻译过程,所述迭代翻译过程包括:对输入信息进行编码操作,得到第二隐藏层向量,所述输入信息的初始化值为根据所述源语言句子生成的包含文本掩码词的掩码序列;根据掩码位置、所述第一隐藏层向量和所述第二隐藏层向量进行预测,得到预测序列;所述掩码位置的初始化值为所述文本掩码词在所述掩码序列中的位置;根据所述第一隐藏层向量和所述预测序列进行错误定位,得到所述预测序列中每个预测词的定位判断结果,以及当所述定位判断结果为修改时,将所述预测词替换为翻译掩码词;基于所述翻译掩码词、所述预测序列和所述第一隐藏层向量更新所述输入信息,利用所述翻译掩码词在所述预测序列中的位置更新所述掩码位置,重复执行所述迭代翻译过程,直至满足迭代结束条件;将最后一次迭代翻译过程产生的所述预测序列作为所述源语言句子的目标语言翻译句子。2.根据权利要求1所述的文本翻译方法,其特征在于,根据所述源语言句子生成包含文本掩码词的掩码序列,包括:获取所述源语言句子的序列长度;生成与所述序列长度数量相同的所述文本掩码词;基于所述文本掩码词构建所述掩码序列。3.根据权利要求1所述的文本翻译方法,其特征在于,所述方法应用于文本翻译模型,所述文本翻译模型包括错误修改定位模块,所述错误修改定位模块包括错误修改模块,所述错误修改模块包括第一编码器模块;所述对输入信息进行编码操作,得到第二隐藏层向量,包括:将所述输入信息输入所述第一编码器模块进行编码,生成所述第二隐藏层向量。4.根据权利要求3所述的文本翻译方法,其特征在于,所述错误修改模块还包括预测模块,所述预测模块包括第二自注意力层和第一多头注意力层;所述根据掩码位置、所述第一隐藏层向量和所述第二隐藏层向量进行预测,得到预测序列,包括:将所述第二隐藏层向量输入所述第二自注意力层得到第一预测信息;将所述第一预测信息和所述第一隐藏层向量输入所述第一多头注意力层得到第二预测信息;根据所述第二预测信息和所述掩码位置生成每个掩码词的所述预测词,并根据所述预测词生成所述预测序列。5.根据权利要求4所述的文本翻译方法,其特征在于,所述错误修改定位模块还包括错误定位模块;所述错误定位模块包括第二编码器模块和定位分类模块;所述根据所述第一隐藏层向量和所述预测序列进行错误定位,得到所述预测序列中每个预测词的定位判断结果,包括:将所述预测序列和所述第一隐藏层向量输入所述第二编码器模块进行编码,得到第三隐藏层向量;
将所述第三隐藏层向量和所述第一隐藏层向量输入所述定位分类模块进行分类判断,输出每个所述预测词对应的所述定位判...

【专利技术属性】
技术研发人员:冯骁骋秦兵耿昕伟刘挺聂润泽相洋王晖
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1