机器翻译方法及其装置、设备、介质、产品制造方法及图纸

技术编号:35221997 阅读:17 留言:0更新日期:2022-10-15 10:39
本申请涉及机器翻译方法及其装置、设备、介质、产品,所述方法包括:获取待翻译的原文文本,所述原文文本为汉语言文字;将原文文本和设置为假值的拼音文本并行输入机器翻译模型进行翻译,获得第一外文向量序列,其中每个外文向量表征映射到预设外文词表的各个分词相对应的概率分布;当第一外文向量序列中不存在概率分布异常的外文向量时确定第一外文向量序列为有效向量序列,否则,将原文文本及其标准的拼音文本并行输入所述机器翻译模型进行翻译,获得第二外文向量序列作为有效向量序列;根据有效向量序列查询所述外文词表确定出其中各个外文向量相对应分词,构造为与原文文本相对应的外文文本。本申请能对原文文本进行容错翻译,应用场景广泛。应用场景广泛。应用场景广泛。

【技术实现步骤摘要】
机器翻译方法及其装置、设备、介质、产品


[0001]本申请涉及机器翻译
,尤其涉及一种机器翻译方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。

技术介绍

[0002]机器翻译,是指由计算机程序将一种自然语言表述的文本翻译成另一种自然语言表述的文本的技术。
[0003]随着经济全球化进程的推进,电商平台的跨境特征日益明显,在电商领域常应用机器翻译技术用于实现商品信息的自动翻译,其中将中文(汉语文字)翻译成外文是一类高频需求。
[0004]以中文翻译成英文为例,在中译英过程中,商家用户常采用拼音输入法录入中文,中文存在大量的同音词,会造成所录入的文本中包含与正确中文词汇读音相近的错误词汇,直接导致机器翻译模型翻译异常。例如,用户录入“这件衬杉很好看”,其正确表述应为:“这件衬衫很好看”,结果由于录入错误导致机器翻译模型翻译为:“This cedar looks great”,但其正确应为:“This button

down shirt looks nice”。此类情况在电商领域较为常见,导致无法获取准确的翻译结果。
[0005]为克服以上的问题,传统上通常采用BERT等深度学习方法,先将文本经过深度学习模型进行纠错改写,改成正确的中文,再进行英文翻译。此类技术需要依赖两个模型进行串行推理,实现先纠错后翻译,耗时较多,且无效计算量也较大,例如:对于实际占比10%左右的中文异常来讲,纠错过程中有90%的运算为无效计算。
[0006]有鉴于此,本申请人另辟蹊径,探索对中文进行机器翻译的其他实现途径,而提出本申请。

技术实现思路

[0007]本申请的目的在于解决上述问题而提供一种机器翻译方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品、
[0008]适应本申请的各个目的,采用如下技术方案:
[0009]一个方面,适应本申请的目的之一而提供一种机器翻译方法,包括:
[0010]获取待翻译的原文文本,所述原文文本为汉语言文字;
[0011]将原文文本和设置为假值的拼音文本并行输入机器翻译模型进行翻译,获得第一外文向量序列,其中每个外文向量表征映射到预设外文词表的各个分词相对应的概率分布;
[0012]当第一外文向量序列中不存在概率分布异常的外文向量时确定第一外文向量序列为有效向量序列,否则,将原文文本及其标准的拼音文本并行输入所述机器翻译模型进行翻译,获得第二外文向量序列作为有效向量序列;
[0013]根据有效向量序列查询所述外文词表确定出其中各个外文向量相对应分词,构造
为与原文文本相对应的外文文本。
[0014]可选的,当第一外文向量序列中不存在概率分布异常的外文向量时确定第一外文向量序列为有效向量序列,包括:
[0015]按序判断第一外文向量序列中的各个外文向量中的最大分类概率是否低于预设阈值,当其中至少一个外文向量的最大分类概率低于预设阈值时,判定相应的外文向量存在概率分布异常;
[0016]当判定第一外文向量序列中不存在概率分布异常的外文向量时,将第一外文向量序列作为有效向量序列。
[0017]可选的,当第一外文向量序列中不存在概率分布异常的外文向量时确定第一外文向量序列为有效向量序列,包括:
[0018]按序判断第一外文向量序列中的各个外文向量是否满足在所述机器翻译模型训练过程中统计确定的概率分布,当不满足时,判定相应的外文向量存在概率分布异常;
[0019]当判定第一外文向量序列中不存在概率分布异常的外文向量时,将第一外文向量序列作为有效向量序列。
[0020]可选的,将原文文本和设置为假值的拼音文本并行输入机器翻译模型进行翻译,获得第一外文向量序列的步骤,或者,将原文文本及其标准的拼音文本并行输入所述机器翻译模型进行翻译,获得第二外文向量序列作为有效向量序列的步骤,包括:
[0021]将原文文本输入所述机器翻译模型的汉语编码器提取特征,获得汉语向量;
[0022]将拼音文本输入所述机器翻译模型的拼音编码器提取特征,获得拼音向量;
[0023]根据所述汉语向量与所述拼音向量构造出综合向量;
[0024]将综合向量输入所述机器翻译模型的解码器进行自回归解码,获得相应的外文向量序列。
[0025]可选的,将原文文本和设置为假值的拼音文本并行输入机器翻译模型进行翻译之前,包括:
[0026]构造平行语料库,使所述平行语料库包括多个平行语料,每个平行语料包括以汉语言文字表达的原文文本和以预设目标语言表达的外文文本,所述外文文本为所述原文文本的翻译版本,部分平行语料中的原文文本包含同音错别词;
[0027]迭代调用所述平行语料库内各个平行语料中的原文文本及该原文文本相对应的标准的拼音文本作为第一样本,对所述机器翻译模型实施训练获得相应的外文向量序列,以同一平行语料中的外文文本作为监督训练的标签,将所述机器翻译模型训练至收敛状态。
[0028]迭代调用所述平行语料库内各个平行语料中的原文文本及设置为假值的拼音文本作为第二样本,对所述机器翻译模型实施训练获得相应的外文向量序列,以同一平行语料中的外文文本作为监督训练的标签,将所述机器翻译模型训练至收敛状态。
[0029]可选的,构造平行语料库,包括:
[0030]采集准确表达的平行语料存储于平行语料库,所述平行语料包括以汉语言文字准确表达的原文文本和以预设目标语言准确表达的外文文本,所述外文文本为所述原文文本的翻译版本;
[0031]从平行语料库中抽取部分准确表达的平行语料,将其中的原文文本进行分词获得
分词结果;
[0032]随机选取所述原文文本的分词结果中的部分分词,替换为其同音错别词;
[0033]将原文文本被替换了同音错别词的平行语料追加至所述平行语料库中。
[0034]可选的,根据有效向量序列查询所述外文词表确定出其中各个外文向量相对应分词,构造为与原文文本相对应的外文文本,包括:
[0035]针对有效向量序列中每个外文向量,确定其映射到所述外文词表的各个分词的概率分布中,最大分类概率相对应的分词,作为该外文向量相对应的目标分词;
[0036]按照有效向量序列中外文向量的排列顺序,将各个外文向量相对应的目标分词有序拼接,获得与原文文本相对应的外文文本。
[0037]另一方面,适应本申请的目的之一而提供一种机器翻译装置,包括原文获取模块、默认翻译模块、补充翻译模块,以及外文构造模块,其中,所述原文获取模块,用于获取待翻译的原文文本,所述原文文本为汉语言文字;所述默认翻译模块,用于将原文文本和设置为假值的拼音文本并行输入机器翻译模型进行翻译,获得第一外文向量序列,其中每个外文向量表征映射到预设外文词表的各个分词相对应的概率分布;所述补充翻译模块,用于当第一外文向量序列中不存在概率分布异常的外文向量时确定第一外文向量序列为有效向量序列,否则,将原本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器翻译方法,其特征在于,包括:获取待翻译的原文文本,所述原文文本为汉语言文字;将原文文本和设置为假值的拼音文本并行输入机器翻译模型进行翻译,获得第一外文向量序列,其中每个外文向量表征映射到预设外文词表的各个分词相对应的概率分布;当第一外文向量序列中不存在概率分布异常的外文向量时确定第一外文向量序列为有效向量序列,否则,将原文文本及其标准的拼音文本并行输入所述机器翻译模型进行翻译,获得第二外文向量序列作为有效向量序列;根据有效向量序列查询所述外文词表确定出其中各个外文向量相对应分词,构造为与原文文本相对应的外文文本。2.根据权利要求1所述的机器翻译方法,其特征在于,当第一外文向量序列中不存在概率分布异常的外文向量时确定第一外文向量序列为有效向量序列,包括:按序判断第一外文向量序列中的各个外文向量中的最大分类概率是否低于预设阈值,当其中至少一个外文向量的最大分类概率低于预设阈值时,判定相应的外文向量存在概率分布异常;当判定第一外文向量序列中不存在概率分布异常的外文向量时,将第一外文向量序列作为有效向量序列。3.根据权利要求1所述的机器翻译方法,其特征在于,当第一外文向量序列中不存在概率分布异常的外文向量时确定第一外文向量序列为有效向量序列,包括:按序判断第一外文向量序列中的各个外文向量是否满足在所述机器翻译模型训练过程中统计确定的概率分布,当不满足时,判定相应的外文向量存在概率分布异常;当判定第一外文向量序列中不存在概率分布异常的外文向量时,将第一外文向量序列作为有效向量序列。4.根据权利要求1所述的机器翻译方法,其特征在于,将原文文本和设置为假值的拼音文本并行输入机器翻译模型进行翻译,获得第一外文向量序列的步骤,或者,将原文文本及其标准的拼音文本并行输入所述机器翻译模型进行翻译,获得第二外文向量序列作为有效向量序列的步骤,包括:将原文文本输入所述机器翻译模型的汉语编码器提取特征,获得汉语向量;将拼音文本输入所述机器翻译模型的拼音编码器提取特征,获得拼音向量;根据所述汉语向量与所述拼音向量构造出综合向量;将综合向量输入所述机器翻译模型的解码器进行自回归解码,获得相应的外文向量序列。5.根据权利要求1所述的机器翻译方法,其特征在于,将原文文本和设置为假值的拼音文本并行输入机器翻译模型进行翻译之前,包括:构造平行语料库,使所述平行语料库包括多个平行语料,每个平行语料包括以汉语言文字表达的原文文本和以预设目标语言表达的外文文本,所述外文文本为所述原文文本的翻译版本,部分平行语料中的原文文本包含同音错别词;迭代调用所述平行语料库内各个平行语料中的原文文本及该原文文本...

【专利技术属性】
技术研发人员:钟裕滨庞磊
申请(专利权)人:广州欢聚时代信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1