多语种机器翻译方法、电子设备及存储介质技术

技术编号:38605011 阅读:11 留言:0更新日期:2023-08-26 23:37
本申请实施例涉及语言翻译技术领域,公开了一种多语种机器翻译方法、电子设备及存储介质。其中,方法包括:在记忆库中,对待翻译的语句进行检索,并判断是否检索到对应的专业术语;如果未检索到专业术语,则调用AI翻译接口,并通过语种语言识别模型对待翻译的语句进行翻译,获得第一译文结果;将第一译文结果按照预设规则处理,以使第一译文结果与待翻译的语句对齐;将对齐后的所述第一译文结果输出。本申请在AI翻译的时候,使用训练好的语种语言识别模型在线翻译,语种语言识别模型的训练样本是通过多种类别的问题语料识别及对齐处理后更新的,模型更准确,实现译文结果对齐及翻译整个流程的闭环,优化模型的维护环节,降低语料的标注成本。料的标注成本。料的标注成本。

【技术实现步骤摘要】
多语种机器翻译方法、电子设备及存储介质


[0001]本申请实施例涉及语言翻译
,尤其涉及一种多语种机器翻译方法、电子设备及存储介质。

技术介绍

[0002]针对多语种语言的机器翻译,尤其是小语种,从开创到成熟的发展过程中,已经经历了由基于规则的方法、基于统计学机器翻译的方法再到基于神经网络的机器翻译方法,典型代表的有百度翻译、谷歌翻译等开源翻译引擎,这些开源翻译接口普遍达到了较高的翻译水平。
[0003]本申请专利技术人在实现本申请实施例的过程中,发现:在机器翻译的时候,通常以大量的平行语料作为翻译基础,然而,这些平行语料很难保证是完全对齐的,尤其是在某些专业领域,只是单纯的神经网络翻译得到的翻译结果往往无法达到理想效果,翻译的准确性无法得到保障。

技术实现思路

[0004]本申请实施例的目的是提供一种多语种机器翻译方法、电子设备及存储介质,在多语种机器翻译的时候,如果未检索到对应的专业术语,则调用AI翻译接口,使用训练好的语种语言识别模型在线翻译,且对AI翻译的第一译文结果按照预设规则处理,实现AI翻译的译文结果与待翻译的语句对齐,从而实现译文结果对齐及翻译整个流程的闭环,优化模型的维护环节,降低语料的标注成本,提高翻译的准确性及灵活配置。
[0005]为解决上述技术问题,本申请实施例采用以下技术方案:
[0006]第一方面,本申请实施例中提供了一种多语种机器翻译方法,所述方法包括:
[0007]在记忆库中,对待翻译的语句进行检索,并判断是否检索到对应的专业术语,其中,所述记忆库中存储有多个源文词汇、多个与所述源文词汇对应的专业术语;如果未检索到所述专业术语,则调用AI翻译接口,并通过语种语言识别模型对所述待翻译的语句进行翻译,获得第一译文结果;其中,所述语种语言识别模型的训练样本是通过多种类别的问题语料识别及对齐处理后更新的;将所述第一译文结果按照预设规则处理,以使所述第一译文结果与所述待翻译的语句对齐;将对齐后的所述第一译文结果输出。
[0008]如果检索不到对应的专业术语,则通过语种语言识别模型进行AI翻译,进一步保障了翻译的准确性及灵活配置性,并且,将AI翻译的结果按照预设规则处理,对齐,形成整个流程的闭环,优化模型的维护环节,降低语料的标注成本。
[0009]在一些实施例中,在所述如果未检索到所述专业术语之后,以及在所述调用AI翻译接口,并通过语种语言识别模型进行翻译,获得第一译文结果之前,所述方法还包括:
[0010]对所述待翻译的语句中的不译词汇添加不译项占位符,对所述待翻译的语句中的专业词汇翻译为固定词汇,以及对所述待翻译的语句中的特殊标点符号及空格进行统一处理,获得处理后的语句;
[0011]所述调用AI翻译接口,并通过语种语言识别模型对所述待翻译的语句进行翻译,获得第一译文结果,包括:
[0012]调用AI翻译接口,并通过语种语言识别模型对所述处理后的语句进行翻译,获得第一译文结果。
[0013]通过在AI翻译之前进行规则配置,实现待翻译的语句中的不译词汇、专业词汇、特殊标点符号及空格的规则处理,实现规则翻译和AI翻译的融合。
[0014]在一些实施例中,所述将所述第一译文结果按照预设规则处理,以使所述第一译文结果与所述待翻译的语句对齐,包括:
[0015]基于所述预设规则,在所述第一译文结果中,剔除所述不译项占位符,统一处理所述特殊标点符号及空格,以及对所述第一译文结果进行问题语料识别及处理后,与所述待翻译的语句对齐。
[0016]通过将第一译文结果与待翻译的语句对齐,实现不译项占位符剔除、特殊标点符号及空格的统一处理、问题语料的识别及对齐处理,实现翻译流程的完整闭环。
[0017]在一些实施例中,在所述将对齐后的所述第一译文结果输出之后,所述方法还包括:
[0018]将对齐后的第一译文结果和所述第二译文结果回滚到所述记忆库中。实现准确译文的回滚,使得记忆库更准确。
[0019]在一些实施例中,所述方法还包括:
[0020]如果检索到所述专业术语,则基于所述专业术语获得第二译文结果。
[0021]如果检索到专业术语,则可以直接翻译,不需要AI翻译。
[0022]在一些实施例中,在所述将对齐后的所述第一译文结果输出之后,所述方法还包括:
[0023]将所述第一译文结果中处理后的问题语料、对齐后的第一译文结果和所述第二译文结果回滚到所述记忆库中,并更新所述记忆库。
[0024]通过将第一译文结果中处理后的问题语料、对齐后的第一译文结果和所述第二译文结果回滚到记忆库中以及更新记忆库,使得再次翻译时,可以在更新的记忆库中匹配,提高翻译的准确性。
[0025]在一些实施例中,所述在记忆库中,对待翻译的语句进行检索之前,所述方法还包括:
[0026]基于样本源文和样本译文,在所述样本译文中智能识别问题语料;
[0027]基于所述样本源文,对所述问题语料进行对齐处理,获得对齐语料;
[0028]将所述对齐语料、样本源文和除去问题语料的样本译文输入到小语种预训练模型中进行迭代训练,在所述小语种预训练模型的评估指标大于预设指标值时收敛,获得训练好的语种语言识别模型。
[0029]在训练模型前对问题语料的智能识别以及对齐处理,实现对训练语料的清洗,可以解决专业领域翻译不够准确的问题,还可以提高语种语言识别模型的准确性。
[0030]在一些实施例中,所述基于样本源文和样本译文,在所述样本译文中智能识别问题语料,包括:
[0031]基于所述样本源文和规则法,在所述样本译文中初步识别出第一问题语料;
[0032]基于第一中间样本源文和统计学法,在所述样本译文中智能识别出第二问题语料;所述第一中间样本源文为所述样本源文中,除所述第一问题语料对应的源文之外的样本源文;
[0033]基于第二中间样本源文和机器学习法,在所述样本译文中智能识别出第三问题语料;所述第二中间样本源文为所述样本源文中,除所述第一问题语料和所述第二问题语料分别对应的源文以外的样本源文。
[0034]依次通过规则法、统计学法、机器学习法进行问题语料识别,提高各类型问题语料识别的准确性。
[0035]在一些实施例中,所述基于所述样本源文和规则法,在所述样本译文中初步识别出第一问题语料,包括:
[0036]统计所述样本源文中的常规符号出现的次数;所述常规符号为非英文非数字符号;如果与所述样本源文对应的样本译文中的常规符号出现的次数小于或等于预设次数,则确定所述样本译文中小于或等于预设次数的常规符号为第一问题语料;和/或;
[0037]对所述样本源文中的各个符号和数字、所述样本译文中的各个符号和数字依次遍历,以确定分别在所述样本源文和所述样本译文中不对齐的符号和数字为第一问题语料;和/或;
[0038]判断处于相同位置上的所述样本源文的专有名词和所述样本译文中的专有名词是否同时出现;如果所述相同位置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语种机器翻译方法,其特征在于,所述方法包括:在记忆库中,对待翻译的语句进行检索,并判断是否检索到对应的专业术语,其中,所述记忆库中存储有多个源文词汇、多个与所述源文词汇对应的专业术语;如果未检索到所述专业术语,则调用AI翻译接口,并通过语种语言识别模型对所述待翻译的语句进行翻译,获得第一译文结果;其中,所述语种语言识别模型的训练样本是通过多种类别的问题语料识别及对齐处理后更新的;将所述第一译文结果按照预设规则处理,以使所述第一译文结果与所述待翻译的语句对齐;将对齐后的所述第一译文结果输出。2.根据权利要求1所述的方法,其特征在于,在所述如果未检索到所述专业术语之后,以及在所述调用AI翻译接口,并通过语种语言识别模型进行翻译,获得第一译文结果之前,所述方法还包括:对所述待翻译的语句中的不译词汇添加不译项占位符,对所述待翻译的语句中的专业词汇翻译为固定词汇,以及对所述待翻译的语句中的特殊标点符号及空格进行统一处理,获得处理后的语句;所述调用AI翻译接口,并通过语种语言识别模型对所述待翻译的语句进行翻译,获得第一译文结果,包括:调用AI翻译接口,并通过语种语言识别模型对所述处理后的语句进行翻译,获得第一译文结果。3.根据权利要求2所述的方法,其特征在于,所述将所述第一译文结果按照预设规则处理,以使所述第一译文结果与所述待翻译的语句对齐,包括:基于所述预设规则,在所述第一译文结果中,剔除所述不译项占位符,统一处理所述特殊标点符号及空格,以及对所述第一译文结果进行问题语料识别及处理后,与所述待翻译的语句对齐。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:如果检索到所述专业术语,则基于所述专业术语获得第二译文结果。5.根据权利要求4所述的方法,其特征在于,在所述将对齐后的所述第一译文结果输出之后,所述方法还包括:将所述第一译文结果中处理后的问题语料、对齐后的第一译文结果和所述第二译文结果回滚到所述记忆库中,并更新所述记忆库。6.根据权利要求1至5任一项所述的方法,其特征在于,所述在记忆库中,对待翻译的语句进行检索之前,所述方法还包括:基于样本源文和样本译文,在所述样本译文中智能识别问题语料;基于所述样本源文,对所述问题语料进行对齐处理,获得对齐语料;将所述对齐语料、样本源文和除去问题语料的样本译文输入到小语种预训练模型中进行迭代训练,在所述小语种预训练模型的评估指标大于预设指标值时收敛,获得训练好的语种语言识别模型。7.根据权利要求6所述的方法,其特征在于,所述基于样本源文和样本译文,在所述样本译文中智能识别问题语料,包括:
基于所述样本源文和规则法,在所述样本译文中初步识别出第一问题语料;基于第一中间样本源文和统计学法,在所述样本译文中智能识别出第二问题语料;所述第一中间样本源文为所述样本源文中,除所述第一问题语料对应的源文之外的样本源文;基于第二中间样本源文和机器学习法,在所述样本译文中智能识别出第三问题语料;所述第二中间样本源文为所述样本源文中,除所述第一问题语料和所述第二问题语料分别对应的源文以外的样本源文。8.根据权利要求7所述的方法,其特征在于,所述基于所述样本源文和规则法,在所述样本译文中初步识别出第一问题语料,包括:统计所述样本源文中的常规符号出现的次数;所述常规符号为非英文非数字符号;如果与所述样本源文对应的样本译文中的常规符号出现的次数小于或等于预设次数,则确定所述样本译文中小于或等于预设次数的常规符号为第一问题语料;和/或;对所述样本源文中的各个符号和数字、所述样本译文中的各个符号和...

【专利技术属性】
技术研发人员:梁丽娜袁岳锋刘晨
申请(专利权)人:西安道通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1