一种机器翻译方法、装置及系统制造方法及图纸

技术编号:23431959 阅读:22 留言:0更新日期:2020-02-25 13:13
本公开是关于一种机器翻译方法、装置及介质。该方法用于将第一语言内容翻译为第二语言内容,包括:获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模式;通过所述第二翻译模式对待翻译的第三数据进行翻译。本公开的方法能在较大程度上克服多翻问题,提升翻译质量,而无需花费大量的经济成本和人工成本。

A machine translation method, device and system

【技术实现步骤摘要】
一种机器翻译方法、装置及系统
本公开涉及机器翻译领域,尤其涉及一种机器翻译方法、装置及系统。
技术介绍
随着机器翻译技术的迅速发展,越来越多的翻译系统是基于机器翻译模型实现的。其中,基于神经网络的机器翻译系统对数据要求比较高,需要大量的平行语料来训练模型,并且要保证这些数据的正确性,否则就会导致得到的模型出现各种各样的问题。其中,多翻问题一直以来都是机器翻译中存在的问题,无论是词语、短语或者句子都存在或多或少的多翻问题。例如,翻译模型翻译词语或者短语时,翻译的结果可能是一个词或短语重复了多次。在这种情况下,即使翻译的结果词是正确的词,但重复翻译会导致翻译系统的不专业性问题。比如“hello”翻译成“你好,你好呀,你好”。多翻问题更多出现在对词语和短语翻译的情况下,因为在句子翻译的情况下,翻译模型能获得更多的信息,这样就不容易出现多翻问题。但在词语或者短语翻译的情况下,由于输入的信息特别少,翻译模型更容易出现多翻问题。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种机器翻译方法、装置及系统,以克服使用机器翻译模型翻译时的多翻问题。根据本公开实施例的第一方面,提供一种机器翻译方法,用于将第一语言内容翻译为第二语言内容,包括:获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模式;通过所述第二翻译模式对待翻译的第三数据进行翻译。其中,所述第一数据与所述第二数据是通过预定标识区分的,所述第二数据添加有预定标识;在所述通过所述第二翻译模式对待翻译的第三数据进行翻译之前,所述方法还包括:获取待翻译的第四数据;在所述第四数据中检测预定标识;响应于检测到所述预定标识,将所述第四数据确定为所述第三数据。其中,所述方法还包括:获取所述第四数据包含的词语个数;若所述个数小于或等于第一预定个数,则为所述第四数据添加所述预定标识。其中,所述第一数据与所述第二数据是通过包含的词语个数区分的,所述第二数据包含的词语个数小于或等于第二预定个数;在所述通过所述第二翻译模式对待翻译的第三数据进行翻译之前,所述方法还包括:获取待翻译的第五数据;若所述第五数据包含的词语个数小于或等于所述第二预定个数,则将所述第五数据确定为所述第三数据。其中,所述获取待训练的第一数据和除所述第一数据外的第二数据,包括:获取词典短语平行语料数据和翻译资源数据;根据爬取词典数据的方法,从所述词典短语平行语料数据和所述翻译资源数据中获取词典数据;其中,所述第二数据包括所述词典数据。根据本公开实施例的第二方面,提供一种机器翻译装置,用于将第一语言内容翻译为第二语言内容,包括:第一获取模块,被设置为获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;训练模块,被设置为基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模式;翻译模块,被设置为通过所述第二翻译模式对待翻译的第三数据进行翻译。其中,所述第一数据与所述第二数据是通过预定标识区分的,所述第二数据添加有预定标识;所述装置还包括:第二获取模块,被设置为在所述翻译模块通过所述第二翻译模式对待翻译的第三数据进行翻译之前,获取待翻译的第四数据;第一数据确定模块,被设置为在所述第四数据中检测预定标识;以及响应于检测到所述预定标识,将所述第四数据确定为所述第三数据。其中,所述装置还包括:标识符添加模块,被设置为获取所述第四数据包含的词语个数;若所述个数小于或等于第一预定个数,则为所述第四数据添加所述预定标识。其中,所述第一数据与所述第二数据是通过包含的词语个数区分的,所述第二数据包含的词语个数小于或等于第二预定个数;所述装置还包括:第三获取模块,被设置为在所述翻译模块通过所述第二翻译模式对待翻译的第三数据进行翻译之前,获取待翻译的第五数据;第二数据确定模块,被设置为若所述第五数据包含的词语个数小于或等于所述第二预定个数,则将所述第五数据确定为所述第三数据。其中,所述第一获取模块还被设置为:获取词典短语平行语料数据和翻译资源数据;根据爬取词典数据的方法,从所述词典短语平行语料数据和所述翻译资源数据中获取词典数据;其中,所述第二数据包括所述词典数据。根据本公开实施例的第三方面,提供一种机器翻译装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模式;通过所述第二翻译模式对待翻译的第三数据进行翻译。根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种机器翻译方法,所述方法包括:获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模式;通过所述第二翻译模式对待翻译的第三数据进行翻译。本公开的实施例通过在原始语料中加入较小数量的语言准确性较高的数据集合,对机器翻译模型进行训练,就能在较大程度上克服多翻问题,提升翻译质量,而无需花费大量的经济成本和人工成本。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种机器翻译的流程图。图2是根据一示例性实施例示出的获取待翻译数据并将待翻译数据确定为第三数据的流程图。图3是根据一示例性实施例示出的对数据添加标识符的示意图。图4是根据一示例性实施例示出的为待翻译数据添加预定标识的流程图。图5是根据一示例性实施例示出的获取待翻译数据并将待翻译数据确定为第三数据的流程图。图6是根据一示例性实施例示出的获取待训练的第一数据和除所述第一数据外的第二数据的流程图。图7是根据一示例性实施例示出的一种机器翻译的流程图。图8是根据一示例性本文档来自技高网...

【技术保护点】
1.一种机器翻译方法,用于将第一语言内容翻译为第二语言内容,其特征在于,包括:/n获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;/n基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模式;/n通过所述第二翻译模式对待翻译的第三数据进行翻译。/n

【技术特征摘要】
1.一种机器翻译方法,用于将第一语言内容翻译为第二语言内容,其特征在于,包括:
获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;
基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模式;
通过所述第二翻译模式对待翻译的第三数据进行翻译。


2.根据权利要求1所述的方法,其特征在于,所述第一数据与所述第二数据是通过预定标识区分的,所述第二数据添加有预定标识;
在所述通过所述第二翻译模式对待翻译的第三数据进行翻译之前,所述方法还包括:
获取待翻译的第四数据;
在所述第四数据中检测预定标识;
响应于检测到所述预定标识,将所述第四数据确定为所述第三数据。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述第四数据包含的词语个数;
若所述个数小于或等于第一预定个数,则为所述第四数据添加所述预定标识。


4.根据权利要求1所述的方法,其特征在于,所述第一数据与所述第二数据是通过包含的词语个数区分的,所述第二数据包含的词语个数小于或等于第二预定个数;
在所述通过所述第二翻译模式对待翻译的第三数据进行翻译之前,所述方法还包括:
获取待翻译的第五数据;
若所述第五数据包含的词语个数小于或等于所述第二预定个数,则将所述第五数据确定为所述第三数据。


5.如权利要求1所述的方法,其特征在于,所述获取待训练的第一数据和除所述第一数据外的第二数据,包括:
获取词典短语平行语料数据和翻译资源数据;
根据爬取词典数据的方法,从所述词典短语平行语料数据和所述翻译资源数据中获取词典数据;
其中,所述第二数据包括所述词典数据。


6.一种机器翻译装置,用于将第一语言内容翻译为第二语言内容,其特征在于,包括:
第一获取模块,被设置为获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;
训练模块,被设置为基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模式;
翻译模块,被设置为通过所述第二翻译模式对待翻译的第三数据进行翻译。


7.如权利要求6所述的装置,其特征在于,所述第一数据与所述第...

【专利技术属性】
技术研发人员:李京蔚孙于惠崔建伟
申请(专利权)人:北京小米智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1