【技术实现步骤摘要】
一种机器翻译方法、装置及系统
本公开涉及机器翻译领域,尤其涉及一种机器翻译方法、装置及系统。
技术介绍
随着机器翻译技术的迅速发展,越来越多的翻译系统是基于机器翻译模型实现的。其中,基于神经网络的机器翻译系统对数据要求比较高,需要大量的平行语料来训练模型,并且要保证这些数据的正确性,否则就会导致得到的模型出现各种各样的问题。其中,多翻问题一直以来都是机器翻译中存在的问题,无论是词语、短语或者句子都存在或多或少的多翻问题。例如,翻译模型翻译词语或者短语时,翻译的结果可能是一个词或短语重复了多次。在这种情况下,即使翻译的结果词是正确的词,但重复翻译会导致翻译系统的不专业性问题。比如“hello”翻译成“你好,你好呀,你好”。多翻问题更多出现在对词语和短语翻译的情况下,因为在句子翻译的情况下,翻译模型能获得更多的信息,这样就不容易出现多翻问题。但在词语或者短语翻译的情况下,由于输入的信息特别少,翻译模型更容易出现多翻问题。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种机器翻译方法、装置及系统,以克服使用机器翻译模型翻译时的多翻问题。根据本公开实施例的第一方面,提供一种机器翻译方法,用于将第一语言内容翻译为第二语言内容,包括:获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模 ...
【技术保护点】
1.一种机器翻译方法,用于将第一语言内容翻译为第二语言内容,其特征在于,包括:/n获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;/n基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模式;/n通过所述第二翻译模式对待翻译的第三数据进行翻译。/n
【技术特征摘要】
1.一种机器翻译方法,用于将第一语言内容翻译为第二语言内容,其特征在于,包括:
获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;
基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模式;
通过所述第二翻译模式对待翻译的第三数据进行翻译。
2.根据权利要求1所述的方法,其特征在于,所述第一数据与所述第二数据是通过预定标识区分的,所述第二数据添加有预定标识;
在所述通过所述第二翻译模式对待翻译的第三数据进行翻译之前,所述方法还包括:
获取待翻译的第四数据;
在所述第四数据中检测预定标识;
响应于检测到所述预定标识,将所述第四数据确定为所述第三数据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述第四数据包含的词语个数;
若所述个数小于或等于第一预定个数,则为所述第四数据添加所述预定标识。
4.根据权利要求1所述的方法,其特征在于,所述第一数据与所述第二数据是通过包含的词语个数区分的,所述第二数据包含的词语个数小于或等于第二预定个数;
在所述通过所述第二翻译模式对待翻译的第三数据进行翻译之前,所述方法还包括:
获取待翻译的第五数据;
若所述第五数据包含的词语个数小于或等于所述第二预定个数,则将所述第五数据确定为所述第三数据。
5.如权利要求1所述的方法,其特征在于,所述获取待训练的第一数据和除所述第一数据外的第二数据,包括:
获取词典短语平行语料数据和翻译资源数据;
根据爬取词典数据的方法,从所述词典短语平行语料数据和所述翻译资源数据中获取词典数据;
其中,所述第二数据包括所述词典数据。
6.一种机器翻译装置,用于将第一语言内容翻译为第二语言内容,其特征在于,包括:
第一获取模块,被设置为获取待训练的第一数据和除所述第一数据外的第二数据,所述第二数据的语言准确性高于第一数据的准确性;
训练模块,被设置为基于所述第一数据和所述第二数据,训练机器翻译模型,所述机器翻译模型包括:与所述第一数据对应的第一翻译模式,与所述第二数据对应的第二翻译模式;
翻译模块,被设置为通过所述第二翻译模式对待翻译的第三数据进行翻译。
7.如权利要求6所述的装置,其特征在于,所述第一数据与所述第...
【专利技术属性】
技术研发人员:李京蔚,孙于惠,崔建伟,
申请(专利权)人:北京小米智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。