一种机器翻译方法、装置及系统制造方法及图纸

技术编号：23431959 阅读：22 留言：0更新日期：2020-02-25 13:13

本公开是关于一种机器翻译方法、装置及介质。该方法用于将第一语言内容翻译为第二语言内容，包括：获取待训练的第一数据和除所述第一数据外的第二数据，所述第二数据的语言准确性高于第一数据的准确性；基于所述第一数据和所述第二数据，训练机器翻译模型，所述机器翻译模型包括：与所述第一数据对应的第一翻译模式，与所述第二数据对应的第二翻译模式；通过所述第二翻译模式对待翻译的第三数据进行翻译。本公开的方法能在较大程度上克服多翻问题，提升翻译质量，而无需花费大量的经济成本和人工成本。

A machine translation method, device and system

全部详细技术资料下载

【技术实现步骤摘要】
一种机器翻译方法、装置及系统
本公开涉及机器翻译领域，尤其涉及一种机器翻译方法、装置及系统。
技术介绍
随着机器翻译技术的迅速发展，越来越多的翻译系统是基于机器翻译模型实现的。其中，基于神经网络的机器翻译系统对数据要求比较高，需要大量的平行语料来训练模型，并且要保证这些数据的正确性，否则就会导致得到的模型出现各种各样的问题。其中，多翻问题一直以来都是机器翻译中存在的问题，无论是词语、短语或者句子都存在或多或少的多翻问题。例如，翻译模型翻译词语或者短语时，翻译的结果可能是一个词或短语重复了多次。在这种情况下，即使翻译的结果词是正确的词，但重复翻译会导致翻译系统的不专业性问题。比如“hello”翻译成“你好，你好呀，你好”。多翻问题更多出现在对词语和短语翻译的情况下，因为在句子翻译的情况下，翻译模型能获得更多的信息，这样就不容易出现多翻问题。但在词语或者短语翻译的情况下，由于输入的信息特别少，翻译模型更容易出现多翻问题。
技术实现思路
为克服相关技术中存在的问题，本公开提供一种机器翻译方法、装置及系统，以克服使用机器翻译模型翻译时的多翻问题。根据本公开实施例的第一方面，提供一种机器翻译方法，用于将第一语言内容翻译为第二语言内容，包括：获取待训练的第一数据和除所述第一数据外的第二数据，所述第二数据的语言准确性高于第一数据的准确性；基于所述第一数据和所述第二数据，训练机器翻译模型，所述机器翻译模型包括：与所述第一数据对应的第一翻译模式，与所述第二数据对应的第二翻译模...

【技术保护点】
1.一种机器翻译方法，用于将第一语言内容翻译为第二语言内容，其特征在于，包括：/n获取待训练的第一数据和除所述第一数据外的第二数据，所述第二数据的语言准确性高于第一数据的准确性；/n基于所述第一数据和所述第二数据，训练机器翻译模型，所述机器翻译模型包括：与所述第一数据对应的第一翻译模式，与所述第二数据对应的第二翻译模式；/n通过所述第二翻译模式对待翻译的第三数据进行翻译。/n

【技术特征摘要】
1.一种机器翻译方法，用于将第一语言内容翻译为第二语言内容，其特征在于，包括：
获取待训练的第一数据和除所述第一数据外的第二数据，所述第二数据的语言准确性高于第一数据的准确性；
基于所述第一数据和所述第二数据，训练机器翻译模型，所述机器翻译模型包括：与所述第一数据对应的第一翻译模式，与所述第二数据对应的第二翻译模式；
通过所述第二翻译模式对待翻译的第三数据进行翻译。

2.根据权利要求1所述的方法，其特征在于，所述第一数据与所述第二数据是通过预定标识区分的，所述第二数据添加有预定标识；
在所述通过所述第二翻译模式对待翻译的第三数据进行翻译之前，所述方法还包括：
获取待翻译的第四数据；
在所述第四数据中检测预定标识；
响应于检测到所述预定标识，将所述第四数据确定为所述第三数据。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：
获取所述第四数据包含的词语个数；
若所述个数小于或等于第一预定个数，则为所述第四数据添加所述预定标识。

4.根据权利要求1所述的方法，其特征在于，所述第一数据与所述第二数据是通过包含的词语个数区分的，所述第二数据包含的词语个数小于或等于第二预定个数；
在所述通过所述第二翻译模式对待翻译的第三数据进行翻译之前，所述方法还包括：
获取待翻译的第五数据；
若所述第五数据包含的词语个数小于或等于所述第二预定个数，则将所述第五数据确定为所述第三数据。

5.如权利要求1所述的方法，其特征在于，所述获取待训练的第一数据和除所述第一数据外的第二数据，包括：
获取词典短语平行语料数据和翻译资源数据；
根据爬取词典数据的方法，从所述词典短语平行语料数据和所述翻译资源数据中获取词典数据；
其中，所述第二数据包括所述词典数据。

6.一种机器翻译装置，用于将第一语言内容翻译为第二语言内容，其特征在于，包括：
第一获取模块，被设置为获取待训练的第一数据和除所述第一数据外的第二数据，所述第二数据的语言准确性高于第一数据的准确性；
训练模块，被设置为基于所述第一数据和所述第二数据，训练机器翻译模型，所述机器翻译模型包括：与所述第一数据对应的第一翻译模式，与所述第二数据对应的第二翻译模式；
翻译模块，被设置为通过所述第二翻译模式对待翻译的第三数据进行翻译。

7.如权利要求6所述的装置，其特征在于，所述第一数据与所述第...

【专利技术属性】
技术研发人员：李京蔚，孙于惠，崔建伟，
申请(专利权)人：北京小米智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人