一种机器翻译的方法、装置、电子设备及其存储介质制造方法及图纸

技术编号:36367052 阅读:23 留言:0更新日期:2023-01-18 09:23
本申请实施例提供了一种机器翻译的方法、装置、电子设备及其存储介质。根据本申请实施例提供的方案,对于目标领域中的文本,获取在所述目标领域中满足第一预设条件的第一语种的目标文本,并基于预先训练得到的翻译模型,将所述第一语种的目标文本翻译为一个或者多个第二语种的目标文本,所述第二语种的目标文本在所述目标领域中满足第二预设条件,实现利用翻译模型将高资源的领域数据翻译为低资源的领域数据。的领域数据。的领域数据。

【技术实现步骤摘要】
一种机器翻译的方法、装置、电子设备及其存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种机器翻译的方法、装置、电子设备及其存储介质。

技术介绍

[0002]在机器翻译、数据过滤、文本预处理等诸多场景中,语种识别具有非常重要的基础作用而被广泛使用。而语种识别模型的准确性依赖于训练样本的数量和质量,训练样本通常来自于网络中的抓取。但是在实际应用中,各语种的数据量非常不均衡。例如,抓取得到的大语种的数据通常非常多,而一些小语种或者稀有语种的数据就比较少,这就导致了训练样本的数量不均衡,而导致后续训练得到的语种识别模型对于训练样本较少的语种的识别不够准确。
[0003]基于此,需要一种语料间的语料更为均衡的机器翻译的方案,以提高语种识别模型的准确性。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种机器翻译的方案,以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面,提供了一种机器翻译的方法,包括:
[0006]在预设目标领域的文本中获取第一语种的目标文本,其中,所述第一语种的目标文本在所述目标领域中满足第一预设条件;
[0007]将所述第一语种的目标文本作为翻译模型的输入,得到所述第二语种的目标文本,其中,所述翻译模型基于公开双语数据预先训练得到,所述第二语种的目标文本在所述目标领域中满足第二预设条件。
[0008]根据本申请实施例的第二方面,提供了一种机器翻译的装置,包括:
[0009]获取模块,在预设目标领域的文本中获取第一语种的目标文本,其中,所述第一语种的目标文本在所述目标领域中满足第一预设条件;
[0010]翻译模块,将所述第一语种的目标文本作为翻译模型的输入,得到所述第二语种的目标文本,其中,所述翻译模型基于公开双语数据预先训练得到,所述第二语种的目标文本在所述目标领域中满足第二预设条件。
[0011]根据本申请实施例的第三方面,提供了一种电子设备,包括:一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0012]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如前述方法对应的操作。
[0013]根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前所述的方法。
[0014]根据本申请实施例提供的方案,对于目标领域中的文本,获取在所述目标领域中
满足第一预设条件的第一语种的目标文本,并基于预先训练得到的翻译模型,将所述第一语种的目标文本翻译为一个或者多个第二语种的目标文本,所述第二语种的目标文本在所述目标领域中满足第二预设条件。从而利用翻译模型将高资源的领域数据翻译为低资源的领域数据,实现语种识别中的数据量均衡,避免小语种数据量少的问题,提高后续语种识别模型的准确率。
附图说明
[0015]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0016]图1为本申请实施例所提供的从不同领域中获取文本的示意图;
[0017]图2为本申请实施例所提供的一种机器翻译的方法的流程示意图;
[0018]图3为本申请实施例所提供的生成多个第二语种的目标文本的逻辑框架示意图;
[0019]图4为本申请实施例所提供的一种机器翻译的装置的结构示意图;
[0020]图5为根据本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
[0021]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0022]阿里翻译为阿里巴巴与日俱增的海外服务提供基础的语言翻译服务。目前为阿里巴巴国际站、全球速卖通、淘宝海外、天猫国际、阿里云和蚂蚁金服等BU,提供了商品、搜索、评论、沟通等场景下的多语言翻译服务。支持中文、英语、俄文、葡萄牙语、法语等多个语言之间的机器翻译和人工翻译服务。
[0023]随着贸易国际化的继续深入,无论是电商领域、医疗领域、口语领域等,机器翻译发挥着越来越大的作用。
[0024]语料系统的建设最早来源于新闻机构、服务机构提供的双语语料等。随着互联网的飞速发展,以及贸易全球化的深化,从互联网获取双语语料也是各个语料系统的重要来源。但是在一些小语种的语料建设中,
[0025]随着机器翻译更广泛更深入的应用于生产生活中,领域机器翻译的要求越来常见。比如医疗领域的机器翻译需求、新闻领域、汽车领域等等。一个比较常见的例子是对于跨国就医的翻译需求,需要医疗翻译系统的准确性、行文的专业性。而构建这些专业的领域翻译系统需要具有根基性作用的领域双语的数据。
[0026]实现准确的机器翻译的前提之一即为实现准确的语种识别。在机器翻译和语种识别中,语料的丰富和均衡对于训练模型有着根基性的作用。特别是对于一些小语种而言,通常其由于公开语料的不够丰富以及质量较差,限制了实际训练所得到的语种识别模型对于该语种的识别。
[0027]随着电子商务的发展,电商平台所服务的用户对象越来越多,用户所使用的语种也越来越多。因此,基于语种识别模型来对用户使用的语种进行识别,以提供后续的翻译服务或者人工服务就显的基础而重要。
[0028]在语种识别的场景下,为了更加贴近电子商务的的场景,训练样本中有一部分文本通常是从电商平台本身的网络中获取得到(例如,基于电商平台中的用户的输入、评论或者与客服的沟通中而得到),获取得到的文本基于来源或者用途的不同,通常还会分为多个不同的领域。
[0029]如图1所示,图1为本申请实施例所提供的从不同领域中获取文本的示意图。例如,领域可以包括搜索领域、沟通领域、评论领域以及通用领域等等。在不同的领域中,同一个单词其对应的含义可能不同,简单的跨域进行文本的数量合并会影响到后续语种识别模型的质量。
[0030]同时,在不同的领域中,不同语种的文本的数量或者质量存在显著的不同。例如,大语种(例如英语、西班牙语)通常会占据大部分的比例,而小语种(例如,阿拉伯语)的数量就会少的多。而在模型训练中,数据样本的数量和质量同样重要。这种数量或者质量分布上的不均衡会显著的影响语种识别模型的训练准确度。
[0031]基于此,本申请实施例提供一种机器翻译的方案,以实现语种识别中的分布均衡,避免小语种数据量少或者质量低的问题,从而提高后续语种识别模型的准确率。
[0032]对于本申请的第一方面,提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器翻译的方法,包括:在预设目标领域的文本中获取第一语种的目标文本,其中,所述第一语种的目标文本在所述目标领域中满足第一预设条件;将所述第一语种的目标文本作为翻译模型的输入,得到所述第二语种的目标文本,其中,所述翻译模型基于公开双语数据预先训练得到,所述第二语种的目标文本在所述目标领域中满足第二预设条件。2.如权利要求1所述的方法,其中,在预设目标领域的文本中获取第一语种的目标文本,包括:获取所述目标领域中的多个文本;针对任一文本,确定该文本中的字符所对应的字符编码;根据所述对应的字符编码确定该文本的语种类别;从所述目标领域中获取语种类别为第一语种且满足所述第一预设条件的文本作为第一语种的目标文本。3.如权利要求1所述的方法,其中,从所述目标领域的文本中获取第一语种的目标文本,包括:确定所述目标领域所对应的评估指标;根据所述评估指标对第一语种的任意文本进行评估,从所述任意文本中获取满足所述评估指标的第一语种的文本作为目标文本。4.如权利要求1所述的方法,还包括:如果所述第二语种的目标文本和所述第一语种的目标文本相同或者相似,滤除所述第二语种的目标文本。5.如权利要求1所述的方法,其中,还包括:生成所述第一语种的目标文本和所述第...

【专利技术属性】
技术研发人员:任星彰张海波骆卫华
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1