【技术实现步骤摘要】
一种机器翻译的方法、装置、电子设备及其存储介质
[0001]本申请实施例涉及计算机
,尤其涉及一种机器翻译的方法、装置、电子设备及其存储介质。
技术介绍
[0002]在机器翻译、数据过滤、文本预处理等诸多场景中,语种识别具有非常重要的基础作用而被广泛使用。而语种识别模型的准确性依赖于训练样本的数量和质量,训练样本通常来自于网络中的抓取。但是在实际应用中,各语种的数据量非常不均衡。例如,抓取得到的大语种的数据通常非常多,而一些小语种或者稀有语种的数据就比较少,这就导致了训练样本的数量不均衡,而导致后续训练得到的语种识别模型对于训练样本较少的语种的识别不够准确。
[0003]基于此,需要一种语料间的语料更为均衡的机器翻译的方案,以提高语种识别模型的准确性。
技术实现思路
[0004]有鉴于此,本申请实施例提供一种机器翻译的方案,以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面,提供了一种机器翻译的方法,包括:
[0006]在预设目标领域的文本中获取第一语种的目标文本, ...
【技术保护点】
【技术特征摘要】
1.一种机器翻译的方法,包括:在预设目标领域的文本中获取第一语种的目标文本,其中,所述第一语种的目标文本在所述目标领域中满足第一预设条件;将所述第一语种的目标文本作为翻译模型的输入,得到所述第二语种的目标文本,其中,所述翻译模型基于公开双语数据预先训练得到,所述第二语种的目标文本在所述目标领域中满足第二预设条件。2.如权利要求1所述的方法,其中,在预设目标领域的文本中获取第一语种的目标文本,包括:获取所述目标领域中的多个文本;针对任一文本,确定该文本中的字符所对应的字符编码;根据所述对应的字符编码确定该文本的语种类别;从所述目标领域中获取语种类别为第一语种且满足所述第一预设条件的文本作为第一语种的目标文本。3.如权利要求1所述的方法,其中,从所述目标领域的文本中获取第一语种的目标文本,包括:确定所述目标领域所对应的评估指标;根据所述评估指标对第一语种的任意文本进行评估,从所述任意文本中获取满足所述评估指标的第一语种的文本作为目标文本。4.如权利要求1所述的方法,还包括:如果所述第二语种的目标文本和所述第一语种的目标文本相同或者相似,滤除所述第二语种的目标文本。5.如权利要求1所述的方法,其中,还包括:生成所述第一语种的目标文本和所述第...
【专利技术属性】
技术研发人员:任星彰,张海波,骆卫华,
申请(专利权)人:阿里巴巴新加坡控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。