一种文本翻译方法、装置及设备制造方法及图纸

技术编号:21548123 阅读:29 留言:0更新日期:2019-07-06 21:34
本申请公开一种文本翻译方法、装置及设备,所述方法包括:确定待翻译文本中的数字词语;将所述数字词语替换为预设占位符,并记录所述数字词语的位置信息;对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果;根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。由于本申请在对待翻译文本进行翻译之前利用预设占位符替换了数字词语,避免了因数字词语被作为普通文本进行切分处理导致的翻译不准确问题,因此,利用本申请提供的文本翻译方法能够提高数字词语翻译的准确性。

A Text Translation Method, Device and Equipment

【技术实现步骤摘要】
一种文本翻译方法、装置及设备
本申请涉及机器翻译领域,具体涉及一种文本翻译方法、装置及设备。
技术介绍
文本翻译包括对文本中的数字词语的翻译,目前主流的机器翻译系统中对数字词语的翻译是直接将包含数字词语的文本输入到神经网络系统中进行翻译,具体的,首先对包含数字词语的文本进行切分处理,然后对切分后的文本进行翻译,得到包含数字词语的文本的翻译结果。上述方式是将数字词语作为普通的字符串进行切分处理,在切分数字词语的过程中,可能将其切分为常见词和不常见词,而不常见词在翻译时容易被丢失等,导致通过上述方式对数字词语的翻译结果不准确。因此,如何提高对数字词语翻译的准确性,是目前的机器翻译系统面临的一项难题。
技术实现思路
有鉴于此,本申请提供了一种文本翻译方法、装置及设备,能够提高对数字词语翻译的准确性。第一方面,本申请提供了一种文本翻译方法,所述方法包括:确定待翻译文本中的数字词语;将所述数字词语替换为预设占位符,并记录所述数字词语的位置信息;对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果;根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。一种可选的实施方式中,所述将所述数字词语替换为预设占位符,包括:确定所述数字词语的类型以及合法性;根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符。一种可选的实施方式中,所述根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符,包括:根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字;将所述阿拉伯数字替换为预设占位符;相应的,所述记录所述数字词语的位置信息,具体为,记录由所述数字词语规整的阿拉伯数字的位置信息。一种可选的实施方式中,所述根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:根据由所述数字词语规整的阿拉伯数字的位置信息,确定所述翻译结果中的预设占位符对应的阿拉伯数字;将所述预设占位符替换为所述阿拉伯数字或者所述阿拉伯数字的目标语言形式。一种可选的实施方式中,所述根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符,包括:根据所述数字词语的类型以及合法性,将所述数字词语直接替换为预设占位符。一种可选的实施方式中,所述根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:根据所述数字词语的位置信息,确定所述翻译结果中的预设占位符对应的数字词语;将所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。一种可选的实施方式中,所述将所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:将所述预设占位符替换为所述数字词语;根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字。一种可选的实施方式中,所述确定所述数字词语的类型以及合法性,包括:确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性;所述预设类型包括整数类型、数字串类型和\或小数类型。一种可选的实施方式中,所述确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性,包括:判断所述数字词语是否包括位数词,如果是,则确定所述数字词语属于整数类型;所述位数词为用于作为单位的数字词;以及,判断所述数字词语是否符合所述整数类型的预设合法条件,如果是,则确定所述数字词语属于所述整数类型且合法。一种可选的实施方式中,所述确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性,包括:依次遍历所述数字词语中的各个数字词,判断各个数字词是否均属于零到九之间的任意数字词;如果各个数字词均属于零到九之间的任意数字词,则确定所述数字词语属于数字串类型且合法。一种可选的实施方式中,所述确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性,包括:判断所述数字词语是否包含汉字“点”,如果是,则确定所述数字词语属于小数类型;以及,判断所述数字词语的整数部分是否符合整数类型的预设合法条件,且所述数字词语的小数部分的各个数字词是否均属于零到九之间的任意数字词,如果是,则确定所述数字词语属于所述小数类型且合法。一种可选的实施方式中,所述根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:根据所述数字词语的位置信息,确定所述翻译结果中的预设占位符对应的数字词语;如果所述数字词语属于数字串类型,或者,所述数字词语属于整数类型且转换为阿拉伯数字形式后最后至少包括预设个数连续的零,则利用所述数字词语的目标语言形式替换对应的预设占位符。一种可选的实施方式中,所述数字词语包括至少N个数字词,所述N为预设正整数。第二方面,本申请提供了一种文本翻译装置,所述装置包括:确定模块,用于确定待翻译文本中的数字词语;第一替换模块,用于将所述数字词语替换为预设占位符;记录模块,用于记录所述数字词语的位置信息;翻译模块,用于对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果;第二替换模块,用于根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。一种可选的实施方式中,所述第一替换模块,包括:第一确定子模块,用于确定所述数字词语的类型以及合法性;第一替换子模块,用于根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符。一种可选的实施方式中,所述第一替换子模块,包括:第一规整子模块,用于根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字;第二替换子模块,用于将所述阿拉伯数字替换为预设占位符;相应的,所述记录模块,具体用于记录由所述数字词语规整的阿拉伯数字的位置信息。一种可选的实施方式中,所述第二替换模块,包括:第二确定子模块,用于根据由所述数字词语规整的阿拉伯数字的位置信息,确定所述翻译结果中的预设占位符对应的阿拉伯数字;第三替换子模块,用于将所述预设占位符替换为所述阿拉伯数字或者所述阿拉伯数字的目标语言形式。一种可选的实施方式中,所述第一替换子模块,具体用于:根据所述数字词语的类型以及合法性,将所述数字词语直接替换为预设占位符。一种可选的实施方式中,所述第二替换模块,包括:第三确定子模块,用于根据所述数字词语的位置信息,确定所述翻译结果中的预设占位符对应的数字词语;第四替换子模块,用于将所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。一种可选的实施方式中,所述第四替换子模块,包括:第五替换子模块,用于将所述预设占位符替换为所述数字词语;第二规整子模块,用于根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字。一种可选的实施方式中,所述第一确定子模块,具体用于:确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性;所述预设类型包括整数类型、数字串类型和\或小数类型。一种可选的实施方式中,所述第一确定子模块,包括:第一判断子模块,用于判断所述数字词语是否包括位数词;所述位数词为用于作为单位的数字词;第四确本文档来自技高网...

【技术保护点】
1.一种文本翻译方法,其特征在于,所述方法包括:确定待翻译文本中的数字词语;将所述数字词语替换为预设占位符,并记录所述数字词语的位置信息;对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果;根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。

【技术特征摘要】
1.一种文本翻译方法,其特征在于,所述方法包括:确定待翻译文本中的数字词语;将所述数字词语替换为预设占位符,并记录所述数字词语的位置信息;对带有所述预设占位符的待翻译文本进行翻译,得到带有所述预设占位符的翻译结果;根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。2.根据权利要求1所述的方法,其特征在于,所述将所述数字词语替换为预设占位符,包括:确定所述数字词语的类型以及合法性;根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符。3.根据权利要求2所述的方法,其特征在于,所述根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符,包括:根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字;将所述阿拉伯数字替换为预设占位符;相应的,所述记录所述数字词语的位置信息,具体为,记录由所述数字词语规整的阿拉伯数字的位置信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:根据由所述数字词语规整的阿拉伯数字的位置信息,确定所述翻译结果中的预设占位符对应的阿拉伯数字;将所述预设占位符替换为所述阿拉伯数字或者所述阿拉伯数字的目标语言形式。5.根据权利要求2所述的方法,其特征在于,所述根据所述数字词语的类型以及合法性,将所述数字词语替换为预设占位符,包括:根据所述数字词语的类型以及合法性,将所述数字词语直接替换为预设占位符。6.根据权利要求5所述的方法,其特征在于,所述根据所述数字词语的位置信息,将所述翻译结果中的所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:根据所述数字词语的位置信息,确定所述翻译结果中的预设占位符对应的数字词语;将所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式。7.根据权利要求6所述的方法,其特征在于,所述将所述预设占位符替换为所述数字词语的阿拉伯数字形式或者目标语言形式,包括:将所述预设占位符替换为所述数字词语;根据所述数字词语的类型以及合法性,将所述数字词语规整为阿拉伯数字。8.根据权利要求2-7中任一项所述的方法,其特征在于,所述确定所述数字词语的类型以及合法性,包括:确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性;所述预设类型包括整数类型、数字串类型和\或小数类型。9.根据权利要求8所述的方法,其特征在于,所述确定所述数字词语是否属于预设类型,以及是否符合各个预设类型的合法性,包括:判断所述数字词语是否包括位数词,如果是,则确定所述数字词语属于整数类型;所述位数词为用于作为单位的数字词;以及,判断所述数字词语是否符合所述整数类型的预设合法条件,如果是,则...

【专利技术属性】
技术研发人员:熊新雷
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1