一种翻译方法、装置、电子设备以及可读存储介质制造方法及图纸

技术编号:32855201 阅读:10 留言:0更新日期:2022-03-30 19:24
本申请实施例提供了一种翻译方法、装置、电子设备及可读存储介质,方法包括:获取待翻译文本;对待翻译文本进行分词处理,获得多个单元;获取每一个单元在待翻译文本中的出现次数;在i取1至n中的每一个整数时,获取第i个单元在待翻译文本中的位置信息;根据第i个单元在待翻译文本中的出现次数和位置信息,从预先确定的与第i个单元对应的多个翻译内容中,选出第i个单元在待翻译文本中的翻译内容。因此,本申请实施例,通过获取每一个单元在待翻译文本中的位置信息以及出现次数,能够确定每一个单元在待翻译文本中的翻译内容,从而解决了在机器翻译中,翻译的结果中多个相同内容重复出现的问题。现的问题。现的问题。

【技术实现步骤摘要】
一种翻译方法、装置、电子设备以及可读存储介质


[0001]本申请涉及机器翻译
,特别是涉及一种翻译方法、装置、电子设备以及可读存储介质。

技术介绍

[0002]目前,机器翻译又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。其中,随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。因此,机器翻译具有重要的实用价值。
[0003]例如,将一句中文“今天天气真的好好呀”,通过机器翻译成英文“today

sweather is really nice”,但是翻译的结果可能会出现“today

s weather is really nice nice”,则这样的翻译结果并不符合语法逻辑。
[0004]因此,在当前的机器翻译中,翻译的结果可能会出现多个词重复出现的现象,从而降低机器翻译的准确度。

技术实现思路

[0005]本申请实施例提供一种翻译方法、装置、电子设备以及可读存储介质,以解决在当前的机器翻译中,翻译的结果可能会出现多个相同内容重复出现的问题。
[0006]第一方面,本申请实施例提供一种翻译方法,所述方法包括:
[0007]获取待翻译文本;
[0008]对所述待翻译文本进行分词处理,获得多个单元;
[0009]获取每一个所述单元在所述待翻译文本中的出现次数;
[0010]在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;
[0011]根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;
[0012]其中,n表示所述多个单元的数量。
[0013]第二方面,本申请实施例提供一种翻译装置,所述装置包括:
[0014]文本获取模块,用于获取待翻译文本;
[0015]单元获取模块,用于对所述待翻译文本进行分词处理,获得多个单元;
[0016]次数获取模块,用于获取每一个所述单元在所述待翻译文本中的出现次数;
[0017]位置信息获取模块,用于在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;
[0018]第一翻译内容确定模块,用于根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;
[0019]其中,n表示所述多个单元的数量。
[0020]第三方面,本申请实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的翻译方法的步骤。
[0021]第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述的翻译方法的步骤。
[0022]在本申请的实施例中,能够获取待翻译文本;对所述待翻译文本进行分词处理,获得多个单元;获取每一个所述单元在所述待翻译文本中的出现次数;在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;其中,n表示所述多个单元的数量。
[0023]其中,本申请实施例根据单元在待翻译文本中的出现次数和位置信息,从预先确定的与该单元对应的多个翻译内容中,选出该单元在待翻译文本中合适的翻译内容。而现有技术中,是直接从预先确定的与该单元对应的多个翻译内容中选择一个翻译内容。因此,本申请的实施例可以降低待翻译文本中的同一单元被翻译为相同内容的概率,从而在一定程度上解决在当前的机器翻译中,翻译的结果可能会出现多个相同内容重复出现的问题。
附图说明
[0024]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1是本申请实施例提供的一种翻译方法的步骤流程图;
[0026]图2是本申请实施例提供的现有技术中将英文翻译为中文的模型架构示意图;
[0027]图3是本申请实施例提供的现有技术中将中文翻译为英文的模型架构示意图;
[0028]图4是本申请实施例提供的一种翻译装置的结构框图。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]为了便于理解本申请实施例的翻译方法,现对现有的相关技术进行如下介绍:
[0031]目前,机器翻译是基于神经网络模型的翻译方法,其中,神经机器翻译的模型框架都是编码器

解码器(Encoder

Decoder)框架,Encoder包含一层或若干层神经网络,Decoder也包含一层或若干层神经网络。而Encoder的目标是生成语义空间,将原语句的信息提取出来,使用一个抽象的语义来代替原来的句子;而Decoder的目的在于将抽象的语义,转换成目标语言的句子,并使得生成的句子能完美的表达原语句的意思,并符合目标语言的逻辑习惯。
[0032]例如,现有技术将英文翻译为中文的模型架构的示意图如图2所示,其中,将待翻译文本“ABCD”输入至神经机器翻译的模型中,经过Encoder把待翻译文本表示成一个高维的向量,生成语义空间Vx,将待翻译文本的信息提取出来,使用抽象的语义(例如甲乙丙丁)来代替待翻译文本;将抽象的语义输入至Decoder,解码后将待翻译文本表示成合适的翻译内容。
[0033]另外,现有技术将中文翻译为英文的模型架构的示意图如图3所示,其中,将待翻译文本“甲乙丙丁”输入至神经机器翻译的模型中,经过Encoder把待翻译文本表示成一个高维的向量,生成语义空间Vy,将待翻译文本的信息提取出来,使用抽象的语义(例如ABCD)来代替待翻译文本;将抽象的语义输入至Decoder,解码后将待翻译文本表示成合适的翻译内容。
[0034]其中<EOS>为翻译结束标志符。
[0035]由此可知,在现有技术在翻译过程中,待翻译文本中相同的多个单元被翻译时,每一次都是直接从预先确定的概率表(该概率表包括预先确定的与待翻译文本中包括的每一个单元对应的多个翻译内容本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种翻译方法,其特征在于,所述方法包括:获取待翻译文本;对所述待翻译文本进行分词处理,获得多个单元;获取每一个所述单元在所述待翻译文本中的出现次数;在i取1至n中的每一个整数时,获取第i个单元在所述待翻译文本中的位置信息;根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容;其中,n表示所述多个单元的数量。2.根据权利要求1所述的方法,其特征在于,所述根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,从预先确定的与所述第i个单元对应的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容,包括:在第1至i

1个单元中存在与所述第i个单元相同的单元的情况下,获取第一概率表,其中,所述第一概率表包括最近一次更新后的与所述待翻译文本包括的每一个单元对应的多个翻译内容的概率;根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,确定所述第i个单元的惩罚系数;根据所述惩罚系数,降低所述第一概率表中目标翻译内容的概率,得到第二概率表,其中,所述目标翻译内容为目标单元在所述待翻译文本中的翻译内容,所述目标单元为第1至第i

1个单元中与所述第i个单元相同,且距离所述第i个单元最近的单元;根据所述第二概率表中与所述第i个单元对应的翻译内容的概率,从所述第i个单元在所述第二概率表中的多个翻译内容中,选出所述第i个单元在所述待翻译文本中的翻译内容。3.根据权利要求2所述的方法,其特征在于,所述根据所述第i个单元在所述待翻译文本中的出现次数和位置信息,确定所述第i个单元的惩罚系数,包括:确定所述第i个单元与所述目标单元的目标距离;根据所述目标距离,以及所述第i个单元在所述待翻译文本中的出现次数,确定所述第i个单元的惩罚系数。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标距离,以及所述第i个单元在所述待翻译文本中的出现次数,确定所述第i个单元的惩罚系数,包括:从预先确定的对应关系中,获取与所述目标距离和所述第i个单元在所述待翻译文本中的出现次数对应的惩罚系数,以作为所述第i个单元的惩罚系数;其中,所述对应关系中包括单元之间的距离、单元在待翻译文本中的出现次数和惩罚系数的对应关系。5.根据...

【专利技术属性】
技术研发人员:刘绍孔李健武卫东陈明
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1