一种基于字形的翻译方法、装置、存储介质及电子设备制造方法及图纸

技术编号:22330359 阅读:49 留言:0更新日期:2019-10-19 12:19
本发明专利技术提供了一种基于字形的翻译方法、装置、存储介质及电子设备,其中,该方法包括:获取源语言为中文的目标文本,并确定目标文本的目标分词;确定目标分词中所包含的目标字在多种字体下分别对应的字图像,根据目标字的所有字图像生成目标字的字向量;根据目标分词中所有的目标字的字向量生成目标分词的词向量;基于目标分词的词向量对目标文本进行翻译处理,确定目标文本所对应的目标语言的翻译文本。通过本发明专利技术实施例提供的基于字形的翻译方法、装置、存储介质及电子设备,通过目标字的多个字图像生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征,提高翻译结果的准确度。

A font based translation method, device, storage medium and electronic equipment

【技术实现步骤摘要】
一种基于字形的翻译方法、装置、存储介质及电子设备
本专利技术涉及基于字形的翻译
,具体而言,涉及一种基于字形的翻译方法、装置、存储介质及电子设备。
技术介绍
目前,基于深度学习的序列到序列的编码-解码模型提供了一种机器翻译任务中经常用到的解决办法。但是由于机器翻译任务中很难获得数量足够大、质量足够高的训练数据,因此低频词和未登录词成为影响机器翻译效果的一个很重要的因素。低频词即为出现频率较小的词,未登录词主要集中在组织名称、人名、地点名称等一些命名实体上。由于低频词和未登录词的存在,导致现有的机器翻译效果较差。
技术实现思路
为解决上述问题,本专利技术实施例的目的在于提供一种基于字形的翻译方法、装置、存储介质及电子设备。第一方面,本专利技术实施例提供了一种基于字形的翻译方法,包括:获取源语言为中文的目标文本,并确定所述目标文本的目标分词;确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像,根据所述目标字的所有字图像生成所述目标字的字向量;根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本。在一种可能的实现方式中,所述根据所述目标字的所有字图像生成所述目标字的字向量包括:确定所述目标字的每个字图像的图像矩阵,对所述目标字的D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者确定所述目标字的每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述目标字的D个字图像的图像编码生成所述目标字的字向量。在一种可能的实现方式中,所述根据所述目标字的所有字图像生成所述目标字的字向量,包括:基于卷积神经网络对所述目标字的字图像进行编码处理,所述卷积神经网络的至少一个池化层输出c×c的第一中间向量;其中,所述池化层的过滤器尺寸为s×s,且步长也为s;输入至所述池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。在一种可能的实现方式中,所述根据所述目标字的所有字图像生成所述目标字的字向量包括:基于卷积神经网络对所述目标字的字图像进行编码处理,所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。在一种可能的实现方式中,该方法还包括:建立总损失函数L,在训练时基于所述总损失函数对翻译结果进行评价;其中,L=(1-λ)L(mt)+λL(cls);L(mt)表示中文翻译模型对应的损失函数,L(cls)表示字图像分类器的损失函数,λ表示所述字图像分类器对应的权重;所述字图像分类器为基于所述目标字的字向量对相应目标字进行分类的模型。在一种可能的实现方式中,所述基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本,包括:根据所述目标文本的所有目标分词的词向量生成所述目标文本的分词序列[x1,x2,…,xt,…xn];n为所述目标文本包含的目标分词总数,xt表示第t个目标分词的词向量;将所述分词序列作为编码器的输入,生成所述分词序列对应的编码隐向量序列[h1,h2,…,ht,…hn],ht表示第t个编码时刻的编码隐向量;根据所述编码隐向量序列和解码器在当前解码时刻的解码隐向量si进行点积处理,确定所述编码隐向量序列中每一个编码隐向量的权重,并对所述编码隐向量进行加权处理,生成当前解码时刻的注意力向量ci;在不同的解码时刻重复上述生成注意力向量的过程,直至解码结束,确定每个解码时刻的注意力向量,并根据所有的解码隐向量和注意力向量生成所述目标文本所对应的目标语言的翻译文本。第二方面,本专利技术实施例还提供了一种基于字形的翻译装置,包括:获取模块,用于获取源语言为中文的目标文本,并确定所述目标文本的目标分词;字向量确定模块,用于确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像,根据所述目标字的所有字图像生成所述目标字的字向量;词向量确定模块,用于根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;翻译模块,用于基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本。在一种可能的实现方式中,所述字向量确定模块根据所述目标字的所有字图像生成所述目标字的字向量包括:确定所述目标字的每个字图像的图像矩阵,对所述目标字的D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者确定所述目标字的每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述目标字的D个字图像的图像编码生成所述目标字的字向量。第三方面,本专利技术实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的基于字形的翻译方法。第四方面,本专利技术实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的基于字形的翻译方法。本专利技术实施例上述第一方面提供的方案中,以字为单位确定目标文本每个分词的词向量,且利用不同字体中丰富的字形信息,通过目标字的多个字图像生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征;此外,中文为象形文字,不同字体中也包含丰富的语义信息,即目标字的字向量中包含字形特征和语义特征,基于该字向量生成词向量,可以更加有效地识别未登录词和低频词,可以进一步提高翻译结果的准确度。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术实施例所提供的一种基于字形的翻译方法的流程图;图2示出了本专利技术实施例所提供的基于字形的翻译方法中,卷积神经网络的一种结构示意图;图3示出了本专利技术实施例所提供的一种基于字形的翻译装置的结构示意图;图4示出了本专利技术实施例所提供的用于执行基于字形的翻译方法的电子设备的结构示意图。具体实施方式在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的本文档来自技高网...

【技术保护点】
1.一种基于字形的翻译方法,其特征在于,包括:获取源语言为中文的目标文本,并确定所述目标文本的目标分词;确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像,根据所述目标字的所有字图像生成所述目标字的字向量;根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本。

【技术特征摘要】
1.一种基于字形的翻译方法,其特征在于,包括:获取源语言为中文的目标文本,并确定所述目标文本的目标分词;确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像,根据所述目标字的所有字图像生成所述目标字的字向量;根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标字的所有字图像生成所述目标字的字向量包括:确定所述目标字的每个字图像的图像矩阵,对所述目标字的D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者确定所述目标字的每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述目标字的D个字图像的图像编码生成所述目标字的字向量。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标字的所有字图像生成所述目标字的字向量,包括:基于卷积神经网络对所述目标字的字图像进行编码处理,所述卷积神经网络的至少一个池化层输出c×c的第一中间向量;其中,所述池化层的过滤器尺寸为s×s,且步长也为s;输入至所述池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。4.根据权利要求1所述的方法,其特征在于,所述根据所述目标字的所有字图像生成所述目标字的字向量包括:基于卷积神经网络对所述目标字的字图像进行编码处理,所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。5.根据权利要求1-4任一所述的方法,其特征在于,还包括:建立总损失函数L,在训练时基于所述总损失函数对翻译结果进行评价;其中,L=(1-λ)L(mt)+λL(cls);L(mt)表示中文翻译模型对应的损失函数,L(cls)表示字图像分类器的损失函数,λ表示所述字图像分类器对应的权重;所述字图像分类器为基于所述目标字的字向量对相应目标字进行分类的模型。6.根据权利要求1-4任一所述的方法,其特征在于,所述基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本,包括:根据...

【专利技术属性】
技术研发人员:李晓雅
申请(专利权)人:北京香侬慧语科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1