一种基于字形的翻译方法、装置、存储介质及电子设备制造方法及图纸

技术编号：22330359 阅读：49 留言：0更新日期：2019-10-19 12:19

本发明专利技术提供了一种基于字形的翻译方法、装置、存储介质及电子设备，其中，该方法包括：获取源语言为中文的目标文本，并确定目标文本的目标分词；确定目标分词中所包含的目标字在多种字体下分别对应的字图像，根据目标字的所有字图像生成目标字的字向量；根据目标分词中所有的目标字的字向量生成目标分词的词向量；基于目标分词的词向量对目标文本进行翻译处理，确定目标文本所对应的目标语言的翻译文本。通过本发明专利技术实施例提供的基于字形的翻译方法、装置、存储介质及电子设备，通过目标字的多个字图像生成目标字的字向量，该字向量结合了多种字体的字形特征，可以更加综合、全面地确定每个目标字所包含的字形特征，提高翻译结果的准确度。

A font based translation method, device, storage medium and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字形的翻译方法、装置、存储介质及电子设备
本专利技术涉及基于字形的翻译
，具体而言，涉及一种基于字形的翻译方法、装置、存储介质及电子设备。
技术介绍
目前，基于深度学习的序列到序列的编码-解码模型提供了一种机器翻译任务中经常用到的解决办法。但是由于机器翻译任务中很难获得数量足够大、质量足够高的训练数据，因此低频词和未登录词成为影响机器翻译效果的一个很重要的因素。低频词即为出现频率较小的词，未登录词主要集中在组织名称、人名、地点名称等一些命名实体上。由于低频词和未登录词的存在，导致现有的机器翻译效果较差。
技术实现思路
为解决上述问题，本专利技术实施例的目的在于提供一种基于字形的翻译方法、装置、存储介质及电子设备。第一方面，本专利技术实施例提供了一种基于字形的翻译方法，包括：获取源语言为中文的目标文本，并确定所述目标文本的目标分词；确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像，根据所述目标字的所有字图像生成所述目标字的字向量；根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量；基于所述目标分词的词向量对所述目标文本进行翻译处理，确定所述目标文本所对应的目标语言的翻译文本。在一种可能的实现方式中，所述根据所述目标字的所有字图像生成所述目标字的字向量包括：确定所述目标字的每个字图像的图像矩阵，对所述目标字的D个字图像的图像矩阵在深度方向上进行拼接处理，生成深度为D的图像张量；对所述图像张量进行编码处理，生成所述目标字的字向量；或者确定所述目标字的每个字图像的图像矩阵，分别对每个所述字图像的所述图像矩阵进行编码处理，生成每个所...

【技术保护点】
1.一种基于字形的翻译方法，其特征在于，包括：获取源语言为中文的目标文本，并确定所述目标文本的目标分词；确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像，根据所述目标字的所有字图像生成所述目标字的字向量；根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量；基于所述目标分词的词向量对所述目标文本进行翻译处理，确定所述目标文本所对应的目标语言的翻译文本。

【技术特征摘要】
1.一种基于字形的翻译方法，其特征在于，包括：获取源语言为中文的目标文本，并确定所述目标文本的目标分词；确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像，根据所述目标字的所有字图像生成所述目标字的字向量；根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量；基于所述目标分词的词向量对所述目标文本进行翻译处理，确定所述目标文本所对应的目标语言的翻译文本。2.根据权利要求1所述的方法，其特征在于，所述根据所述目标字的所有字图像生成所述目标字的字向量包括：确定所述目标字的每个字图像的图像矩阵，对所述目标字的D个字图像的图像矩阵在深度方向上进行拼接处理，生成深度为D的图像张量；对所述图像张量进行编码处理，生成所述目标字的字向量；或者确定所述目标字的每个字图像的图像矩阵，分别对每个所述字图像的所述图像矩阵进行编码处理，生成每个所述字图像的图像编码；根据所述目标字的D个字图像的图像编码生成所述目标字的字向量。3.根据权利要求1所述的方法，其特征在于，所述根据所述目标字的所有字图像生成所述目标字的字向量，包括：基于卷积神经网络对所述目标字的字图像进行编码处理，所述卷积神经网络的至少一个池化层输出c×c的第一中间向量；其中，所述池化层的过滤器尺寸为s×s，且步长也为s；输入至所述池化层的向量为a×a的向量，且a＝s×c；s和c均为预设的整数，且c≥2。4.根据权利要求1所述的方法，其特征在于，所述根据所述目标字的所有字图像生成所述目标字的字向量包括：基于卷积神经网络对所述目标字的字图像进行编码处理，所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核，将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量；c为预设的整数，且c≥2。5.根据权利要求1-4任一所述的方法，其特征在于，还包括：建立总损失函数L，在训练时基于所述总损失函数对翻译结果进行评价；其中，L＝(1-λ)L(mt)+λL(cls)；L(mt)表示中文翻译模型对应的损失函数，L(cls)表示字图像分类器的损失函数，λ表示所述字图像分类器对应的权重；所述字图像分类器为基于所述目标字的字向量对相应目标字进行分类的模型。6.根据权利要求1-4任一所述的方法，其特征在于，所述基于所述目标分词的词向量对所述目标文本进行翻译处理，确定所述目标文本所对应的目标语言的翻译文本，包括：根据...

【专利技术属性】
技术研发人员：李晓雅，
申请(专利权)人：北京香侬慧语科技有限责任公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人