This application discloses a text translation method, device, device and readable storage medium. Firstly, the application determines the sparse words in the text to be translated and obtains the explanatory information of the sparse words. The explanatory information is the universal interpretation of the sparse words by using common words. Further, according to the explanatory information, the word orientation of the sparse words in the text to be translated is determined. Finally, the word vectors of the sparse words and the other words except the sparse words in the text to be translated are coded and decoded. Thus, the application determines the word vectors of sparse words based on the interpretation information of sparse words, and then codes and decodes the word vectors of all words in the translated text. The translated results can correctly and clearly express the complete semantic content of the text to be translated, thus overcoming the incorrect semantic expression caused by the difficulty of training sparse words to get the word vectors in the existing machine translation methods. Or incomplete shortcomings.
【技术实现步骤摘要】
一种文本翻译方法、装置、设备及可读存储介质
本申请涉及信息识别
,更具体地说,涉及一种文本翻译方法、装置、设备及可读存储介质。
技术介绍
机器翻译是利用计算机将源语言转换为目标语言的过程,机器翻译过程中的常见问题之一是对稀疏词的翻译,稀疏词是出现频率比较低的单词,在训练语料中比较稀疏,所以通常对于稀疏词的翻译采用类标签替换的方式。类标签替换法是将每个稀疏词替换成一个标签,然后将标签作为占位符替换原有的稀疏词,再对文本进行训练和翻译。这种方案的缺点在于,标签的词向量难以训练,且得到的训练结果往往不能表达稀疏词的真实词义信息,从而破坏了原有文本的完整性和流畅度,导致最终得到的翻译结果难以正确且清楚的表达原有文本完整的语义信息。示例如,利用类标签替换翻译方法对英语语句“Hebeiissonice”进行机器翻译时,得到的中文翻译结果为“Hebei太好了”,在中文中“Hebei”可以理解为地名“河北”或者人名“何贝”,显然,此方法没有对稀疏词“Hebei”进行翻译,从而不能正确且清楚的表达原有语义内容。
技术实现思路
有鉴于此,本申请提供了一种文本翻译方法、装置、设备及可 ...
【技术保护点】
1.一种文本翻译方法,其特征在于,包括:确定待翻译文本中的稀疏词;获取所述稀疏词的解释信息,所述解释信息为使用通用词汇对所述稀疏词的通用性解释;根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示;将所述待翻译文本中所述稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译。
【技术特征摘要】
1.一种文本翻译方法,其特征在于,包括:确定待翻译文本中的稀疏词;获取所述稀疏词的解释信息,所述解释信息为使用通用词汇对所述稀疏词的通用性解释;根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示;将所述待翻译文本中所述稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译。2.根据权利要求1所述的方法,其特征在于,所述获取所述稀疏词的解释信息,包括:查询先验的单词通用解释集合,获取所述稀疏词的各解释信息;从所述稀疏词的各解释信息中确定候选解释信息。3.根据权利要求2所述的方法,其特征在于,所述从所述稀疏词的各解释信息中确定候选解释信息,包括:从所述稀疏词的各解释信息中随机确定一条解释信息作为候选解释信息。4.根据权利要求2所述的方法,其特征在于,所述从所述稀疏词的各解释信息中确定候选解释信息,包括:根据所述稀疏词在所述待翻译文本中的目标词性,从所述稀疏词的各解释信息中,选取所述目标词性对应的解释信息,作为候选解释信息;或,将所述稀疏词的各解释信息均确定为候选解释信息。5.根据权利要求3所述的方法,其特征在于,所述根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示,包括:将所述候选解释信息进行编码,得到编码信息;将所述编码信息映射到词向量空间,得到映射后的词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。6.根据权利要求4所述的方法,其特征在于,所述根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示,包括:对每一所述候选解释信息进行编码,得到每一候选解释信息对应的编码信息;将每一所述编码信息映射到词向量空间,得到映射后的各个词向量,作为所述稀疏词的候选词向量;根据所述稀疏词的各候选词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。7.根据权利要求6所述的方法,其特征在于,所述根据所述稀疏词的各候选词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示,包括:将所述稀疏词的各候选词向量的平均值,确定为所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示;或,根据所述稀疏词的各候选词向量,及所述待翻译文本中其余词的词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。8.根据权利要求7所述的方法,其特征在于,所述根据所述稀疏词的各候选词向量,及所述待翻译文本中其余词的词向量,确定所述稀疏词的目标词向量,包括:确定所述稀疏词的各候选词向量的平均值,得到所述稀疏词的平均词向量;将所述稀疏词的平均词向量及所述待翻译文本中其余词的词向量一起进行编码,得到编码后所述稀疏词的编码信息;将编码后所述稀疏词的编码信息映射到词向量空间,得到映射后所述稀疏词的词向量;计算映射后所述稀疏词的词向量与所述稀疏词的每一候选词向量的语义相似度;根据语义相似度,及所述稀疏词的每一候选词向量,确定所述稀疏词的目标词向量。9.根据权利要求8所述的方法,其特征在于,所述根据语义相似度,及所述稀疏词的每一候选词向量,确定所述稀疏词的目标词向量,包括:选取语义相似度最高的候选词向量,作为所述稀疏词的目标词向量;或,将每一候选词向量的语义相似度作为权重,对各候选词向量按照权重加权求和,得到的词向量作为所述稀疏词的目标词向量。10.一种文本翻译装置,其特征在于,包括:稀疏词确定单元,用于确定待翻译文本中的稀疏词;解释信息获取单元,用于获取所述稀疏词的解释信息,所述解释信息为使用通用词汇对所述稀疏词的通用性解释;词向量确定单元,用于根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表...
【专利技术属性】
技术研发人员:马志强,刘俊华,王智国,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。