基于统计的机器翻译方法、装置及电子设备制造方法及图纸

技术编号:14770016 阅读:179 留言:0更新日期:2017-03-08 14:00
本发明专利技术公开了一种基于统计的机器翻译方法、装置及电子设备,一种计算语义相似度的方法、装置和电子设备,以及一种词量化方法、装置和电子设备。其中所述基于统计的机器翻译方法,通过根据各个候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成待翻译句子到各个候选译文的翻译概率,其中所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度,并选取预设数量的翻译概率排在高位的候选译文,作为待翻译句子的译文。采用本申请提供的基于统计的机器翻译方法,能够在构建机器翻译模型时深入到自然语言的语义层面,避免译文与原文的语义有偏差,从而达到提高翻译质量的效果。

【技术实现步骤摘要】

本申请涉及机器翻译
,具体涉及一种基于统计的机器翻译方法、装置及电子设备。本申请同时涉及一种计算语义相似度的方法、装置和电子设备,以及一种词量化方法、装置和电子设备。
技术介绍
机器翻译是指,利用电子计算机实现自动从一种自然语言文本(源语言)到另一种自然语言文本(目标语言)的翻译,用以完成这一过程的软件称为机器翻译系统。随着电子计算机和互联网的发展和普及,各民族之间的文化交流越来越频繁,语言障碍的问题在新的时代再次凸显出来,人们比以往任何时候更加迫切需要机器翻译。机器翻译方法可划分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。前者由词典和规则库构成知识源;后者由经过划分并具有标注的语料库构成知识源,既不需要词典也不需要规则,以统计规律为主。基于语料库的方法可以分为基于统计(Statistics-based)的方法和基于实例(Example-based)的方法。下面分别对上述机器翻译方法进行简要说明。1)基于规则的机器翻译方法该方法一般需要借助于词典、模板和人工整理的规则进行。需要对要被翻译的源语言的原文进行分析,并对原文的意义进行表示,然后再生成等价的目标语言的译文。一个好的基于规则的机器翻译设备,需要有足够多、覆盖面足够广的翻译规则,并且有效地解决规则之间的冲突问题。由于规则通常需要人工整理,因此,人工成本高、很难得到数量非常多、覆盖非常全面的翻译规则,并且不同人给出的翻译规则冲突的概率较大。2)基于实例的机器翻译方法该方法以实例为基础,主要利用预处理过的双语语料和翻译词典进行翻译。在翻译的过程中,首先在翻译实例库搜索与原文片段相匹配的片段,再确定相应的译文片段,重新组合译文片段以得到最终的译文。可见,翻译实例的覆盖范围和存储方式直接影响着这种翻译技术的翻译质量和速度。3)基于统计的机器翻译方法该方法的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。从早期基于词的机器翻译已经过渡到基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性。该方法是基于双语语料库的,其将双语语料库中的翻译知识通过机器学习的方法表示为统计模型并抽取翻译规则,按照翻译规则将需要翻译的原文翻译为目标语言的译文。由于基于统计的机器翻译方法需要的人工处理少、不依赖于具体的实例、不受领域限制、处理速度快,所以相对于其它两种机器翻译技术具有明显的优势,是目前非限定领域机器翻译中性能较佳的一种方法。综上所述,相对于前两种方法而言,基于统计的机器翻译方法是目前最为常用的机器翻译方法。自上世纪90年代以来,基于统计的机器翻译方法取得了飞速发展,并逐渐成为了机器翻译研究领域的核心内容。在此期间,学者们提出了多种基于统计的机器翻译方法,包括基于词的、基于短语的、基于层次短语的、基于句法的和基于语义的统计机器翻译方法。现有的基于语义的统计机器翻译方法,是一种完全基于语义的统计机器翻译方法。该方法的缺点非常突出,首先,此类翻译方法所使用语义表达形式过于复杂,且通用性不够(即相同语义对应不同语言的表达形式有较大差别),同时搭建特定语言的语义分析器的难度极大,所以很难将语言表达结构作为一种“中间语”来作用于翻译方法。其次,完全基于语义的统计机器翻译系统所训练出来的语义翻译规则一般都过于臃肿,故此类翻译方法现阶段只停留在理论实验阶段,没法在工业界中批量使用。而现有的其它基于统计的机器翻译方法,在构建机器翻译模型时,并没有深入到自然语言的语义层面,因而导致产生的译文语义与原文语义有偏差,达不到语义一致的翻译效果,从而严重地降低了机器翻译质量。例如,源语言英文“theappleproduct”里的“apple”一词表达的语义是“苹果公司”,若将其翻译成食品的“苹果”,则造成语义的偏差,从而严重降低用户的使用体验。综上所述,由于完全基于语义的统计机器翻译方法需要借助复杂的语义表达结构,因而该方法的实用性较差。而其它基于统计的机器翻译方法,没有考虑语义成分信息,因而在处理句法语义差别较大的语言对时会凸显翻译语义不一致问题,导致虽然翻译结果“词词都对”却无法被人阅读的问题。通常,在基于统计的机器翻译方法中,可以通过获取高质量、大规模的双语平行语料库的方法,改善上述译文语义与原文语义有偏差的问题。然而,对于很多语言来说,要获取高质量、大规模的双语平行语料库较为困难。可见,通过获取高质量、大规模的双语平行语料库的方法,改善基于统计的机器翻译方法存在的译文与原文语义有偏差的问题,并不是一个行之有效的方法。综上所述,采用现有的基于统计的机器翻译方法进行翻译时,存在原文与译文语义不一致的问题。
技术实现思路
本申请提供一种基于统计的机器翻译方法、装置及电子设备,以解决现有技术存在原文与译文语义不一致的问题。本申请另外提供一种计算语义相似度的方法、装置和电子设备,以及一种词量化方法、装置和电子设备。本申请提供一种基于统计的机器翻译方法,包括:根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文;根据各个候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译句子到各个候选译文的翻译概率;所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度;选取预设数量的所述翻译概率排在高位的候选译文,作为所述待翻译句子的译文。可选的,所述待翻译句子和候选译文的语义相似度,采用如下步骤计算:获取所述待翻译句子的句子向量,以及所述候选译文的句子向量;计算所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离,作为所述待翻译句子和候选译文的语义相似度;其中,所述待翻译句子的句子向量和所述候选译文的句子向量包括句子的语义信息。可选的,所述待翻译句子的句子向量和所述候选译文的句子向量,采用如下步骤生成:根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本;以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标,学习获取所述待翻译句子的句子向量和所述候选译文的句子向量;其中,所述源语言是指所述待翻译句子所属的语言;所述目标语言是指所述候选译文所属的语言;所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。可选的,所述根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本,包括:解析所述待翻译句子和所述候选译文,获取所述待翻译句子和所述候选译文包括的词;根据所述词与词向量的对应关系,获取所述待翻译句子和所述候选译文包括的词对应的词向量;随机设置所述待翻译句子的句子向量和所述候选译文的句子向量;针对所述待翻译句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述待本文档来自技高网
...
基于统计的机器翻译方法、装置及电子设备

【技术保护点】
一种基于统计的机器翻译方法,其特征在于,包括:根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文;根据各个候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译句子到各个候选译文的翻译概率;所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度;选取预设数量的所述翻译概率排在高位的候选译文,作为所述待翻译句子的译文。

【技术特征摘要】
1.一种基于统计的机器翻译方法,其特征在于,包括:根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文;根据各个候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译句子到各个候选译文的翻译概率;所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度;选取预设数量的所述翻译概率排在高位的候选译文,作为所述待翻译句子的译文。2.根据权利要求1所述的基于统计的机器翻译方法,其特征在于,所述待翻译句子和候选译文的语义相似度,采用如下步骤计算:获取所述待翻译句子的句子向量,以及所述候选译文的句子向量;计算所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离,作为所述待翻译句子和候选译文的语义相似度;其中,所述待翻译句子的句子向量和所述候选译文的句子向量包括句子的语义信息。3.根据权利要求2所述的基于统计的机器翻译方法,其特征在于,所述待翻译句子的句子向量和所述候选译文的句子向量,采用如下步骤生成:根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本;以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标,学习获取所述待翻译句子的句子向量和所述候选译文的句子向量;其中,所述源语言是指所述待翻译句子所属的语言;所述目标语言是指所述候选译文所属的语言;所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。4.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述根
\t据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本,包括:解析所述待翻译句子和所述候选译文,获取所述待翻译句子和所述候选译文包括的词;根据所述词与词向量的对应关系,获取所述待翻译句子和所述候选译文包括的词对应的词向量;随机设置所述待翻译句子的句子向量和所述候选译文的句子向量;针对所述待翻译句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述待翻译句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;针对所述候选译文包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述候选译文的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。5.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标,学习获取所述待翻译句子的句子向量和所述候选译文的句子向量,包括:根据已构建的各个神经网络语言模型样本,计算第一目标函数的值;判断所述第一目标函数的值是否大于上一次所述第一目标函数的值;若是,则采用最优化算法,更新所述待翻译句子的句子向量和所述候选译文的句子向量,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第一目标函数的值的步骤;其中,所述第一目标函数,是指第一平均值与第二平均值之和,与所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离的差值;所述第一平均值,是指所述与待翻译句子包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值;所述第二平均值,是指所述与候选译文包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值。6.根据权利要求5所述的基于统计的机器翻译方法,其特征在于,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述待翻译句子的句子向量和所述候选译文的句子向量,包括:根据预设的学习速率和所述第一目标函数,计算所述待翻译句子的句子向量和所述候选译文的句子向量的梯度;根据所述待翻译句子的句子向量和所述候选译文的句子向量的梯度,更新所述待翻译句子的句子向量和所述候选译文的句子向量。7.根据权利要求2所述的基于统计的机器翻译方法,其特征在于,所述向量之间的距离包括余弦夹角距离或欧式距离。8.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述神经网络语言模型包括前向神经网络算法语言模型或循环神经网络语言模型。9.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述神经网络语言模型的输入层到隐藏层的各个连接权重均相同;所述神经网络语言模型的输入层到输出层的各个连接权重为0。10.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述神经网络语言模型的隐藏层的激励函数为线性函数。11.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述神经网络语言模型的隐藏层的向量值为输入层的各个向量值的加和平均值或组合拼接。12.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,采用如下步骤生成:获取平行语料库;解析所述平行语料库包括的各个句子,获取所述平行语料库包括的所有词;为所述平行语料库包括的各个词设置第一预设维度的词向量,形成所述词和词向量的对应关系;以及为所述各个句子随机设置第二预设维度的句子向量;针对所述平行语料库中的各对平行语料,根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模
\t型样本;以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。13.根据权利要求12所述的基于统计的机器翻译方法,其特征在于,所述根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本,包括:解析所述源语言句子和所述目标语言句子,获取所述源语言句子和所述目标语言句子包括的词;根据所述词与词向量的对应关系,获取所述源语言句子和所述目标语言句子包括的词对应的词向量;针对所述源语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述源语言句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;针对所述目标语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述目标语言句子的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。14.根据权利要求12所述的基于统计的机器翻译方法,其特征在于,所述以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,包括:根据已构建的各个神经网络语言模型样本,计算第二目标函数的值;判断所述第二目标函数的值是否大于上一次所述第二目标函数的值;若是,则采用最优化算法,更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第二目标函数的值的步骤;其中,所述第二目标函数,是指第三平均值与第四平均值之和,与所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和的差值;所述第三平均值,是指所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值;所述第四平均值,是指所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值。15.根据权利要求14所述的基于统计的机器翻译方法,其特征在于,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,包括:根据预设的学习速率和所述第二目标函数,计算所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度;根据所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型的连接权重的梯度,更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。16.根据权利要求1-15任意一项所述的基于统计的机器翻译方法,其特征在于,所述对翻译概率产生影响的特征还包括:所述待翻译句子到所述候选译文的短语翻译概率、所述候选译文到所述待翻译句子的短语翻译概率、所述待翻译句子到所述候选译文的词翻译概率、所述候选译文到所述待翻译句子的词翻译概率、所述候选译文的句子概率和所述待翻译句子与所述候选译文调序与不调序的分类概率的至少一者。17.根据权利要求1-15任意一项所述的基于统计的机器翻译方法,其特征在于,所述根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文,采用如下方式算法实现:CYK解码算法、基于栈的解码算法或移进-归约解码算法。18.根据权利要求1所述的基于统计的机器翻译方法,其特征在于,所述根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文,包括:解析所述待翻译句子,生成所述待翻译句子的各个子字符串;根据所述预先生成的翻译规则,获取各个所述子字符串的候选译文;根据所述子字符串在所述待翻译句子中的位置,将相邻子字符串的候选译文进行组合拼接,形成所述待翻译句子的候选译文。19.根据权利要求18所述的基于统计的机器翻译方法,其特征在于,所述根据所述预先生成的翻译规则,获取各个所述子字符串的候选译文,包括:针对各个所述翻译规则,判断所述子字符串是否属于所述翻译规则;若上述判断结果为是,则根据所述翻译规则,生成所述子字符串的候选译文。20.根据权利要求1所述的基于统计的机器翻译方法,其特征在于,通过线性回归算法,从预先存储的平行预料中学习出所述翻译概率预测模型。21.一种基于统计的机器翻译装置,其特征在于,包括:生成候选译文单元,用于根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文;计算翻译概率单元,用于根据各个候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译句子到各个候选译文的翻译概率;所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度;选取单元,用于选取预设数量的所述翻译概率排在高位的候选译文,作为所述待翻译句子的译文。22.根据权利要求21所述的基于统计的机器翻译装置,其特征在于,还包括:计算语义相似度单元,用于计算所述待翻译句子和候选译文的语义相似度。23.根据权利要求22所述的基于统计的机器翻译装置,其特征在于,所述计算语义相似度单元包括:获取子单元,用于获取所述待翻译句子的句子向量,以及所述候选译文的句子向量;计算子单元,用于计算所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离,作为所述待翻译句子和候选译文的语义相似度;其中,所述待翻译句子的句子向量和所述候选译文的句子向量包括句子的语义信息。24.根据权利要求23所述的基于统计的机器翻译装置,其特征在于,还包括:生成句子向量单元,用于生成所述待翻译句子的句子向量,以及所述候选译文的句子向量。25.根据权利要求24所述的基于统计的机器翻译装置,其特征在于,所述生成句子向量单元包括:构建样本子单元,用于根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待翻译句子和候选译文包括的N元短语分别对应的神经网络语言模型样本;学习子单元,用于以最大化所述与待翻译句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与候选译文包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离作为训练目标,学习获取所述待翻译句子的句子向量和所述候选译文的句子向量;其中,所述源语言是指所述待翻译句子所属的语言;所述目标语言是指所述候选译文所属的语言;所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。26.根据权利要求25所述的基于统计的机器翻译装置,其特征在于,所述构建样本子单元包括:解析子单元,用于解析所述待翻译句子和所述候选译文,获取所述待翻译句子和所述候选译文包括的词;映射子单元,用于根据所述词与词向量的对应关系,获取所述待翻译句子和所述候选译文包括的词对应的词向量;设置子单元,用于随机设置所述待翻译句子的句子向量和所述候选译文的句子向量;第一构建子单元,用于针对所述待翻译句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述待翻译句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;第二构建子单元,用于针对所述候选译文包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述候选译文的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。27.根据权利要求25所述的基于统计的机器翻译装置,其特征在于,所述学习子单元包括:计算子单元,用于根据已构建的各个神经网络语言模型样本,计算第一目标函数的值;判断子单元,用于判断所述第一目标函数的值是否大于上一次所述第一目标函数的值;若是,则采用最优化算法,更新所述待翻译句子的句子向量和所述候选译文的句子向量,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第一目标函数的值的步骤;其中,所述第一目标函数,是指第一平均值与第二平均值之和,与所述待翻译句子的句子向量和所述候选译文的句子向量之间的距离的差值;所述第一平均值,是指所述与待翻译句子包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值;所述第二平均值,是指所述与候选译文包括的各个N元短语对应的神经网络语言模型样本的似然概率的平均值。28.根据权利要求25所述的基于统计的机器翻译装置,其特征在于,还包括:训练单元,用于生成所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。29.根据权利要求28所述的基于统计的机器翻译装置,其特征在于,所述
\t训练单元包括:获取子单元,用于获取平行语料库;解析子单元,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的所有词;设置子单元,用于为所述平行语料库包括的各个词设置第一预设维度的词向量,形成所述词和词向量的对应关系;以及为所述各个句子随机设置第二预设维度的句子向量;构建子单元,用于针对所述平行语料库中的各对平行语料,根据所述词与词向量的对应关系、所述平行语料中源语言句子和目标语言句子分别对应的句子向量、预设的与源语言对应的神经网络语言模型和预设的与目标语言对应的神经网络语言模型,构建与源语言句子和目标语言句子包括的N元短语分别对应的神经网络语言模型样本;学习子单元,用于以最大化所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和作为训练目标,学习获取所述词与词向量的对应关系、所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型。30.根据权利要求29所述的基于统计的机器翻译装置,其特征在于,所述构建子单元包括:解析子单元,用于解析所述源语言句子和所述目标语言句子,获取所述源语言句子和所述目标语言句子包括的词;映射子单元,用于根据所述词与词向量的对应关系,获取所述源语言句子和所述目标语言句子包括的词对应的词向量;第一构建子单元,用于针对所述源语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述源语言句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;第二构建子单元,用于针对所述目标语言句子包括的各个N元短语,根据
\t所述N元短语包括的词对应的词向量和所述目标语言句子的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。31.根据权利要求29所述的基于统计的机器翻译装置,其特征在于,所述学习子单元包括:计算子单元,用于根据已构建的各个神经网络语言模型样本,计算第二目标函数的值;判断子单元,用于判断所述第二目标函数的值是否大于上一次所述第二目标函数的值;若是,则采用最优化算法,更新所述词向量、所述源语言句子的句子向量和所述目标语言的句子向量及所述与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第二目标函数的值的步骤;其中,所述第二目标函数,是指第三平均值与第四平均值之和,与所述平行语料库中所有成对的源语言句子的句子向量和目标语言句子的句子向量之间的距离之和的差值;所述第三平均值,是指所述平行语料库中所有源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值;所述第四平均值,是指所述平行语料库中所有目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率的平均值。32.根据权利要求21-31任意一项所述的基于统计的机器翻译装置,其特征在于,所述生成候选译文单元包括:解析子单元,用于解析所述待翻译句子,生成所述待翻译句子的各个子字符串;获取子单元,用于根据所述预先生成的翻译规则,获取各个所述子字符串的候选译文;拼接子单元,用于根据所述子字符串在所述待翻译句子中的位置,将相邻子字符串的候选译文进行组合拼接,形成所述待翻译句子的候选译文。33.根据权利要求32所述的基于统计的机器翻译装置,其特征在于,所述获取子单元包括:判断子单元,用于针对各个所述翻译规则,判断所述子字符串是否属于所述翻译规则;生成子单元,用于若上述判断结果为是,则根据所述翻译规则,生成所述子字符串的候选译文。34.一种电子设备,其特征在于,包括:显示器;处理器;以及存储器,所述存储器用于存储基于统计的机器翻译装置,所述基于统计的机器翻译装置被所述处理器执行时,包括如下步骤:根据预先生成的翻译规则,对待翻译句子进行解码,生成所述待翻译句子的候选译文;根据各个候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译句子到各个候选译文的翻译概率;所述对翻译概率产生影响的特征至少包括所述待翻译句子和所述候选译文的语义相似度;选取预设数量的所述翻译概率排在高位的候选译文,作为所述待翻译句子的译文。35.一种语义相似度的计算方法,其特征在于,包括:获取待计算的源语言句子的句子向量,以及待计算的目标语言句子的句子向量;计算所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离,作为所述待计算的源语言句子和待计算的目标语言句子的语义相似度;其中,所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量包括句子的语义信息。36.根据权利要求35所述的语义相似度的计算方法,其特征在于,所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量,采用如下步骤生成:根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待计算的源语言句子和待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本;以最大化所述与待计算的源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距
\t离作为训练目标,学习获取所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量;其中,所述神经网络语言模型的输入层包括与所述N元短语所在的句子对应的句子向量。37.根据权利要求36所述的语义相似度的计算方法,其特征在于,所述根据预先生成的词与词向量的对应关系、与源语言对应的神经网络语言模型和与目标语言对应的神经网络语言模型,构建与所述待计算的源语言句子和待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本,包括:解析所述待计算的源语言句子和所述待计算的目标语言句子,获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词;根据所述词与词向量的对应关系,获取所述待计算的源语言句子和所述待计算的目标语言句子包括的词对应的词向量;随机设置所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量;针对所述待计算的源语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述待计算的源语言句子的句子向量,以及所述与源语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本;针对所述待计算的目标语言句子包括的各个N元短语,根据所述N元短语包括的词对应的词向量和所述待计算的目标语言句子的句子向量,以及所述与目标语言对应的神经网络语言模型,构建与所述N元短语对应的神经网络语言模型样本。38.根据权利要求36所述的语义相似度的计算方法,其特征在于,所述以最大化所述与待计算的源语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,以及所述与待计算的目标语言句子包括的N元短语分别对应的神经网络语言模型样本的似然概率之和,同时最小化所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离作为训练目标,学习获取所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量,包括:根据已构建的各个神经网络语言模型样本,计算第一目标函数的值;判断所述第一目标函数的值是否大于上一次所述第一目标函数的值;若是,则采用最优化算法,更新所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量,并返回执行所述根据已构建的各个神经网络语言模型样本,计算第一目标函数的值的步骤;其中,所述第一目标函数,是指第一平均值与第二平均值之和,与所述待计算的源语言句子的句子向量和所述待计算的目标语言句子的句子向量之间的距离的差值;所述第一平均值,是指所述与待计算的源语言句子包括的各个N元短语对应的神经网络语言模...

【专利技术属性】
技术研发人员:曾晓东骆卫华林锋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1