当前位置: 首页 > 专利查询>清华大学专利>正文

一种翻译处理方法及系统技术方案

技术编号:19543767 阅读:19 留言:0更新日期:2018-11-24 20:36
本发明专利技术实施例提供一种翻译处理方法及系统,其中方法包括:获取源语言的语句;将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;根据所述向量序列逐词地预测目标语言中相应的候选词;根据预测得到的候选词生成目标语言的语句,在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词。本发明专利技术实施例使得数据稀疏的语言对可以获得更佳的翻译质量。

A Translation Processing Method and System

The embodiment of the present invention provides a translation processing method and system, in which the method includes: acquiring the statement of the source language; encoding the statement of the source language to obtain a vector sequence, which includes the word vectors separately converted from each participle separated from the statement; and word-by-word according to the vector sequence. Predict the corresponding candidate words in the target language; generate the sentences of the target language according to the predicted candidate words; in the prediction processing of any of the candidate words, obtain multiple primary words from the presupposed translation vocabulary, and calculate the translation probability of each primary word according to the pre-trained machine translation model, so as to translate according to the said translation. The probability is to select the candidate words from the primary words. The embodiment of the present invention enables sparse language pairs to obtain better translation quality.

【技术实现步骤摘要】
一种翻译处理方法及系统
本专利技术涉及机器翻译
,更具体地,涉及一种翻译处理方法及系统。
技术介绍
随着国际交流的日益深入,人们对语言翻译的需求与日俱增。然而,世界上存在的语言种类繁多,各有特征,形式灵活,使得训练所有语言对之间的机器翻译模型,成为尚待解决的难题。为了实现自动的机器翻译,目前的技术通常基于神经网络的方法。神经网络是数据驱动的,为此,需要收集大规模高质量的平行语料以获得可靠的翻译模型。然而,高质量的平行语料常常只存在于少量的几种语言之间,并且往往受限于某些特定的领域,比如政府文件、新闻等。因此,基于神经网络的机器翻译面临着一个很大的问题:大部分的语言对没有质量很高、数量很多的平行语料。在小规模的数据上训练的神经机器翻译模型翻译效果是很差的,因此导致了大多数的语言对没办法训练一个可靠的神经网络翻译模型。为了解决这个问题,现有技术提出了用多语言的神经机器翻译模型来缓解数据稀疏问题。这些方法的核心思想是“共享”,即同时利用多个语言对的平行预料来训练神经机器翻译模型,共享神经网络的一些子节点甚至是整个神经网络,从而可以在一定程度上解决训练语料稀疏的问题。然而,由于每种语言都有自己独特的特性如语序、词汇等等,只利用“共享”的神经网络去训练多语言翻译模型可能会忽略每种语言的特性,从而导致翻译模型的翻译效果变差。
技术实现思路
本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种翻译处理方法及系统。根据本专利技术实施例的第一个方面,提供一种翻译处理方法,包括:获取源语言的语句;将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;根据所述向量序列逐词地预测目标语言中相应的候选词;根据预测得到的候选词生成目标语言的语句;其中,在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词;所述预先训练的机器翻译模型根据公有翻译模型输出的隐状态和私有翻译模型输出的隐状态建立,所述公有翻译模型根据多个样本语言对训练而成,所述私有翻译模型根据所述源语言和目标语言对应的样本语言对训练而成。根据本专利技术实施例的第二个方面,还提供一种翻译处理系统,包括:源语句获取模块,用于获取源语言的语句;编码模块,用于将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;预测模块,用于根据所述向量序列逐词地预测目标语言中相应的候选词;目标语句生成模块,用于根据预测得到的候选词生成目标语言的语句;其中,所述预测模块在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词;所述预先训练的机器翻译模型根据公有翻译模型输出的隐状态和私有翻译模型输出的隐状态建立,所述公有翻译模型根据多个样本语言对训练而成,所述私有翻译模型根据所述源语言和目标语言对应的样本语言对训练而成。根据本专利技术的第三方面,还提供一种翻译处理设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的翻译处理方法。根据本专利技术的第四方面,还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的翻译处理方法。本专利技术提出的翻译处理方法及系统,通过在获取源语言的语句后,对其进行编码得到向量序列,在根据向量序列主次第预测目标语言中相应的候选词,基于结合了公有翻译模型和私有翻译模型的softmax模型,预测目标语言中的候选词,最终根据候选词自动生成目标语言的语句,使得数据稀疏的语言对可以获得更佳的翻译质量。本方法在不同规模的训练数据集以及多个语言对的翻译上都取得了优异的效果,具有良好的一致性和实用性。附图说明图1为根据本专利技术实施例的一种翻译处理方法的流程示意图;图2为根据本专利技术实施例的从初选词中选出候选词的流程示意图;图3为根据本专利技术实施例的计算每个初选词的公有翻译模型的隐状态的流程示意图;图4为根据本专利技术实施例的计算每个初选词的私有翻译模型的隐状态的流程示意图;图5为根据本专利技术实施例的一种翻译处理系统的功能框图;图6为根据本专利技术实施例的一种翻译处理设备的框图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。现有技术提出了用多语言的神经机器翻译模型来缓解数据稀疏问题。这些方法的核心思想是“共享”,即同时利用多个语言对的平行预料来训练神经机器翻译模型,共享神经网络的一些子节点甚至是整个神经网络,从而可以在一定程度上解决训练语料稀疏的问题。然而,由于每种语言都有自己独特的特性如语序、词汇等等,只利用“共享”的神经网络去训练多语言翻译模型可能会忽略每种语言的特性,从而导致翻译模型的翻译效果变差。为了克服现有技术的上述问题,本专利技术实施例的基本构思是,通过预先训练的公有翻译模型(相当于现有的共享神经网络)获得语言间的共性,再通过预先训练的私有翻译模型(即针对源语言和目标语言构成的语言对所训练的翻译模型)获得语言间的特性,最终结合语言之间的共性和特性进行翻译,从而使得数据稀疏的语言对可以获得更佳的翻译质量。经验证,本专利技术实施例的翻译处理方法在不同规模的训练数据集以及多个语言对的翻译上都取得了优异的效果,具有良好的一致性和实用性。参见图1,图1示出了本专利技术实施例的一种翻译处理方法的流程示意图,如图所示,该翻译处理方法包括:S101、获取源语言的语句。在本专利技术实施例中,获取源语言的语句的过程可以为:接收文本数据,并将文本数据作为源语言的语句。接收语音数据,对语音数据进行语音识别得到经过语音识别的文本数据,并将经过语音识别的文本数据作为源语言的语句。应当理解的是,上述获取源语言的语句的过程仅为两种可能的实现方式,而不应对本专利技术实施例构成任何限定。S102、将源语言的语句进行编码,得到向量序列,向量序列包括由从语句分得的各个分词分别转换成的词向量。作为本领域技术人员可以理解的是,要将自然语言交给机器学习中的算法来处理,需要将语言数字化,而词向量就是一种用于将语言中的词进行数字化的方式。应当理解的是,现有技术中生成词向量的方法有很多,总的来说可分为基于统计的方法和基于语言模型的方法。在本专利技术实施例中,采用基于语言模型生成词向量的方法,语言模型生成词向量是通过训练神经网络语言模型(NNLM,neuralnetworklanguagemodel)得到,词向量作为语言模型(即机器翻译模型)的附带产出。NNLM的基本思想是对出现在上下文环境里的词进行预测,这种对上下文环境的预测本质上也是一种对共现统计特征的学习。具体地,可以对源语言的语句进行分词,将分得的多个分词分别转换为与每个分词对应的词向量,由多个分词各自对应的词向量得到向量序列。例如以获得源语言的语句“你本文档来自技高网...

【技术保护点】
1.一种翻译处理方法,其特征在于,包括:获取源语言的语句;将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;根据所述向量序列逐词地预测目标语言中相应的候选词;根据预测得到的候选词生成目标语言的语句;其中,在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词;所述预先训练的机器翻译模型根据公有翻译模型输出的隐状态和私有翻译模型输出的隐状态建立,所述公有翻译模型根据多个样本语言对训练而成,所述私有翻译模型根据所述源语言和目标语言对应的样本语言对训练而成。

【技术特征摘要】
1.一种翻译处理方法,其特征在于,包括:获取源语言的语句;将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;根据所述向量序列逐词地预测目标语言中相应的候选词;根据预测得到的候选词生成目标语言的语句;其中,在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词;所述预先训练的机器翻译模型根据公有翻译模型输出的隐状态和私有翻译模型输出的隐状态建立,所述公有翻译模型根据多个样本语言对训练而成,所述私有翻译模型根据所述源语言和目标语言对应的样本语言对训练而成。2.根据权利要求1所述的翻译处理方法,其特征在于,所述根据所述翻译概率从所述初选词中选取所述候选词,之后还包括:获取所述候选词的词向量。3.根据权利要求2所述的翻译处理方法,其特征在于,所述机器翻译模型包括公有翻译模型、私有翻译模型和softmax模型;相应地,所述从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词,具体为:从预设的翻译词表中获取若干个词汇作为初选词;根据所述向量序列和在获取若干个词汇之前预测出的候选词的词向量,计算每个所述初选词的公有翻译模型的隐状态;根据所述向量序列和在获取若干个词汇之前预测出的候选词的词向量,计算每个所述初选词的私有翻译模型的隐状态;根据计算得到的所述初选词的公有翻译模型的隐状态和私有翻译模型的隐状态以及在获取若干个词汇之前预测出的候选词的词向量,结合所述softmax模型计算每个初选词的翻译概率;对计算得到的翻译概率进行排序,将翻译概率最高的初选词选为所述候选词。4.根据权利要求3所述的翻译处理方法,其特征在于,所述公有翻译模型包括公有编码器、公有注意力模块以及公有解码器;相应地,所述根据所述向量序列和在获取若干个词汇之前预测出的候选词的词向量,计算每个所述初选词的公有翻译模型的隐状态,具体为:将所述向量序列逐词输入至所述公有编码器中,输出对应所述向量序列中各词向量的公有隐状态;将所述初选词与所述向量序列中各词向量之间在公有翻译模型的权重以及所述向量序列中各词向量的公有隐状态输入至所述公有注意力模块,输出所述初选词的公有翻译模型的上下文信息;将所述在获取若干个词汇之前预测出的候选词的词向量、所述在获取若干个词汇之前预测出的候选词的公有翻译模型的隐状态以及所述初选词的公有翻译模型的上下文信息输入至所述公有解码器,输出所述初选词的公有翻译模型的隐状态。5.根据权利要求3所述的翻译处理方法,其特征在于,所述私有翻译模型包括私有编码器、私有注意力模块以及私有解码器;相应地,所述根据所述向量序列和在获取若干个词汇之前预测出的候...

【专利技术属性】
技术研发人员:刘洋丁延卓栾焕博孙茂松翟飞飞许静芳
申请(专利权)人:清华大学北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1