机器翻译装置以及机器翻译计算机程序制造方法及图纸

技术编号:2865194 阅读:203 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种机器翻译方法,采用包含由第1种语言的句子和第2种语言的句子构成对译的对译文集,将第1种语言的输入文翻译为第2种语言的句子,其包括以下步骤:接收第1种语言的输入文,从对译文集之中,摘录出和输入文最类似的、和第1种语言的句子成对的第2种语言的句子的步骤;对于摘录出的第2种语言的句子,应用多个变形之中的任意的变形,计算由变形得到的句子的类似度的步骤;选择由变形得到的句子之中的、规定数目的、类似度高的句子的步骤;直到类似度没有改善为止,对于选择步骤中选择的句子的各个,重复摘录步骤、计算步骤以及选择步骤的步骤;当重复步骤结束时,将剩余的第2种语言的句子之中,具有最大类似度的句子作为对输入文的译文输出的步骤。

【技术实现步骤摘要】

本专利技术涉及一种机器翻译装置,特别是在发挥范例翻译的优点的同时能进行高精度的翻译的统计机器翻译装置。
技术介绍
在统计性的翻译中,将某一种语言的句子(J)翻译为其它语言的句子(E)的问题,作为最大化以下附带条件的概率的问题被定型化。E^=argmaxEP(E|J)]]>对于此公式,通过适用贝叶斯定理得到下面的公式。E^=argmaxEP(E)P(J|E)/P(J)]]>其中,P(J)与 的计算无关。因此,能得到下面的公式。E^=argmaxEP(E)P(J|E)]]>右边的第1项P(E)被称为语言模型,表示句子E的类似度。第2项的P(J|E)被称为翻译模型,表示从句子E生成句子J的概率。在这样的思考方式下,由单词排列(单词的对应)这样的概念提出了所谓使第1种语言的句子(称为信道目标文)映射为第2种语言的句子(称为信道源文)的翻译模型。此翻译模型在法语和英语、德语和英语等相互间类似的语言之间获得了成功。但是,此翻译模型例如应用在日语和英语等相互间差异很大的语言时没有取得成果。这样的结果是因为在构造相互不同的语言间进行映射时,频繁地进行单词的插入和删除,各单词的派生很多以及词语的对应很复杂等的原因,带来了搜索空间庞大这样的问题而产生的。因为搜索变复杂,所以如果采用根据束搜索(beam search)的解码算法,那么在多数的情况下只能得到局部的解。基于单词排列(alignment)的统计的机器翻译采用单词排列A这样的考虑方法表示2种语言的对应。此时,允许1个单词和多个单词相对应。所谓单词排列A是指将信道目标文的各个单词和信道源文的哪个单词相对应,采用信道源文的单词指标进行表示的排列。在此排列中,和信道源文的单词的对应采用赋予信道源文的单词的指标表示,这些指标根据信道目标文的单词的顺序排列。图7表示英语(E)以及日语(J)句子之间的单词排列的例A。参照图7,将第2种语言(此处为英语E)的句子110的1~7的各个单词,和第1种语言(此处为日语J)的句子114的各个单词1~6对应。对应由连接信道源文110的各个单词和信道目标文114的单词的连线群112表示。例如,由信道源文110的单词[show1]生成信道目标文114的两个单词[mise5](让看)以及[tekudasai6](请)。另外信道目标文114的两个单词[no2](的)以及[o4](を)和信道源文110的哪个单词都没有对应,假设信道源文110的开始部分为[null0](空),作为与此对应的单词。这样的话此时的排列A为[7,0,4,0,1,1]。作为单词排列如果假设为这样的映射,翻译模型P(J|E)能进一步写成以下这样。P(J|E)=ΣAP(J,A|E)]]>右边的项P(J|E)被进一步分解为、4个要素,由此4个要素构成将信道源文E变换为具有排列A的信道目标文J的以往技术的顺序。此4个要素如下。(1)根据派生模式,对于信道源文的各单词决定能生成几个翻译词。有由一个单词可以生成两个翻译词的情况,也有一个翻译词都不能生成的情况。(2)根据NULL生成模式,在信道源文的适当位置插入NULL。(3)通过查找词汇模型,进行对生成的各单词的翻译。(4)通过参照变形模型,对翻译的各单词进行排列变换。为了保存有关句子的限制条件,此时的位置由刚才的单词排列决定。这样,基于单词排列这样的思考方式得到翻译模型。另一方面,提出了最初生成按照信道目标文的顺序排列的、由最初信道目标文的各单词翻译为信道源文的语言的句子,对于此文字应用各种运算子生成多个译文的方法。(Ulrich Germann,Michael Jahr,Kevin Knight,Daniel Marcu,Kenji Yamada“机器翻译的快速解码以及优化解码”(2001)ACL2001会议录,图卢兹,法国)。在此提出的方法中,在这样生成的译文之中,求出类似度最高的句子作为翻译文选择出来。基于单词排列的统计翻译模型是对于作为例如法语和英语等相互类似的语言的两种语言设计的。另一方面,日语和英语相互之间具有极其不同的构造。因此,日语和英语相互翻译的情况下,图7所示那样的单词排列就变得非常复杂。此复杂度反映了语言的构造的差异。例如对于英语采用SVO的句型,而通常日语采用SOV这样的句型。还有,从图7所示的例子中也可以看出,非常频繁地产生插入和删除。例如对于图7所示的[the3]以及[the6],在日语中不存在对应的形态要素。也就是说,对于这样的词当从日语翻译为英语时,必须进行插入。同样,对于日语的no2以及o4也必须进行删除。由于这样的排列复杂以及词语的插入和删除频繁地进行,如果对每个单词进行束搜索,会产生计算量增大这样的问题。为了能在一定的时间内得出结果,就必须进行某些形式的修改。但是,通常的搜索算法中,如果这样在限定的空间中进行搜索的话,不可避免的会产生搜索误差。我们承认翻译的质量和由翻译模型指定的类似度之间存在某种程度的相关性,但由束搜索得到更高的质量是困难的。另外在Germann等的方法中,存在着在搜索中得到局部的最适当的解很多这样的问题,不能稳定得到高精度的解。
技术实现思路
本专利技术的目的在于提供一种采用统计机器翻译的机器翻译方法及其装置,与语言的组合无关,而可以得到高品质的翻译。本专利技术的另一目的在于提供一种采用统计机器翻译的机器翻译方法及其装置,其与语言的组合无关,而可以在一定程度的时间内得到高品质的翻译。本专利技术的又一目的在于提供一种采用统计机器翻译的机器翻译方法及其装置,其与语言的组合无关,而可以稳定得到高品质的翻译。有关本专利技术第1方面的机器翻译方法,其采用包含多个由第1种语言的句子和第2种语言的句子构成对译的对译文集,将第1种语言输入文翻译为第2种语言的句子,包括以下步骤摘录步骤,接收第1种语言输入文,从对译文集之中,摘录出和输入文之间具有规定关系的、和第1种语言的句子成对的第2种语言的句子;计算步骤,对于摘录出的第2种语言的句子,应用预先决定的多个变形之中的任意变形,计算由变形得到的句子的类似度;选择步骤,从由变形得到的句子中,选择具有满足规定条件的类似度的句子;重复步骤,直到预先决定的结束条件成立为止,对于选择步骤选择的句子的每一个,重复摘录步骤、计算步骤以及选择步骤;和输出步骤,在重复步骤结束时剩余的第2种语言的句子之中,具有满足预先决定的选择条件的类似度的句子作为对输入文的译文并输出。对于输入文,从对译文集之中摘录出规定的关系成立的、和第1种语言成对的第2种语言的句子。对此第2种语言的句子进行种种的变形,重复从得到的句子中选择具有满足规定的条件的类似度的句子,将最终满足选择条件的句子作为对于输入文的译文输出。因为在对译文集之中的对译文是两种语言之间相互较好的对译文,所以摘录出的第2种语言的句子和输入文的理想的译文相类似的可能性很高。重复这样摘录出的第2种语言的句子的种种变形,从得到的句子中基于类似度选择的译文,成为输入文的理想的译文的可能性很高。因为考虑最初摘录出的句子与理想的译文接近,所以在重复的过程中限于局部的最适当解的危险性很低。优选,摘录步骤包括读取步骤,其接收第1种语言的输入文,从对译文集之中,读取当表示和输入文的类似度的规定分数满足本文档来自技高网
...

【技术保护点】
一种机器翻译方法,其采用包含多个由第1种语言的句子和第2种语言的句子构成对译的对译文集,将所述第1种语言输入文翻译为所述第2种语言的句子,其特征在于,包括以下步骤:摘录步骤,接收所述第1种语言输入文,从所述对译文集之中,摘录出和所述 输入文之间具有规定关系的、和第1种语言的句子成对的所述第2种语言的句子;计算步骤,对于所述摘录出的所述第2种语言的句子,应用预先决定的多个变形之中的任意变形,计算由变形得到的句子的类似度;选择步骤,从由所述变形得到的句子中, 选择具有满足规定条件的类似度的句子; 重复步骤,直到预先决定的结束条件成立为止,对于所述选择步骤选择的句子的每一个,重复所述摘录步骤、所述计算步骤以及所述选择步骤;和输出步骤,在所述重复步骤结束时剩余的所述第2种语言的句子之 中,具有满足预先决定的选择条件的类似度的句子作为对所述输入文的译文并输出。

【技术特征摘要】
JP 2003-9-1 2003-308409;JP 2004-5-21 2004-1519651.一种机器翻译方法,其采用包含多个由第1种语言的句子和第2种语言的句子构成对译的对译文集,将所述第1种语言输入文翻译为所述第2种语言的句子,其特征在于,包括以下步骤摘录步骤,接收所述第1种语言输入文,从所述对译文集之中,摘录出和所述输入文之间具有规定关系的、和第1种语言的句子成对的所述第2种语言的句子;计算步骤,对于所述摘录出的所述第2种语言的句子,应用预先决定的多个变形之中的任意变形,计算由变形得到的句子的类似度;选择步骤,从由所述变形得到的句子中,选择具有满足规定条件的类似度的句子;重复步骤,直到预先决定的结束条件成立为止,对于所述选择步骤选择的句子的每一个,重复所述摘录步骤、所述计算步骤以及所述选择步骤;和输出步骤,在所述重复步骤结束时剩余的所述第2种语言的句子之中,具有满足预先决定的选择条件的类似度的句子作为对所述输入文的译文并输出。2.根据权利要求1所述的机器翻译方法,其特征在于,所述摘录步骤包括读取步骤,其接收所述第1种语言的输入文,从所述对译文集之中,读取当表示和所述输入文的类似度的规定分数满足预先决定的条件的、和所述第1种语言的句子成对的所述第2种语言的句子。3.根据权利要求2所述的机器翻译方法,其特征在于,所述读取步骤包括分数计算步骤,其接收所述第1种语言的输入文,对于所述对译文集之中所包含的所述第1种语言的句子的每一个,计算和所述输入文之间的所述分数;确定步骤,其确定在所述分数计算步骤中算出的分数最大的1个或者多个的所述第1种语言的句子;和句子读出步骤,其将所述确定步骤中决定的所述1个或者多个第1种语言的句子和分别与其成对的1个或者多个所述第2种语言的句子从所述对译文集之中读出。4.根据权利要求3所述的机器翻译方法,其特征在于,所述分数计算步骤包括类似尺度计算步骤,其在所述输入文和所述对译文集之中所包含的所述第1种语言的各个之间,将所述对译文集之中所包含的所述第1种语言的句子作为文本,对所述输入文采用定义的文本频率计算规定的类似尺度;编辑距离计算步骤,其计算所述输入文、与包含在所述对译文集之中的所述第1种语言的各个之间的编辑距离;和分数算出步骤,其基于在所述类似尺度计算步骤中算出的类似尺度以及在所述编辑距离计算步骤中算出的编辑距离,计算所述分数。5.根据权利要求4所述的机器翻译方法,其特征在于,所述类似尺度计算步骤包括tf/idf标准Ptf/idf计算步骤,在所述对译文集之中所包含的所述第1种语言的各句子和所述输入文之间,按照下面的公式计算tf/idf标准Ptf/idf,Ptf/idf(Jk,J0)=Σi:J0,i∈Jklog(N/df(J0,i))/logN|J0|]]>式中,J0表示输入文,J0,i表示输入文J0的第i个单词,df(J0,i)表示对于单词J0,i的文本频率,Jk表示第k个所述第1种语言的句子,1≤k≤N,N表示对译文集之中的全部对译文数目。6.根据权利要求5所述的机器翻译方法,其特征在于,所述编辑距离计算步骤包括进行输入文J0和所述第1种语言的句子Jk之间的DP匹配,即动态编程匹配,计算编辑距离dis(Jk,J0)的步骤,编辑距离dis(Jk,J0)由以下公式决定,dis(Jk,J0)=I(Jk,J0)+D(Jk,J0)+S(Jk,J0)式中,k是1≤k≤N的整数,I(Jk,J0)、D(Jk,J0)以及S(Jk,J0)分别为将句子J0变换为句子Jk时,必要的词语的插入、删除以及置换的数量。7.根据权利要求6所述的机器翻译方法,其特征在于,所述分数算出步骤包括分数求出步骤,其对所述第1种语言的句子Jk,基于在所述类似尺度计算步骤中算出的tf/idf标准Ptf/idf以及在所述编辑距离计算步骤算出的编辑距离dis(Jk,J0),求出由下面公式所定义的分数, 式中,α为调整参数;对译文选择步骤,其从在所述分数求出步骤中求得的分数较大的对译文中,作为所述初始备用,依次选择预先决定个数的对译文。8.根据权利要求7所述的机器翻译方法,其特征在于,进一步包括判定步骤,其判断在所述读取步骤中读出的所述第1种语言的句子中是否存在所述分数为1的句子;和译文输出步骤,其对在所述判定步骤中判断为存在分数为1的所述第1种语言的句子一事进行应答,将该分数为1的所述第1种语言的句子作为对于所述输入文的译文输出。9.根据权利要求7所述的机器翻译方法,其特征在于,进一步包括对在所述判定步骤中判断存在分数为1的所述第2种语言的句子一事进行应答,对所述计算步骤,所述选择步骤,所述重复步骤以及所述输出步骤的执行进行抑制的步骤。10.根据权利要求1所述的机器翻译方法,其特征在于,所述选择步骤包括在由所述变形得到的句子中,选择规定个数的类似度最高的句子的步骤。11.根据权利要求1所述的机器翻译方法,其特征在于,所述重复步骤包括直到看不出所述选择步骤所选择的句子的类似度改善为止,对于所述选择步骤中选择的句子的各个,重复所述摘录步骤、所述计算步骤以及所述选择步骤的步骤。12.根据权利要求1所述的机器翻译方法,其特征在于,所述输出步骤包括在所述重复步骤结束时剩余的所述第2种语言的句子之中,具有最大的类似度的句子作为对于所述输入文的译文输出的步骤。13.根据权利要求1所述的机器翻译方法,其特征在于,所述机器翻译方法与所述第2种语言的语言模型、以及由所述第2种语言向所述第1种语言的翻译模型连接并使用,所述计算步骤包括对于摘录出的所述第2种语言的句子,应用所述预先决定的多个变形之中的任意变形,采用所述语言模型以及所述翻译...

【专利技术属性】
技术研发人员:渡边太郎隅田英一郎
申请(专利权)人:株式会社国际电气通信基础技术研究所
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1