【技术实现步骤摘要】
本专利技术涉及一种机器翻译装置,特别是在发挥范例翻译的优点的同时能进行高精度的翻译的统计机器翻译装置。
技术介绍
在统计性的翻译中,将某一种语言的句子(J)翻译为其它语言的句子(E)的问题,作为最大化以下附带条件的概率的问题被定型化。E^=argmaxEP(E|J)]]>对于此公式,通过适用贝叶斯定理得到下面的公式。E^=argmaxEP(E)P(J|E)/P(J)]]>其中,P(J)与 的计算无关。因此,能得到下面的公式。E^=argmaxEP(E)P(J|E)]]>右边的第1项P(E)被称为语言模型,表示句子E的类似度。第2项的P(J|E)被称为翻译模型,表示从句子E生成句子J的概率。在这样的思考方式下,由单词排列(单词的对应)这样的概念提出了所谓使第1种语言的句子(称为信道目标文)映射为第2种语言的句子(称为信道源文)的翻译模型。此翻译模型在法语和英语、德语和英语等相互间类似的语言之间获得了成功。但是,此翻译模型例如应用在日语和英语等相互间差异很大的语言时没有取得成果。这样的结果是因为在构造相互不同的语言间进行映射时,频繁地进行单词的插入和删除,各单词的派生很多以及词语的对应很复杂等的原因,带来了搜索空间庞大这样的问题而产生的。因为搜索变复杂,所以如果采用根据束搜索(beam search)的解码算法,那么在多数的情况下只能得到局部的解。基于单词排列(alignment)的统计的机器翻译采用单词排列A这样的考虑方法表示2种语言的对应。此时,允许1个单词和多个单词相对应。所谓单词排列A是指将信道目标文的各个单词和信道源文的哪个单词 ...
【技术保护点】
一种机器翻译方法,其采用包含多个由第1种语言的句子和第2种语言的句子构成对译的对译文集,将所述第1种语言输入文翻译为所述第2种语言的句子,其特征在于,包括以下步骤:摘录步骤,接收所述第1种语言输入文,从所述对译文集之中,摘录出和所述 输入文之间具有规定关系的、和第1种语言的句子成对的所述第2种语言的句子;计算步骤,对于所述摘录出的所述第2种语言的句子,应用预先决定的多个变形之中的任意变形,计算由变形得到的句子的类似度;选择步骤,从由所述变形得到的句子中, 选择具有满足规定条件的类似度的句子; 重复步骤,直到预先决定的结束条件成立为止,对于所述选择步骤选择的句子的每一个,重复所述摘录步骤、所述计算步骤以及所述选择步骤;和输出步骤,在所述重复步骤结束时剩余的所述第2种语言的句子之 中,具有满足预先决定的选择条件的类似度的句子作为对所述输入文的译文并输出。
【技术特征摘要】
JP 2003-9-1 2003-308409;JP 2004-5-21 2004-1519651.一种机器翻译方法,其采用包含多个由第1种语言的句子和第2种语言的句子构成对译的对译文集,将所述第1种语言输入文翻译为所述第2种语言的句子,其特征在于,包括以下步骤摘录步骤,接收所述第1种语言输入文,从所述对译文集之中,摘录出和所述输入文之间具有规定关系的、和第1种语言的句子成对的所述第2种语言的句子;计算步骤,对于所述摘录出的所述第2种语言的句子,应用预先决定的多个变形之中的任意变形,计算由变形得到的句子的类似度;选择步骤,从由所述变形得到的句子中,选择具有满足规定条件的类似度的句子;重复步骤,直到预先决定的结束条件成立为止,对于所述选择步骤选择的句子的每一个,重复所述摘录步骤、所述计算步骤以及所述选择步骤;和输出步骤,在所述重复步骤结束时剩余的所述第2种语言的句子之中,具有满足预先决定的选择条件的类似度的句子作为对所述输入文的译文并输出。2.根据权利要求1所述的机器翻译方法,其特征在于,所述摘录步骤包括读取步骤,其接收所述第1种语言的输入文,从所述对译文集之中,读取当表示和所述输入文的类似度的规定分数满足预先决定的条件的、和所述第1种语言的句子成对的所述第2种语言的句子。3.根据权利要求2所述的机器翻译方法,其特征在于,所述读取步骤包括分数计算步骤,其接收所述第1种语言的输入文,对于所述对译文集之中所包含的所述第1种语言的句子的每一个,计算和所述输入文之间的所述分数;确定步骤,其确定在所述分数计算步骤中算出的分数最大的1个或者多个的所述第1种语言的句子;和句子读出步骤,其将所述确定步骤中决定的所述1个或者多个第1种语言的句子和分别与其成对的1个或者多个所述第2种语言的句子从所述对译文集之中读出。4.根据权利要求3所述的机器翻译方法,其特征在于,所述分数计算步骤包括类似尺度计算步骤,其在所述输入文和所述对译文集之中所包含的所述第1种语言的各个之间,将所述对译文集之中所包含的所述第1种语言的句子作为文本,对所述输入文采用定义的文本频率计算规定的类似尺度;编辑距离计算步骤,其计算所述输入文、与包含在所述对译文集之中的所述第1种语言的各个之间的编辑距离;和分数算出步骤,其基于在所述类似尺度计算步骤中算出的类似尺度以及在所述编辑距离计算步骤中算出的编辑距离,计算所述分数。5.根据权利要求4所述的机器翻译方法,其特征在于,所述类似尺度计算步骤包括tf/idf标准Ptf/idf计算步骤,在所述对译文集之中所包含的所述第1种语言的各句子和所述输入文之间,按照下面的公式计算tf/idf标准Ptf/idf,Ptf/idf(Jk,J0)=Σi:J0,i∈Jklog(N/df(J0,i))/logN|J0|]]>式中,J0表示输入文,J0,i表示输入文J0的第i个单词,df(J0,i)表示对于单词J0,i的文本频率,Jk表示第k个所述第1种语言的句子,1≤k≤N,N表示对译文集之中的全部对译文数目。6.根据权利要求5所述的机器翻译方法,其特征在于,所述编辑距离计算步骤包括进行输入文J0和所述第1种语言的句子Jk之间的DP匹配,即动态编程匹配,计算编辑距离dis(Jk,J0)的步骤,编辑距离dis(Jk,J0)由以下公式决定,dis(Jk,J0)=I(Jk,J0)+D(Jk,J0)+S(Jk,J0)式中,k是1≤k≤N的整数,I(Jk,J0)、D(Jk,J0)以及S(Jk,J0)分别为将句子J0变换为句子Jk时,必要的词语的插入、删除以及置换的数量。7.根据权利要求6所述的机器翻译方法,其特征在于,所述分数算出步骤包括分数求出步骤,其对所述第1种语言的句子Jk,基于在所述类似尺度计算步骤中算出的tf/idf标准Ptf/idf以及在所述编辑距离计算步骤算出的编辑距离dis(Jk,J0),求出由下面公式所定义的分数, 式中,α为调整参数;对译文选择步骤,其从在所述分数求出步骤中求得的分数较大的对译文中,作为所述初始备用,依次选择预先决定个数的对译文。8.根据权利要求7所述的机器翻译方法,其特征在于,进一步包括判定步骤,其判断在所述读取步骤中读出的所述第1种语言的句子中是否存在所述分数为1的句子;和译文输出步骤,其对在所述判定步骤中判断为存在分数为1的所述第1种语言的句子一事进行应答,将该分数为1的所述第1种语言的句子作为对于所述输入文的译文输出。9.根据权利要求7所述的机器翻译方法,其特征在于,进一步包括对在所述判定步骤中判断存在分数为1的所述第2种语言的句子一事进行应答,对所述计算步骤,所述选择步骤,所述重复步骤以及所述输出步骤的执行进行抑制的步骤。10.根据权利要求1所述的机器翻译方法,其特征在于,所述选择步骤包括在由所述变形得到的句子中,选择规定个数的类似度最高的句子的步骤。11.根据权利要求1所述的机器翻译方法,其特征在于,所述重复步骤包括直到看不出所述选择步骤所选择的句子的类似度改善为止,对于所述选择步骤中选择的句子的各个,重复所述摘录步骤、所述计算步骤以及所述选择步骤的步骤。12.根据权利要求1所述的机器翻译方法,其特征在于,所述输出步骤包括在所述重复步骤结束时剩余的所述第2种语言的句子之中,具有最大的类似度的句子作为对于所述输入文的译文输出的步骤。13.根据权利要求1所述的机器翻译方法,其特征在于,所述机器翻译方法与所述第2种语言的语言模型、以及由所述第2种语言向所述第1种语言的翻译模型连接并使用,所述计算步骤包括对于摘录出的所述第2种语言的句子,应用所述预先决定的多个变形之中的任意变形,采用所述语言模型以及所述翻译...
【专利技术属性】
技术研发人员:渡边太郎,隅田英一郎,
申请(专利权)人:株式会社国际电气通信基础技术研究所,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。