机器翻译方法和机器翻译装置制造方法及图纸

技术编号:12099617 阅读:99 留言:0更新日期:2015-09-23 17:22
本发明专利技术提供一种能够改善翻译质量的动态的机器翻译方法和机器翻译装置。本发明专利技术的一个实施方式的机器翻译装置,包括:输入单元,其输入待翻译的句子;计算单元,其计算上述待翻译的句子和双语语料库中的源语言句子之间的相似度;选择单元,其基于上述相似度在上述双语语料库中选择多个句子对,作为训练语料;训练单元,其利用上述训练语料,训练翻译系统;以及翻译单元,其利用上述翻译系统,对上述待翻译的句子进行翻译。

【技术实现步骤摘要】

本专利技术涉及自然语言的处理技术,具体而言,涉及机器翻译方法和机器翻译装置
技术介绍
统计机器翻译系统的一般流程是,先确定模型(算法),然后基于训练数据来训练模型参数(翻译知识),最后利用训练得到的模型参数对输入的句子进行翻译。训练数据通常由大规模对齐的双语句子对组成,这些句子对可能来自不同的领域,句子的形式也不相同,即使源语言相同的一个句子也可能有不同的目标语言翻译。同样,源语言句子中的同一个词,也根据上下文的不同而可能有不同的翻译。在通常的翻译系统中,一旦完成训练过程,生成的翻译模型就不再改变。之后,使用生成的翻译模型对待翻译的句子进行翻译。然而,由于待翻译的句子的多样性,这种生成后即不再变化的翻译系统通常不能适用所有的待翻译的句子,因此会导致翻译质量不高。对此,提出了一些领域适应的方法,用于构造“动态”的翻译系统。一些方法首先对领域内的数据和领域外的数据进行插值,然后利用插值后的数据构建翻译模型。另外一些方法首先按照领域对训练数据进行聚类,然后利用聚类的子集来训练单独的翻译子模型,在翻译时根据待翻译的句子所属的领域,选择与其领域对应的翻译子模型进行翻译。
技术实现思路
本专利技术的专利技术人在对上述领域适应的方法进行研究后发现,尽管这些方法具有一定的适应能力,但是,一旦通过训练生成翻译模型或翻译子模型后就不再改变,即训练后生成的翻译模型仍然是“静态”的,因此翻译系统的适应能力有限,仍然会导致翻译质量不高。为了解决现有技术中存在的上述问题,本专利技术的实施方式提供了能够改善翻译质量的动态的机器翻译方法和机器翻译装置。具体地,提供了以下技术方案。 一种机器翻译方法,包括以下步骤:输入待翻译的句子;计算上述待翻译的句子和双语语料库中的源语言句子之间的相似度;基于上述相似度在上述双语语料库中选择多个句子对,作为训练语料;利用上述训练语料,训练翻译系统;以及利用上述翻译系统,对上述待翻译的句子进行翻译。本实施方式的机器翻译方法,通过在双语语料库中将与待翻译的句子的相似度高的语料选出,并基于选出的语料实时构造翻译系统,能够构造动态的、具有针对性的翻译系统,从而能够改善翻译质量。根据上述的机器翻译方法,上述选择步骤包括以下步骤:对上述双语语料库中的句子对以上述相似度从大到小的顺序进行排序;以及选择排序后的前N个句子对,作为上述训练语料,N为I以上的整数。本实施方式的机器翻译方法,通过选择排序后的前N个句子,在双语语料库中存在大量与待翻译的句子的相似度高的语料时,能够利用最相似的、一定数量的语料训练翻译系统,从而不仅能够保证翻译质量,而且能够减轻训练翻译系统的处理负担。根据上述或的机器翻译方法,上述选择步骤包括以下步骤:选择上述双语语料库中的上述相似度大于预定的阈值的句子对,作为上述训练语料。本实施方式的机器翻译方法,通过选择相似度大于预定的阈值的语料来训练翻译系统,能够将相似度低的语料排除,从而能够避免相似度低的语料对翻译系统的干扰,能够进一步保证翻译准确度。根据上述?之一的机器翻译方法,上述计算相似度的步骤包括以下步骤:利用上述待翻译的句子与上述双语语料库中的源语言句子之间的编辑距离计算上述相似度。根据上述?之一的机器翻译方法,上述计算相似度的步骤包括以下步骤:计算上述待翻译的句子与上述双语语料库中的源语言句子之间的句法结构的相似度。根据上述?之一的机器翻译方法,在上述翻译步骤之后还包括以下步骤:在翻译缓冲区保存上述待翻译的句子及其翻译结果。根据上述的机器翻译方法,在上述输入步骤之后还包括以下步骤:在上述翻译缓冲区查找上述待翻译的句子。本实施方式的机器翻译方法,通过在翻译缓冲区中保存待翻译的句子及其翻译结果,在下次翻译相同的句子时,能够直接从翻译缓冲区取得该句子的翻译结果,节约了计算资源,提高了翻译效率。根据上述?之一的机器翻译方法,在上述翻译步骤之后还包括以下步骤:将上述待翻译的句子和其翻译结果加入上述双语语料库。本实施方式的机器翻译方法,通过将待翻译的句子和其翻译结果加入双语语料库,能够扩充双语语料库的语料数据,从而能够提高后续翻译的翻译质量。根据上述?之一的机器翻译方法,在上述翻译步骤之后还包括以下步骤:对上述待翻译的句子和其翻译结果进行词对齐;以及将词对齐结果加入上述双语语料库。本实施方式的机器翻译方法,通过将词对齐结果加入双语语料库,不仅能够扩充双语语料库的语料数据,提高后续翻译的翻译质量,而且能够提高翻译效率。根据上述?之一的机器翻译方法,在上述计算相似度的步骤之前还包括以下步骤:在上述双语语料库中添加与用户相关的训练数据。本实施方式的机器翻译方法,通过添加与用户相关的训练数据,例如进行了对齐的句子对、上下文相关的数据、进行了词对齐的句子对等,在训练数据不足的情况下,也能够达到用户适应的目的。根据上述?之一的机器翻译方法,在上述翻译步骤之后还包括以下步骤:利用上述相似度计算上述翻译结果的置信度。本实施方式的机器翻译方法,通过利用相似度计算翻译结果的置信度,在得到翻译结果的同时,即可得到翻译结果的置信度,从而无需利用另外的方法计算置信度,提高了翻译效率。 一种机器翻译装置,包括:输入单元,其输入待翻译的句子;计算单元,其计算上述待翻译的句子和双语语料库中的源语言句子之间的相似度;选择单元,其基于上述相似度在上述双语语料库中选择多个句子对,作为训练语料;训练单元,其利用上述训练语料,训练翻译系统;以及翻译单元,其利用上述翻译系统,对上述待翻译的句子进行翻译。本实施方式的机器翻译装置,通过在双语语料库中将与待翻译的句子的相似度高的语料选出,并基于选出的语料实时构造翻译系统,能够构造动态的、具有针对性的翻译系统,从而能够改善翻译质量。根据上述的机器翻译装置,其中,上述选择单元包括:排序单元,其对上述双语语料库中的句子对以上述相似度从大到小的顺序进行排序;上述选择单元选择排序后的前N个句子对,作为上述训练语料,N为I以上的整数。本实施方式的机器翻译装置,通过选择排序后的前N个句子,在双语语料库中存在大量与待翻译的句子的相似度高的语料时,能够利用最相似的、一定数量的语料训练翻译系统,从而不仅能够保证翻译质量,而且能够减轻训练翻译系统的处理负担。根据上述或的机器翻译装置,其中,上述选择单元选择上述双当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种机器翻译装置,包括:输入单元,其输入待翻译的句子;计算单元,其计算上述待翻译的句子和双语语料库中的源语言句子之间的相似度;选择单元,其基于上述相似度在上述双语语料库中选择多个句子对,作为训练语料;训练单元,其利用上述训练语料,训练翻译系统;以及翻译单元,其利用上述翻译系统,对上述待翻译的句子进行翻译。

【技术特征摘要】

【专利技术属性】
技术研发人员:张大鲲苏韬郝杰
申请(专利权)人:株式会社东芝
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1