翻译文生成方法、翻译文生成装置以及翻译文生成程序制造方法及图纸

技术编号:19646999 阅读:27 留言:0更新日期:2018-12-05 20:30
本公开涉及翻译文生成方法、翻译文生成装置以及翻译文生成程序。对译语料库生成方法包括:取得第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文;生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文。

Generation method, device and program of translated text

The present disclosure relates to a method for generating translated text, a device for generating translated text and a program for generating translated text. The methods of generating the translated corpus include: acquiring the first text of the first language, translating the first text into the second language, the second text of the first language, and the second translation from the second language; generating the second conjunction of the first translation and the second translation using the second language into a sentence. The resulting third translation is used as the translation of the first and second text using the first conjunction of the first language as a sentence.

【技术实现步骤摘要】
翻译文生成方法、翻译文生成装置以及翻译文生成程序
本公开涉及生成在第1语言与第2语言之间的翻译处理中使用的翻译文的翻译文生成方法、翻译文生成装置以及翻译文生成程序。
技术介绍
近年来,正在研究和开发将第1语言的语句(文)翻译成与第1语言不同的第2语言的语句的机器翻译装置,要提高这种机器翻译装置的翻译性能,需要收集有大量的可利用于翻译的例文(例句)的对译语料库(Corpus)。尤其是,以往的机器翻译装置难以进行长文(长句)或者复句的翻译。例如在专利文献1中公开了如下方法:将输入文本进行分割,按每个分割出的文本进行翻译,由此高精度地翻译长文。另外,在专利文献2中,公开了通过自动地生成多样的同一意图的相似文从而大量地收集话语文例。现有技术文献专利文献1:日本特开2006-18354号公报专利文献2:日本特开2015-118498号公报
技术实现思路
专利技术所要解决的问题然而,在上述以往的技术中,没有考虑收集将多个文(语句)用连词(接续词)相互连接而得到的长文的对译语料库,需要进一步的改善。本公开是解决上述以往的问题而做出的,其目的在于提供能够使将多个文用连词相互连接而得到的长文的翻译性能提高的翻译文生成方法、翻译文生成装置以及翻译文生成程序。用于解决问题的技术方案本公开的一个技术方案涉及的翻译文生成方法,是翻译文生成装置中的翻译文生成方法,所述翻译文生成装置生成在第1语言与第2语言之间的翻译处理中使用的翻译文,所述翻译文生成方法包括:取得所述第1语言的第1文、将该第1文翻译成所述第2语言而得到的第1翻译文、所述第1语言的第2文、和将该第2文翻译成所述第2语言而得到的第2翻译文;生成将所述第1翻译文和所述第2翻译文使用所述第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将所述第1文和所述第2文使用所述第1语言的第1连词构成为一个文句而得到的第3文的翻译文。专利技术效果根据本公开,能够使将多个文用连词相互连接而得到的长文的翻译性能提高。附图说明图1是表示本公开的实施方式1中的对译语料库生成装置的构成的框图。图2是用于对本公开的实施方式1的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图。图3是用于对本公开的实施方式1的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。图4是表示存储于类别(categary)数据库的为了判断是否归于移动类别所使用的类别条件数据的一例的图。图5是表示存储于类别数据库的为了判断是否归于对象类别所使用的类别条件数据的一例的图。图6是表示存储于带有类别标签(tag)的数据存储部的数据的一例的图。图7是表示存储于连接规则存储部的连接规则的一例的图。图8是表示存储于对译语料库存储部的更新前的对译语料库的一例的图。图9是表示存储于对译语料库存储部的更新后的对译语料库的一例的图。图10是表示本公开的实施方式2中的对译语料库生成装置的构成的框图。图11是用于对本公开的实施方式2的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图。图12是用于对本公开的实施方式2的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。图13是表示在本实施方式2中由翻译文输出部显示的显示画面的一例的图。图14是表示在本实施方式2的变形例中由翻译文输出部21显示的显示画面的一例的图。图15是表示本公开的实施方式3中的对译语料库生成装置的构成的框图。图16是用于对本公开的实施方式3的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图。图17是用于对本公开的实施方式3的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。图18是表示使用根据更新前的对译语料库所学习出的机器翻译模型进行机器翻译得到的翻译结果的一例的图。图19是表示使用根据更新后的对译语料库所学习出的机器翻译模型进行机器翻译得到的翻译结果的一例的图。图20是表示本公开的实施方式4中的对译语料库生成装置的构成的框图。图21是用于对本公开的实施方式4的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图。图22是用于对本公开的实施方式4的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。标号说明1、1a、1b、1c对译语料库生成装置;11翻译对象输入部;12机器翻译模型存储部;13、13c机器翻译部;14对译语料库存储部;15类别数据库;16、16a、16b类别附加部;17带有类别标签的数据存储部;18连接规则存储部;19长文生成部;20对译语料库更新部;21、21c翻译文输出部;22用户输入受理部;23评价数据生成部;24机器翻译模型学习部。具体实施方式(成为本公开的基础的见解)近年来,正在研究和开发将第1语言的语句翻译成与第1语言不同的第2语言的语句的机器翻译装置,要提高这种机器翻译装置的翻译性能,需要收集有大量的可利用于翻译的例文的对译语料库。然而,以往的机器翻译装置难以进行对将多个文用连词相互连接而得到的长文(复句)的翻译。在上述的专利文献1中,将输入文本分割成短文本,按每个分割出的文本进行翻译,由此使翻译性能提高。另外,在上述的专利文献2中,通过自动地生成多样的同一意图的相似文从而大量地收集话语文例。然而,特别是要提高与将多个文用连词相互连接而得到的长文有关的翻译性能,需要与长文有关的对译语料库,而收集长文的对译语料库并不容易。为了解决以上问题,本公开的一个技术方案涉及的翻译文生成方法,是翻译文生成装置中的翻译文生成方法,所述翻译文生成装置生成在第1语言与第2语言之间的翻译处理中使用的翻译文,所述翻译文生成方法包括:取得所述第1语言的第1文、将该第1文翻译成所述第2语言而得到的第1翻译文、所述第1语言的第2文、和将该第2文翻译成所述第2语言而得到的第2翻译文;生成将所述第1翻译文和所述第2翻译文使用所述第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将所述第1文和所述第2文使用所述第1语言的第1连词构成为一个文句而得到的第3文的翻译文。根据该构成,取得第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文。生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文。因此,由于生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文,因而能够通过使用所生成的第3翻译文来翻译将多个文用连词相互连接而得到的长文,使将多个文用连词相互连接而得到的长文的翻译性能提高。另外,在上述的翻译文生成方法中,也可以为,还包括:至少输出所述第3翻译文。根据该构成,能够至少输出第3翻译文,使用第3翻译文进行输入文的翻译处理。另外,在上述的翻译文生成方法中,也可以为,还包括:基于连接规则确定所述第1连词,所述连接规则表现表示文句的属性的属性信息与所述第1连词的对应关系,使用确定出的所述第1连词、所述第1文以及所述第2文,生成所述第3文。根据该构成,第1连词是基于表现表示文句的属性的属性信息与第1连词的对应关系的连接规则确定的词。第3文是使用本文档来自技高网...

【技术保护点】
1.一种翻译文生成方法,是翻译文生成装置中的翻译文生成方法,所述翻译文生成装置生成在第1语言与第2语言之间的翻译处理中使用的翻译文,所述翻译文生成方法包括:取得所述第1语言的第1文、将该第1文翻译成所述第2语言而得到的第1翻译文、所述第1语言的第2文、和将该第2文翻译成所述第2语言而得到的第2翻译文,生成将所述第1翻译文和所述第2翻译文使用所述第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将所述第1文和所述第2文使用所述第1语言的第1连词构成为一个文句而得到的第3文的翻译文。

【技术特征摘要】
2017.05.23 JP 2017-1014671.一种翻译文生成方法,是翻译文生成装置中的翻译文生成方法,所述翻译文生成装置生成在第1语言与第2语言之间的翻译处理中使用的翻译文,所述翻译文生成方法包括:取得所述第1语言的第1文、将该第1文翻译成所述第2语言而得到的第1翻译文、所述第1语言的第2文、和将该第2文翻译成所述第2语言而得到的第2翻译文,生成将所述第1翻译文和所述第2翻译文使用所述第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将所述第1文和所述第2文使用所述第1语言的第1连词构成为一个文句而得到的第3文的翻译文。2.根据权利要求1所述的翻译文生成方法,还包括:至少输出所述第3翻译文。3.根据权利要求1所述的翻译文生成方法,还包括:基于连接规则确定所述第1连词,所述连接规则表现表示文句的属性的属性信息与所述第1连词的对应关系,使用确定出的所述第1连词、所述第1文以及所述第2文,生成所述第3文。4.根据权利要求3所述的翻译文生成方法,所述连接规则还表现所述属性信息与所述第2连词的对应关系,基于所述连接规则确定所述第2连词,使用确定出的所述第2连词、所述第1翻译文以及所述第2翻译文,生成所述第3翻译文。5.根据权利要求3或4所述的翻译文生成方法,所述属性信息是表示根据所述文句的含义分类的类别的信息。6.根据权利要求5所述的翻译文生成方法,通过从类别数据库中检索与所述第1文所包含的单词或者词句相符的所述类别,确定所述第1文的所述类别,所述类别数据库将文句可能包含的单词或者词句与该文句的所述类别进行关联而存储,通过从所述类别数据库中检索与所述第2文所包含的单词或者词句相符的所述类别,确定所述第2文的所述类别。7.根据权利要求5或6所述的翻译文生成方法,所述连接规则存储于连接规则数据库,所述连接规则数据库将作为所述类别之一的第1类别和作为所述类别之一的第2类别的组合、所述第1连词、与所述第2连词进行关联而存储,通过从所述连接规则数据库中检索与所述第1文的所述第1类别和所述第2文的所述第2类别的组合对应的所述第1连词以及所述第2连词,确定所述第1连词以及所述第2连词。8.根据权利要求1至7中任一项所述的翻译文生成方法,从对译语料库存储部取得所述第1文、与所述第1文对应的所述第1翻译文、所述第2文、和与所述第2文对应的所述第2翻译文,所述对译语料库存储部存储使由所述第1语言构成的文与该文向所述第2语言的翻译文相关联的对译语料库。9.根据权利要求8所述的翻译文生成方法,还包括:通过将所述第3文与所述第3翻译文相关联并保存于所述对译语料库存储部,更新所述对译语料库;还包括:利用所述更新后的对译语料库,学习在所述翻译处理中使用的机器翻译模型。10.根据权利要求8所述的翻译文生成方法,还包括:取得第1判定信息,所述第1判定信息表示判定所述第1翻译文是否正确而得到的判定结果;还包括:取得第2判定信息,所述第2判定信息表示判定所述第2翻译文是否正确而得到的判定结果;在基于所述第1判定信息以及所述第2判定信息判定为所述第1翻译文以及所述第2翻译文均正确的情况下,生成所述第3翻译文。11.根据权利要求10所述的翻译文生成方法,还包括:显示所述第1翻译文、用于让用户输入判定所述第1翻译文是否正确而得到的判定结果的第1对象、所述第2翻译文、和用于让所述用户输入判定所述第2翻译文是否正确而得到的判定结果的第2对象。12.根据权利要求9所述的翻译文生成方法,还包括:取得将所述第1翻译文应用于所述机器翻译模型从而翻译成所述第1语言所得到的第1逆向翻译文;还包括:取得将所述第2翻译文应用于所述机器翻译模型从而翻译成所述第1语言所得到的第2逆向翻译文;还包括:取得第3判定信息,所述第3判定信息表示判定所述第1逆向翻译文是否正确而得到的判定结果;还包括:取...

【专利技术属性】
技术研发人员:藤原菜菜美山内真树今出昌宏
申请(专利权)人:松下知识产权经营株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1