对译语料库的更新方法、更新装置以及更新程序制造方法及图纸

技术编号:17596937 阅读:43 留言:0更新日期:2018-03-31 10:09
本公开涉及对译语料库的更新方法、更新装置以及更新程序。更新方法包括:输入将第1文的第1词句替换成第2词句而得到的第3文;判定第3词句是否包含于第1数据库,第1数据库至少包括书面语的文句中所使用的词句;在判定为第3词句不包含于第1数据库的情况下,基于第1数据库,对将第3词句中的第2词句替换成第6词句而得到的第7词句算出第1数据库中的第1评价值;判定第3词句是否包含于第2数据库,并且判断基于第1评价值算出的第2评价值是否满足预定条件,第2数据库至少包括口语的文句中所使用的词句;在判定为第3词句包含于第2数据库、并且第2评价值满足预定条件的情况下,将成对的第3文和第2文追加到对译语料库中。

Update method, update device and update program for translation corpus

This disclosure involves the updating of the translation corpus, the update device, and the update program. The update method includes: input first the first words replaced second words by third Wen; determining third words is contained in the first database, the use of \first database including at least written in words; third words in judgment is not included in the first database, based on the database of the first, third words in second words sixth words and first to replace the evaluation of seventh words calculated first values in a database of third words; to determine whether contained in the second database, and first to determine the evaluation value of second evaluation value calculated whether satisfies a predetermined condition based on at least second database including the use of English words in the sentence in the judgment; third words contained in the second database, and second evaluation value satisfies a predetermined condition, additional pairs of third and second of the text to the translation corpus .

【技术实现步骤摘要】
对译语料库的更新方法、更新装置以及更新程序
本公开涉及识别根据原文制作出的同义转换文(换言文、说法变换文)是否良好,对对译语料库(TranslationCorpus)进行更新(升级)的同义转换文识别方法、同义转换文识别装置以及同义转换文识别程序。
技术介绍
近年来,正在研究和开发将第1语言的语句(文)翻译成与第1语言不同的第2语言的语句的机器翻译,要提高这种机器翻译的性能,需要收集有大量的可利用于翻译的例文的对译语料库。为此,可进行根据一个原文来制作与该原文类似的一个或者多个同义转换文,同义转换文是否良好会决定对译语料库是否良好,并最终决定翻译是否良好。为了判断如上所述的同义转换文的优劣,例如,专利文献1中公开了一种针对进行语句替换而得到的变换结果,以语言模型(N-gram语言模型)和/或口语表达的语句集合等多个评价轴来进行对语句的优劣的评价的语言变换处理系统。另外,专利文献2中公开了如下方法:为了从对象领域外的语料库中高效地收集与对象领域的语料库所包含的语句类似的语句,通过从对象领域外语料库中参照缺空单词串(其中有空缺的单词串),从而学习可扩展通用性的语言模型的方法,所述对象领域外本文档来自技高网...
对译语料库的更新方法、更新装置以及更新程序

【技术保护点】
一种方法,是更新对译语料库的方法,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述对译语料库包括成对的用第1语言记述的第1文和用第2语言记述的第2文,所述第2文是对所述第1文的对译文,所述方法包括:输入将构成所述第1文的多个词句中的第1词句替换成第2词句而得到的第3文;判定第3词句是否包含于第1数据库,所述第3词句至少包括所述第3文中的所述第2词句和所述第2词句紧前面的第4词句、或者所述第3文中的所述第2词句和所述第2词句紧后面的第5词句,所述第1数据库至少包括书面语的文句中所使用的词句;在判定为所述第3词句不包含于所述第1数据库的情况下,基于所述第1数据库,对将所...

【技术特征摘要】
2016.09.21 JP 2016-183908;2017.05.16 JP 2017-097481.一种方法,是更新对译语料库的方法,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述对译语料库包括成对的用第1语言记述的第1文和用第2语言记述的第2文,所述第2文是对所述第1文的对译文,所述方法包括:输入将构成所述第1文的多个词句中的第1词句替换成第2词句而得到的第3文;判定第3词句是否包含于第1数据库,所述第3词句至少包括所述第3文中的所述第2词句和所述第2词句紧前面的第4词句、或者所述第3文中的所述第2词句和所述第2词句紧后面的第5词句,所述第1数据库至少包括书面语的文句中所使用的词句;在判定为所述第3词句不包含于所述第1数据库的情况下,基于所述第1数据库,对将所述第3词句中的所述第2词句替换成第6词句而得到的第7词句,算出在所述第1数据库中的第1评价值,所述第6词句与所述第2词句不同;判定所述第3词句是否包含于第2数据库,并且判定基于所述第1评价值算出的第2评价值是否满足预定条件,所述第2数据库至少包括口语的文句中所使用的词句,将所述口语的文句中所使用的词句与所述口语的文句中所使用的词句的在所述第2数据库中的出现频度进行关联;在判定为所述第3词句包含于所述第2数据库,并且所述第2评价值满足所述预定条件的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。2.根据权利要求1所述的方法,所述第3文通过将所述第1词句替换成第3数据库所包含的所述第2词句来生成,所述第3数据库将词句与和所述词句意思相同、表达不同的词句进行关联。3.根据权利要求1所述的方法,所述第2数据库基于社交网络服务中所使用的词句来生成。4.根据权利要求1所述的方法,在判定为所述第3词句包含于所述第1数据库的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。5.根据权利要求1所述的方法,在判定为所述第3词句不包含于所述第1数据库的情况下,将所述第7词句中的所述第6词句排除在判定对象之外,判定所述第7词句是否存在于所述第1数据库,在所述第7词句不存在于所述第1数据库的情况下,不将所述第3文追加到所述对译语料库中。6.根据权利要求5所述的方法,使用包括所述第2词句的N个词的N-gram来作为所述第3词句,并且使用N-gram语言模型的数据库来作为所述第1数据库,判定所述N-gram是否存在于所述N-gram语言模型的数据库,在所述N-gram存在于所述N-gram语言模型的数据库的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。7.根据权利要求5所述的方法,使用包括所述第2词句的N个词的N-gram来作为所述第3词句,并且使用N-gram语言模型的数据库作为所述第1数据库,根据所述N-gram语言模型的数据库来求取所述N-gram的出现概率或者出现频度,在根据所述N-gram的出现概率或者出现频度所算出的第3评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。8.根据权利要求6或7所述的方法,在判定为所述第3词句不包含于所述第1数据库的情况下,判定将所述第2词句排除在判定对象之外的所述N-gram是否存在于所述N-gram语言模型的数据库,在将所述第2词句排除在判定对象之外的所述N-gram不存在于所述N-gram语言模型的数据库的情况下,不将所述第3文追加到所述对译语料库中。9.根据权利要求6或7所述的方法,在判定为所述第3词句不包含于所述第1数据库的情况下,根据所述N-gram语言模型的数据库来求取将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度,在根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的第4评价值比预定阈值低的情况下,不将所述第3文追加到所述对译语料库中。10.根据权利要求6至9中任一项所述的方法,在所述第7词句存在于所述第1数据库的情况下,判定包括所述N-gram的所述第2词句、所述第4词句和所述第5词句而成的表层表现前后部分是否存在于所述第2数据库,在所述表层表现前后部分存在于所述第2数据库、并且根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所算出的表层表现前后评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。11.根据权利要求10所述的方法,在所述第7词句存在于所述第1数据库的情况下,判定包括所述N-gram的所述第2词句和所述第4词句而成的表层表现前词部分、或者包括所述第2词句和所述第5词句而成的表层表现后词部分是否存在于所述第2数据库,在所述表层表现前词部分或者所述表层表现后词部分存在于所述第2数据库、并且根据将所述第2词句排除在判定对象以外的所述N-gram的出现概率或者出现频度所算出的表层表现一方评价值大于等于预定阈值的情况下,将成对的所述第3文和所述第2文追加到所述对译语料库中。12.根据权利要求11所述的方法,所述表层表现前后评价值是对根据将所述第2词句排除在判定对象之外的所述N-gram的出现概率或者出现频度所求出的所述第1评价值乘以预定的第1权重而得到的值,所述表层表现一方评价值是对所述第1评价值乘以比所述第1权重小的第2权重而得到的值。13.根据权利要求11所述的方法,在所述表层表现前后部分不存在于所述第2数据库、所述表层表现前后评价值不大于等于预定阈值、所述表层表现前词部分或所述表层表现后词部分不存在于所述第2数据库、或者所述表层表现一方评价值不大于等于预定阈值的情况下,判定包括所述N-gram的所述第2词句、将所述第4词句替换成所述第4词句的词性而得到的前词性部分、和将所述第5词句替换成所述第5词句的词性而得到的后词性部分而成的词性...

【专利技术属性】
技术研发人员:藤原菜菜美山内真树今出昌宏
申请(专利权)人:松下知识产权经营株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1