单词对齐装置、例句对译词典及单词对齐方法制造方法及图纸

技术编号:4199346 阅读:238 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种单词对齐装置、例句对译词典及单词对齐方法,提高了调用率及精度。该单词对齐装置(200)包括:存储单词与其对译、单词与其解释译词的单词对译词典(208);输入例句和作为其对译的例句对译对的输入部(202);对所输入的例句对译对进行形态素解析的形态素解析部(204);根据单词对译词典,将通过形态素解析而提取的例句对译对的单词对齐的基于词典的对齐部(210);对于未被基于词典的对齐部(210)对齐的单词进行对齐的基于单词表记的对齐部(214);多对多对齐部(218);基于二分图的对齐部(220);以及输出单词间的对齐结果的输出部(222)。

【技术实现步骤摘要】

本专利技术涉及对译例句自动单词对齐(Alignment)装置,尤其涉及单 词对齐例句对译词典的学习装置和基于例句的机器翻译装置中的译词提 取。
技术介绍
机器翻译是利用计算机从某一语言转换为其他语言,这样的研究开发在世界范围进行了半个世纪。机器翻译方式可大致分为1)基于解析的机器翻译方式,2)基于统计的机器翻译方式,3)基于例句的机器翻译方式。基于解析的机器翻译方式是进行第l语言的解析(形态素解析、语法/意思解析等),将解析的结果转换成第2语言,并生成第2语言的译文的 技术。自然语言的解析技术还是不成熟的技术,因此基于解析的机器翻 译方式的实用化受到限制。而且,由于不能学习,因此存在难以改善/改 良翻译引擎的缺点。基于统计的机器翻译方式,是用语言模型和统计模型构筑翻译模型 的技术。该方式由于受限于各模型的构成所必要的学习数据(语料库), 实用化受到限制。基于例句的机器翻译方式模仿人类学习外语的机制,参考已经学习 的翻译例句来翻译新文件。在1980年代提出了该翻译方式,随后,其研 究开发盛行。在基于例句的机器翻译技术中,有根据所参照的对译例句 句型(pattern)的定义及类似例句的参照方法,采用翻译记忆翻译技术、 附带单词对齐的对译例句的翻译技术和采用句子的句型的翻译技术等。图l是表示基于例句的机器翻译方式所涉及的机器翻译系统的整体 结构例的图。机器翻译系统10构成为从较简单的翻译转移到较复杂的翻7译,实现翻译的高速化。另外,机器翻译系统io具有自动地回收不能翻译的部分并赋予正确的对译的学习功能。机器翻译系统10具有翻译记忆翻译装置14,其翻译从原语言文本 句子输入部12输入的句单位的句子;基于例句句型的翻译装置16,其输 入翻译记忆翻译装置14中无法对照的输入句子即不适当的输入句子,并 对将其进行了形态素解析后的输入句子的单词串进行翻译;单词直译翻 译装置18,其将基于例句句型的翻译装置16无法翻译的输入句子作为不适当的句子,输入其形态素解析的结果单词串,并翻译该单词串;以及目标语言文本输出部20,其根据上述的翻译装置适当翻译的结果,作成目标语言的文本句子并将其输出。而且,机器翻译系统10具有翻译不适当句子自动回收部22,其将 基于例句句型的翻译装置16无法翻译的句子回收,作成适合于所回收的 句子的翻译;学习装置24,其对翻译不适当句子自动回收部22作成的翻 译进行校对和修正;以及翻译词典26。翻译词典26包含存储第l语言的 单词和作为其对译的第2语言的单词的单词对译词典26a;存储第l语言的 例句和作为其对译的第2语言的例句的例句对译词典26b;以及存储第l语 言的例句句型和作为其对译的第2语言的例句句型的例句句型对译词典 26c。翻译词典26在翻译记忆翻译装置14、基于例句句型的翻译装置16以 及单词直译翻译装置18中使用。另外,图l的机器翻译系统是一个构成例, 还有包含其他翻译引擎的例子。图2是说明图1所示的基于例句句型的翻译装置16的图,这里,表示 了采用单词对齐例句对译词典的基于例句的翻译装置。该基于例句的翻 译装置采用单词对齐例句对译词典进行翻译,以髙精度翻译与输入句子 非常相似的例句为特征。如该图所示,中文的输入句子被进行形态素解 析,从单词对齐例句对译词典检索类似例句。然后,算出输入句子与例 句的差异、对应关系,用单词对译词典生成日文的译文。报告了几个与这样的翻译相关的文献。专利文献1公开了从第2语言 的文章中根据发音的类似度提取与第1语言的表现对应的第2语言的译词 的技术。专利文献2涉及从对译文本语料库提取译词对的译词对提取装置,该译词对提取装置推定第l语言、第2语言的单词的音韵,将两者的音韵一致的单词作为单词对输出。非专利文献l报告了如下的技术对于 由第1语言的例句和该例句的第2语言的译文组成的例句对,分别对例句 和译文进行形态素解析,分别提取构成例句和译文的单词,从单词对译 词典提取构成例句的单词的译词,将所提取的译词与译文的单词进行对照。非专利文献2采用由第1语言的例句和该例句的第2语言的译文所组成的例句对的集合所构成的单词和译词间的统计模型,来进行对齐。例如,统计模型是DICE系数、X2、相互信息量、T-score等。专利文献3公开了可进行调用率高且精度良好的单词对齐的单词对 齐例句对译词典学习装置及译词提取装置。日本特开平10-143514号公报日本特开2005-258637号公报日本特开2007-199793号公报 Jin画Xia Huang, Key-Sun Choi. 2000. Using Bilingual Semantic Information in Chinese-Korean Word Alignment. Pacfic Asia Conference on Language, Information and Computation. PACLIC14, ppl21-130. Melamed, Dan. "A Word-to-Word Model of Translational Equivalence". In Procs. of the ACL97. pp490-497. Madrid Spain, 1997.在上述的基于例句的翻译装置中,要求在第l语言的例句和该例句的 第2语言的译文间自动地提取单词和其译词间的对应关系(对齐)并赋予 该对应关系的功能。图3是说明例句和译文中包含的单词间的对齐的图,该图(a)表示 了中文和作为其译文的日文的输入例句对,该图(b)表示对这些输入例 句对进行形态素解析而获得的中文单词和日文单词间的理想对齐。在所 有的例句和译文的关系中,通过人的手动操作设定该图(b)所示的正确 单词间的对齐需要大量的时间和人工,是不现实的。另一方面,为了自 动生成单词间的对齐,要求高调用率(Recall)率和高精度。所谓调用率是指从例句和译文应提取的单词的对数和实际提取的单词的对数之比, 所谓精度是指实际提取的单词的对数和正确的单词的对数之比,表示成 下式。调用率=实际提取的单词的对数/应提取的单词的对数 精度=正确的单词的对数/实际提取的单词的对数关于单词对齐,专利文献3应用二分图最佳匹配法。图4是基于二分 图最佳匹配的单词对齐装置的整体结构。单词对齐装置100具有输入例 句和其译文的对译例句对的输入部102;输出对齐的结果的输出部104; 将例句及译文进行形态素解析,分别提取它们所包含的单词和词类并赋 予编号的预处理部106;存储例句和其译文对的例句对译词典108;对从例句对译词典108输入的例句及译文对分别提取例句和译文的单词和词类,构筑可高速检索的语料库索引的语料库预处理部110;存储单词和其 对译的单词对译词典112;用单词对译词典进行单词对齐的类似度计算部 U4;存储由语料库预处理部110构筑的单词的索引表的单词索引表116; 用单词索引表的语料库统计信息求出单词和译词间的相关度的相关度计 算部118;通过二分图匹配方法消除确认度低的对齐候补和多对应的对齐 问题,实现单词间的对齐的优化的基于二分图的对齐部120。如图5 (a)所示,类似度计算部114及相关度计算部118,从上段的 第1语言的单词与下段的第2语言本文档来自技高网...

【技术保护点】
一种单词对齐装置,是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置,其特征在于,该单词对齐装置具有: 单词对译词典,其存储第1语言的单词与作为其对译的第2语言的单词、关于第1语言的单词的第2 语言的译词、以及关于第2语言的单词的第1语言的译词的对应关系; 输入单元,其输入第1语言的例句和作为该例句的对译的第2语言的例句; 单词提取单元,其从上述所输入的第1语言及第2语言的例句中分别提取第1语言及第2语言的单词;   第1对齐单元,其在上述提取的第1语言的单词和上述提取的第2语言的单词的对应关系包含于上述单词对译词典中时,使上述提取的第1语言的单词与上述提取的第2语言的单词对齐;以及 第2对齐单元,其对于未被上述第1对齐单元对齐的第1语言的单词, 在该第1语言的单词与第2语言的译词的对应关系包含于上述单词对译词典中时,使第1语言的单词与和第2语言的译词共同的上述提取的第2语言的多个单词对齐。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘绍明藤原久美吴宏林宋国龙
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1