统计机译中短语化联合概率模型的短语制造技术

技术编号:2861466 阅读:159 留言:0更新日期:2012-04-11 18:40
机译(MT)系统利用基于短语的并集概率模型。所述模型用来同时生成源语言和目标语言。在一实施例中,所述模型根据单词到单词统计机译系统生成的单词到单词校准学习短语到短语校准。所述系统将并集概率模型用于源语言到目标语言的翻译应用和目标语言到源语言的翻译应用。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
对相关申请的交叉引用本申请要求2002年3月27日提交的序号为60/368450的美国临时申请优先权,该临时申请通过引用包含于文中。专利技术来源本应用中描述的研发得到DARPA-ITO的授权号N66001-00-1-9814和NSF-STTR授权0128379的支持。美国政府对所述要求权利的专利技术有一些权利。背景大多数用于统计机译(MT)的基于噪声信道的模型是条件概率模型。在噪声信道框架中,假定并行语料库中的每个源句e通过随机过程(其参数用传统期望最大值(EM)技术估算)生成目标句f。该生成式模型说明源词如何映射进目标词及如何对目标词重排序以产生结构好的目标句。使用多种方法解决目标词的重排序,包括使用基于词、基于模板和基于句法的模型(这里只罗列几个)。尽管这些模型用不同的生成式过程说明所译的词是如何在目标语言中得到重排序的,在词汇层面上这些模型都假定源词是单个地译成目标词的。概述机译(MT)系统用一或更多双语语料库形成概率短语到短语翻译词典。例如,用并集概率方法、词到词条件方法或其他方法形成翻译词典。机译系统用翻译词典翻译一或更多句子(或句子片断)。例如,机译系统用优先策略、用使用聚束解码器的方法或用其它方法对句子解码。在用基于短语的并集概率模型形成翻译词典的实施例中,同时生成源语言句和目标语言句。该系统将并集概率模型用于源语言到目标语言的翻译应用和目标语言到源语言的翻译应用。在使用单词到单词条件方法的实施例中,所述模型根据单词到单词统计机译系统生成的单词到单词校准学习短语到短语校准。附图简述附图说明图1是包括基于短语的并集概率翻译模型的机译(MT)系统的框图。图2示出由基于短语的并集概率模型生成的校准和概率分布。图3是描述基于短语的并集概率模型的训练算法的流程图。图4示出一例基于短语的优先解码。图5是根据一实施例描述基于短语的解码算法的流程图。图6示出描述基于短语的解码算法的伪码。图7示出前提假设间的弧的生成。图8示出短语长度对性能的影响。图9示出一例词法重量估算。图10示出词法对性能的影响。图11比较不同的启发式方法的性能。详细描述本说明中的系统和技术用来提供较有效精确的机译(MT)。在一些实施例中,机译系统形成短语到短语概率翻译词典。从双语语料库中用例如,并集概率模型或单词到单词条件模型自动学习概率翻译词典。这些翻译词典便用来翻译新句。即,翻译词典用来翻译用来训练机译系统的语料库中没有的句子。翻译系统和技术包括优先策略、使用聚束解码器的方法或其它方法。图1示出包括翻译模型105和解码器110的机译(MT)系统100。翻译模型105包括从双语语料库习得的翻译词典。翻译模型105假定可在单词层面及短语层面建立词汇对应。解码器110根据输入句用翻译词典提供译句。短语到短语翻译词典形成。根据一些实施例,模型105根据并集概率模型得到训练。即,模型105用包括并行的源语言串和目标语言串的并行语料库115自动生成翻译词典。模型105并不试图捕获源句如何映射进目标句,而是同时生成源句和目标句。换言之,翻译模型是并集概率模型,该并集概率模型可容易地边缘化以产生用于源至目标机译应用和目标至源机译应用的条件概率模型。在一实施例中,模型105用以下随机过程生成句对1.生成一包概念C。2.根据分配 对每个概念ci∈C生成短语对 其中 和 各含至少一词。3.对每种语言的短语排序以生成短语的两线性序列;序列对应双语语料库中的句对。简便起见,假定该包概念和对所生成的短语的排序按照均匀分布建模。还假定ci=(e→i,f→i).]]>在这些假定下,用概念ci∈C生成句对(E,F)的概率即所有短语到短语翻译概率的乘积Πci∈c(e→i,f→i),]]>该乘积产生数包短语,这些数包短语可线性排序以获得句子E和F。表2说明一例。句对“abc”-“xy”可用两概念(“ab”:“y”)和(“c”:“x”)或一概念(“abc”:“xy”)生成,因为在这两种情况下,每种语言的短语可按产生原始句对的序列排列。然而,不能用概念(“ab”:“y”)和(“c”:“y”)生成同一句对,因为不能从两短语“y”和“y”重新生成序列“xy”。类似地,句对可用概念(“ac”:“x”)和(“b”:“y”)生成,因为不能通过并置短语“ac”和“b”生成序列“abc”。如果E和F可通过排列具有所有概念ci∈C的特点的短语 和 而获得,则概念C集可线性为句对(E,F)。我们用谓词L(E,F,C)表示该特性。在此模型下,将生成可线性为(E,F)的数包概念ci∈C的所有可能的方法相加而得到给定句对(E,F)的概率。p(E,F)=Σc=c|L(E,F,C)Πci∈Ct(e→i,f→i)]]>上述模型(模型1)可有相当好的校准。不过,该模型不适于翻译未见句,因为它对与给定概念相关的短语的排序无限制。为说明之,开发了改进模型(模型2)以说明失真。该模型的生成过程为1.生成一包概念C。2.初始化E和F以清除序列。3.根据分布 (其中 和 各含至少一词)随机取概念ci∈C并生成短语对 然后从C除去ci。4.在F端附加短语 把k当作F中的起始位 5.如果无其他短语占据位置1或位置 ( 是短语 的长度),将短语 插于E中的位置1处。系统因而以概率(d(i,j)是基于位置的失真分布)生成两短语 和 间的校准Πp=kk+|f→|d(p,(l+|e→i|)/2).]]>6.重复步骤3到5直至C为空。在该模型中,生成句对(E,F)的概率由下式表示p(E,F)=ΣC∈|L(E,F,C)Πci∈C[t(ei,fi)×Πk=1|f→i|d(pos(fik),poscm(e→i))]]]>其中, 表示句F中短语 的词k的位置,表示海量短语ei中心的句子E中的位置。训练上述模型计算上具挑战性。由于有一指数个能生成句对(E,F)的校准,不能穷举地应用期望最大值(EM)训练算法。图3是将该问题考虑进去的基于短语的并集概率模型的训练算法300的流程图。系统确定E和F中的高频(块305)。如果一开始便假定可从概念生成短语e→i∈E*]]>和f→i∈F*,]]>则需一超级计算机以将对 分布建模的表存储于存储器中。因为系统未接入有无限内存的计算机,系统起初只对经常出现在语料库中的短语和学习t个分布目录。然后,通过平滑,系统也学习出现少的短语的t个分布目录。为在下一步算法得到考虑,一短语至少须在语料库中出现五次。下一步是初始化t分布表(块310本文档来自技高网...

【技术保护点】
一种方法,其特征在于,包括:采用包括多个两种语言间的并列文本的并列语料库训练基于短语的连接概率模型。

【技术特征摘要】
US 2002-3-27 60/368,4501.一种方法,其特征在于,包括采用包括多个两种语言间的并列文本的并列语料库训练基于短语的连接概率模...

【专利技术属性】
技术研发人员:D马库K奈特W王P科恩
申请(专利权)人:南加利福尼亚大学
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1