统计机译中短语化联合概率模型的短语制造技术

技术编号：2861466 阅读：159 留言：0更新日期：2012-04-11 18:40

机译（ＭＴ）系统利用基于短语的并集概率模型。所述模型用来同时生成源语言和目标语言。在一实施例中，所述模型根据单词到单词统计机译系统生成的单词到单词校准学习短语到短语校准。所述系统将并集概率模型用于源语言到目标语言的翻译应用和目标语言到源语言的翻译应用。（*该技术在2023年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
对相关申请的交叉引用本申请要求2002年3月27日提交的序号为60/368450的美国临时申请优先权，该临时申请通过引用包含于文中。专利技术来源本应用中描述的研发得到DARPA-ITO的授权号N66001-00-1-9814和NSF-STTR授权0128379的支持。美国政府对所述要求权利的专利技术有一些权利。背景大多数用于统计机译(MT)的基于噪声信道的模型是条件概率模型。在噪声信道框架中，假定并行语料库中的每个源句e通过随机过程(其参数用传统期望最大值(EM)技术估算)生成目标句f。该生成式模型说明源词如何映射进目标词及如何对目标词重排序以产生结构好的目标句。使用多种方法解决目标词的重排序，包括使用基于词、基于模板和基于句法的模型(这里只罗列几个)。尽管这些模型用不同的生成式过程说明所译的词是如何在目标语言中得到重排序的，在词汇层面上这些模型都假定源词是单个地译成目标词的。概述机译(MT)系统用一或更多双语语料库形成概率短语到短语翻译词典。例如，用并集概率方法、词到词条件方法或其他方法形成翻译词典。机译系统用翻译词典翻译一或更多句子(或句子片断)。例如，机译系统用优先策略、用使用聚束解码器的方法或用其它方法对句子解码。在用基于短语的并集概率模型形成翻译词典的实施例中，同时生成源语言句和目标语言句。该系统将并集概率模型用于源语言到目标语言的翻译应用和目标语言到源语言的翻译应用。在使用单词到单词条件方法的实施例中，所述模型根据单词到单词统计机译系统生成的单词到单词校准学习短语到短语校准。附图简述附图说明图1是包括基于短语的并集概率翻译模型的机译(MT)系统的...

【技术保护点】
一种方法，其特征在于，包括：采用包括多个两种语言间的并列文本的并列语料库训练基于短语的连接概率模型。

【技术特征摘要】
US 2002-3-27 60/368,4501.一种方法，其特征在于，包括采用包括多个两种语言间的并列文本的并列语料库训练基于短语的连接概率模...

【专利技术属性】
技术研发人员：D马库，K奈特，W王，P科恩，
申请(专利权)人：南加利福尼亚大学，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人