一种面向增量式翻译的结构化语言模型构建方法及系统技术方案

技术编号:8366768 阅读:262 留言:0更新日期:2013-02-28 05:18
本发明专利技术公开了一种面向增量式翻译的结构化语言模型构建方法及系统,该方法包括:步骤1,对增量式生成的翻译片段进行依存句法分析,得到依存树片段集合;步骤2,在依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。步骤3,根据特征分数对依存树片段集合进行剪枝,将特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;步骤4,将下一个翻译片段通过移进-规约操作拼接到优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。本发明专利技术能在语言模型中融入句法信息和长距离依赖信息,在解码过程中为动态计算结构化语言模型提出有效的优化算法,提高了翻译质量。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,具体地说,本专利技术涉及一种面向增量式翻译模型的结构化语言模型。
技术介绍
统计语言模型作为一种计算自然语言生成概率的统计模型,在自然语言处理的很多问题中都起着至关重要的作用。在机器翻译问题中,对于新生成的翻译片段,我们使用语言模型计算其生成概率,并保留概率较高的翻译,从而达到提高翻译质量的效果。n-gram语言模型,也称η-I阶马尔科夫模型,是统计语言模型中应用最广泛的模型,它基于有限历史假设第η个词出现的概率仅与前面η-I个词相关。这一假设大大降低了语言模型的复 杂度,并使各种统计方法能够得到应用。这种方法能够良好地捕捉短距离语言特征,如常用搭配,词组,但这种基于词的模型缺乏捕捉句法信息和长距离语言信息的能力,因此导致生成不符合语法约束的翻译。现有的结构化语言模型(Ciprian Chelba, Frederick JelinekStructured language modeling Computer Speech & Language, 2000)基于句法树建立模型,将句法信息融入语言模型,从而能够弥补传统语言模型的不足,使结果更本文档来自技高网...

【技术保护点】
一种面向增量式翻译的结构化语言模型构建方法,其特征在于,包括:步骤1,对于增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集合;步骤2,在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。步骤3,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;步骤4,将下一个翻译片段通过移进?规约操作拼接到所述优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。

【技术特征摘要】

【专利技术属性】
技术研发人员:于恒米海涛刘群
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1