本发明专利技术公开了一种面向增量式翻译的结构化语言模型构建方法及系统,该方法包括:步骤1,对增量式生成的翻译片段进行依存句法分析,得到依存树片段集合;步骤2,在依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。步骤3,根据特征分数对依存树片段集合进行剪枝,将特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;步骤4,将下一个翻译片段通过移进-规约操作拼接到优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。本发明专利技术能在语言模型中融入句法信息和长距离依赖信息,在解码过程中为动态计算结构化语言模型提出有效的优化算法,提高了翻译质量。
【技术实现步骤摘要】
本专利技术涉及自然语言处理
,具体地说,本专利技术涉及一种面向增量式翻译模型的结构化语言模型。
技术介绍
统计语言模型作为一种计算自然语言生成概率的统计模型,在自然语言处理的很多问题中都起着至关重要的作用。在机器翻译问题中,对于新生成的翻译片段,我们使用语言模型计算其生成概率,并保留概率较高的翻译,从而达到提高翻译质量的效果。n-gram语言模型,也称η-I阶马尔科夫模型,是统计语言模型中应用最广泛的模型,它基于有限历史假设第η个词出现的概率仅与前面η-I个词相关。这一假设大大降低了语言模型的复 杂度,并使各种统计方法能够得到应用。这种方法能够良好地捕捉短距离语言特征,如常用搭配,词组,但这种基于词的模型缺乏捕捉句法信息和长距离语言信息的能力,因此导致生成不符合语法约束的翻译。现有的结构化语言模型(Ciprian Chelba, Frederick JelinekStructured language modeling Computer Speech & Language, 2000)基于句法树建立模型,将句法信息融入语言模型,从而能够弥补传统语言模型的不足,使结果更加符合句法性。但其采用较为复杂的概率模型,且需要在一棵完整的句法树进行计算。无法满足机器翻译问题中增量式生成翻译并同时进行语言模型计算的需求。
技术实现思路
本专利技术的目的是提出一种面向增量式翻译的结构化语言模型构建方法及系统,弥补了传统语言模型在捕捉句法信息方面的不足,能在语言模型中融入句法信息和长距离依赖信息,在解码过程中为动态计算结构化语言模型提出有效的优化算法,提高了翻译质量。为实现上述目的,本专利技术提出了一种面向增量式翻译的结构化语言模型构建方法,包括步骤1,对增量式生成的翻译片段进行依存句法分析,得到依存树片段集合;步骤2,在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。步骤3,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;步骤4,将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。其中所述步骤I中所述翻译片段是按从左到右的顺序生成的,并通过移进-规约依存句法分析器进行依存句法分析,该分析器按照增量式进行解码。所述步骤I中依存树片段是指未完成的依存树子结构,是依存树中的任意联通子图。进一步的,所述步骤2中是按照判别式依存特征抽取方法,参照基于动态规划算法的增量式句法分析,第二章(Liang Huang and Kenji Sagae,2010,Dynamic Programmingfor Linear-Time Incremental Parsing, Proceedings of the 48st Meeting of theAssociation for Computational Linguistics)的方法,获得判别式特征实例。进一步的,所述步骤3中的构建剪枝过程如下a)对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小;b)将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。 本专利技术还提供了一种面向增量式翻译的结构化语言模型构建系统,包括依存句法分析模块,用于对增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集合;特征分数计算模块,用于在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。依存树片段优化模块,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;依存树构建模块,用于将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复执行依存句法分析模块、特征分数计算模块、依存树片段优化模块,直到翻译结束生成完整的依存树。其中,所述依存句法分析模块中的所述翻译片段是按从左到右的顺序生成的,并通过移进-规约依存句法分析器进行依存句法分析,该分析器按照增量式进行解码。而所述依存句法分析模块中的所述依存树片段是指未完成的依存树子结构,是依存树中的任意联通子图。进一步的,所述特征分数计算模块中是按照判别式依存特征抽取方法,参照基于动态规划算法的增量式句法分析,第二章(Liang Huang and KenjiSagae, 2010, DynamicProgramming for Linear-Time Incremental Parsing, Proceedings of the 48st Meetingof the Association for Computational Linguistics,)的方法。获得判别式特征实例。进一步的,所述依存树片段优化模块包括处理模块,对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小;选择模块,用于将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。本专利技术具有如下技术效果本专利技术将结构化语言模型用于增量式机器翻译模型,弥补了传统语言模型在捕捉句法信息方面的不足。在150万汉英平行句对上,英语为目标语言,本专利技术较传统语言模型在测试集困惑度上下降了 2%,并在翻译质量上提高I. 12个BLEU点。以下结合附图和具体实施例对本专利技术进行详细描述,但不作为对本专利技术的限定。附图说明图I是本专利技术的结构化语言模型构建方法流程图;图2是本专利技术的结构化语言模型构建系统示意图;图3为本专利技术中分组剪枝策略和同等状态合并策略的实例;图4为图2中同等状态A, B的特征窗口。 具体实施例方式如图I所示,图I是本专利技术的结构化语言模型构建方法流程图,该方法包括以下步骤步骤1,对于增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集口 ο依存分析的主要任务是对输入的翻译片段进行依存分析得到相应的依存树片段集合。由于目前应用最广的机器翻译系统都是增量式生成翻译,所以必须使用解码顺序相同的依存分析算法,本实例中采用移进-规约算法,可参考增量式确定性依存句法分析,第三,四章(Joakim Nivre. 2004. Incrementality indeterministic dependencyparsing. In Proceedings of the ACL Workshop Incremental Parsing. Association forComputational Linguistics)其中包含以下两种操作I)移进从当前输入串移入一个词,将其移至句法分析栈顶端,并将其作为一个节点拼接至已有依存树片段本文档来自技高网...
【技术保护点】
一种面向增量式翻译的结构化语言模型构建方法,其特征在于,包括:步骤1,对于增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集合;步骤2,在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。步骤3,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;步骤4,将下一个翻译片段通过移进?规约操作拼接到所述优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。
【技术特征摘要】
【专利技术属性】
技术研发人员:于恒,米海涛,刘群,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。