基于句法分析和层次模型的机器翻译系统和方法技术方案

技术编号:6867010 阅读:312 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于句法分析和层次模型的机器翻译系统和方法,所述机器翻译系统包括词对齐模块、短语提取模块、词性句法标注模块、基于句法的非连续短语提取模块、基于非连续短语的翻译模块和评分输出模块。所述机器翻译系统和方法在通用的基于连续短语的机器翻译模型基础上进行句法分析,从而从双语句对齐文本中提取基于句法的非连续短语规则库,解决全句上下文非连续固定搭配的问题,使其符合语言的句法特征;基于非连续短语规则库和短语对齐表进行翻译,对翻译结果基于评估模型进行评分,从而有效地改善了翻译效果。

【技术实现步骤摘要】

本专利技术涉及机器翻译,具体来讲,涉及一种。
技术介绍
机器翻译是将一种自然语言翻译成另一种自然语言的自动翻译,机器翻译系统的类型很多,目前流行的是基于连续短语的机器翻译(PBMT)系统。机器翻译要解决的问题是利用计算机将源语言(SL)的句子或片段自动翻译成对应的目标语言(TL)的句子或片段。 基于语料库的机器翻译包含一个双语对齐语料库(即每一句源语言句子均有一句或多句对应的目标语言的翻译),计算机进行自动翻译所需要的数据和知识都从语料库中得到。PBMT系统以短语为翻译的基本单位。在翻译过程中,系统不是孤立地翻译每个词, 而是将连续的多个词一起进行翻译。由于扩大了翻译的粒度,基于短语的方法很容易处理局部上下文依赖关系,能够很好地翻译习语和常用词搭配。一般的,在基于短语的方法中, 短语可以是任意连续的字符串,没有句法上的限制,这样可以方便地从词语对齐的双语语料库中自动提取双语短语翻译为指定的一个源语言句子。基于短语的方法需要对系统进行训练。训练的时候,先输入一个双语语料库,即一组互为翻译的句子。从词语对齐的结果中知道句子中哪些词是互为翻译的。接下来还需要进行短语提取,也就是提取出语料库中所有互为翻译的连续的词串,而不用管这个词串是否具有真正的含义。PBMT具有如下缺陷(1)由于局部上下文依赖关系,PBMT不能很好地进行处理较长的句子或短语,尤其是非连续的固定搭配所带来的长距离调序问题;⑵由于PBMT完全依靠连续短语统计信息,忽略了语言的句法特征,未能充分利用语料库所包含的知识,从而限制了其翻译效果的进一步提高。
技术实现思路
针对以上提到的缺点,本专利技术的目的在于提供一种。根据本专利技术的一方面,提供了一种基于句法分析和层次模型的机器翻译系统,所述机器翻译系统可包括词对齐模块,从外部接收双语句对齐文本,并从接收的双语对齐文本中获得词对齐信息;短语提取模块,从词对齐模块接收词对齐信息,利用接收的词对齐信息进行短语提取,以获得短语对齐表;词性句法标注模块,从外部接收已标注语料库和双语句对齐文本,从已标注语料库中提取有用的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库;基于句法的非连续短语提取模块,从词性句法标注模块接收句法标注语料库,并基于句法标注语料库根据词对齐模块产生的对齐信息或短语提取模块产生的短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;基于非连续短语的翻译模块,从非连续短语提取模块接收基于句法的非连续短语规则库,并对待翻译句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率,并输出翻译结果;评分输出模块,从外部接收评估模型,基于评估模型对翻译结果进行评分, 并输出得分最高的翻译结果。所述机器翻译系统还可包括基于连续短语的翻译模块,从短语提取模块接收短语对齐表,对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率,并将翻译结果输出到评分输出模块。基于句法的非连续短语提取模块可包括非连续短语提取模块,根据词对齐模块产生的词对齐信息或短语提取模块产生的短语对齐表,将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;句法过滤模块,基于句法标注语料库对非连续短语提取模块产生的非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。所述概率分布信息可包括特定词语属于特定词类的概率、特定短语属于特定类短语的概率以及上下文概率。所述短语对齐表可包括源语言短语、目标语言短语和概率值。根据本专利技术的另一方面,提供了一种基于句法分析和层次模型的机器翻译方法, 所述机器翻译方法包括以下步骤接收双语句对齐文本,并从接收的双语对齐文本中获得词对齐信息;利用词对齐信息进行短语提取,以获得短语对齐表;接收已标注语料库和双语句对齐文本,从已标注语料库中提取有用的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注, 产生句法标注语料库;基于句法标注语料库根据对齐信息或短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;对待翻译句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率;接收评估模型,基于评估模型对所述翻译进行评分,并输出得分最高的翻译结果。所述机器翻译方法还可包括以下步骤对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率。产生基于句法的非连续短语规则库的步骤可包括以下步骤根据词对齐信息或短语对齐表将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;基于句法标注语料库对非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。根据本专利技术的机器翻译系统和方法在通用的基于连续短语的机器翻译模型基础上进行句法分析,从而从双语句对齐文本中提取基于句法的非连续短语规则库,解决全句上下文非连续固定搭配的问题,使其符合语言的句法特征;基于非连续短语规则库和短语对齐表进行翻译,对翻译结果基于评估模型进行评分,从而有效地改善了翻译效果。附图说明通过参照附图对本专利技术示例性实施例的详细描述,本专利技术的以上和其他特征和方面将变得更清楚,其中图1是示出根据本专利技术示例性实施例的基于句法分析和层次模型的机器翻译系统的框图2是示出构造句法标注语料库的示图;图3是示出根据本专利技术示例性实施例的图1中示出的基于句法的非连续短语提取模块的示图;图4是示出图3中的非连续短语提取模块操作的示例的示图;图5是示出非连续短语规则库的单语句法分析过滤的示例的示图;图6A和图6B是分别示出根据本专利技术示例性实施例和传统技术的机器翻译的示图;图7是示出根据本专利技术示例性实施例的基于句法分析和层次短语模型的机器翻译方法的流程图。具体实施例方式以下,将参照附图详细描述本专利技术的示例性实施例。图1是示出根据本专利技术示例性实施例的基于句法分析和层次短语模型的机器翻译系统。如图1所示,根据本专利技术示例性实施例的基于句法分析和层次短语模型的机器翻译系统包括词对齐模块101、短语提取模块102、基于连续短语的翻译模块103、词性句法标注模块201、基于句法的非连续短语提取模块202、基于非连续短语的翻译模块301和评分输出模块302。词对齐模块101、短语提取模块102、基于连续短语的翻译模块103是采用传统的基于连续短语的翻译系统中所使用的模块,其与根据本专利技术示例性实施例的词性句法标注模块201、基于句法的非连续短语提取模块202共同构成根据本专利技术示例性实施例的基于句法分析和层次短语模型的机器翻译系统的预处理部分。而基于连续短语的翻译模块103 和根据本专利技术示例性实施例的基于非连续短语的翻译模块301和评分输出模块302可构成根据本专利技术示例性实施例的基于句法分析和层次短语模型的机器翻译系统的翻译引擎。参照图1,将双语句对齐文本输入到词对齐模块101,词对齐模块101利用工具 (例如,GIZA++)从输入的双语对齐文本中获得词对齐信息,并将该对词齐信息输入到短语提取模块102。短语提取模块102从词对齐模块101接收词对齐信息,利用接收的词对齐信息进行短语提取,从而获得短语对齐表(也被称为连本文档来自技高网...

【技术保护点】
1.一种基于句法分析和层次模型的机器翻译系统,包括:词对齐模块,从外部接收双语句对齐文本,并从接收的双语对齐文本中获得词对齐信息;短语提取模块,从词对齐模块接收词对齐信息,利用接收的词对齐信息进行短语提取,以获得短语对齐表;词性句法标注模块,从外部接收已标注语料库和双语句对齐文本,从已标注语料库中提取有用的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库;基于句法的非连续短语提取模块,从词性句法标注模块接收句法标注语料库,并基于句法标注语料库根据词对齐模块产生的对齐信息或短语提取模块产生的短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;基于非连续短语的翻译模块,从非连续短语提取模块接收基于句法的非连续短语规则库,并对待翻译句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率,并输出翻译结果;评分输出模块,从外部接收评估模型,基于评估模型对翻译结果进行评分,并输出得分最高的翻译结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:熊张亮何亮万磊
申请(专利权)人:三星电子中国研发中心三星电子株式会社
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1